Méthodes statistiques

Indicateurs clés

Toute modification apportera automatiquement une mise à jour au contenu de la page.

Région géographique choisie : Canada

Région géographique choisie : Terre Neuve et Labrador

Région géographique choisie : Île-du-Prince-Edouard

Région géographique choisie : Nouvelle-Écosse

Région géographique choisie : Nouveau-Brunswick

Région géographique choisie : Québec

Région géographique choisie : Ontario

Région géographique choisie : Manitoba

Région géographique choisie : Saskatchewan

Région géographique choisie : Alberta

Région géographique choisie : Colombie-Britannique

Région géographique choisie : Yukon

Région géographique choisie : Territoires du Nord-Ouest

Région géographique choisie : Nunavut

Aide à l'ordre
entrées

Résultats

Tout (202)

Tout (202) (0 à 10 de 202 résultats)

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200011
    Description : Le présent article permet d’examiner des plans d’échantillonnage pour les populations qui peuvent être représentées sous forme de matrice N × M. Par exemple, pour l’étude des activités touristiques, les lignes peuvent représenter les endroits visités par les touristes et les colonnes, les jours pendant la saison touristique. L’objectif est d’échantillonner les cellules (i, j) de la matrice lorsque le nombre de sélections dans chaque ligne et chaque colonne est a priori fixe. La taille d’échantillon de la ie ligne représente le nombre de cellules sélectionnées dans la ligne i, tandis que la taille d’échantillon de la je colonne correspond au nombre de cellules sélectionnées dans la colonne j. Un plan d’échantillonnage matriciel donne une matrice d’indicateurs d’échantillon N × M, avec l’entrée 1 à la position (i, j) si la cellule (i, j) est échantillonnée, et 0 autrement. Le premier plan d’échantillonnage matriciel étudié comporte un niveau d’échantillonnage et les tailles d’échantillon des lignes et des colonnes sont établies à l’avance : les tailles d’échantillon des lignes peuvent varier, tandis que les tailles d’échantillon des colonnes sont toutes identiques. Nous pouvons considérer les marges fixes comme des contraintes d’équilibrage et nous examinons les algorithmes possibles pour la sélection de ces échantillons. Nous abordons ensuite un nouvel estimateur de variance de l’estimateur de Horvitz-Thompson pour la moyenne de la variable d’enquête y. Plusieurs niveaux d’échantillonnage peuvent être requis pour tenir compte de toutes les contraintes, ce qui nécessite des plans d’échantillonnage matriciel à plusieurs niveaux, que nous étudions également.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200013
    Description : Jean-Claude Deville compte parmi les plus éminents chercheurs dans la théorie et la pratique des sondages. Ses travaux sur l’échantillonnage équilibré, l’échantillonnage indirect et le calage en particulier sont reconnus au niveau international et largement utilisés en statistique officielle. Il est également pionnier dans le domaine de l’analyse statistique des données fonctionnelles. Le présent article nous donne l’occasion de reconnaître l’immense travail qu’il a accompli, et de lui rendre hommage. Dans la première partie, nous évoquons brièvement la contribution de Jean-Claude à l’analyse statistique en composantes principales fonctionnelles. Nous détaillons également certaines extensions récentes de ses travaux au croisement des domaines de l’analyse statistique des données fonctionnelles et de la théorie des sondages. Dans la seconde partie, nous présentons une extension de son travail dans le domaine de l’échantillonnage indirect. Ces résultats de recherche sont motivés par des applications concrètes et illustrent l’influence de Jean-Claude sur notre travail de chercheuses.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100006
    Description : Mes commentaires sont répartis en trois volets : 1) bref compte rendu de mon association professionnelle avec Chris Skinner, 2) observations sur les réalisations de Skinner en matière de contrôle de la divulgation statistique et 3) propos sur la production d’inférences à partir de données d’enquête masquées.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100003
    Description :

    L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 11-522-X202100100009
    Description :

    Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.

    Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100021
    Description : L’Institut national italien de statistique (Istat) a lancé un nouveau projet relatif aux processus statistiques à court terme, afin de respecter la future nouvelle réglementation européenne visant à diffuser des estimations plus rapidement. L’évaluation et l’analyse du processus d’enquête actuel de l’enquête à court terme sur le chiffre d’affaires dans les services (FAS) visent à relever la façon dont les meilleures caractéristiques des méthodes et pratiques actuelles peuvent être exploitées pour concevoir un processus plus « efficace ». Le projet devrait, en particulier, fournir des méthodes permettant d’appliquer en général d’importantes économies d’échelle, de portée et de connaissances au contexte de production des enquêtes à court terme, qui ont généralement recours à un nombre restreint de ressources. L’analyse du processus TEL QUEL a révélé que l’enquête FAS entraînait des coûts substantiels de vérification et d’imputation, en particulier du fait de l’importance du suivi et de la vérification interactive utilisés pour tous les types d’erreurs détectées. Dans cette optique, nous avons essayé d’exploiter les leçons retenues en participant au Groupe de haut niveau sur la modernisation des statistiques officielles (GHN-MSO, CEE-ONU) sur l’utilisation de l’apprentissage automatique dans les statistiques officielles. Dans cette étude, nous présentons une première expérience utilisant les modèles de forêt aléatoire pour : (i) prédire les unités représentant des données « douteuses », (ii) évaluer l’utilisation du potentiel de prédiction sur de nouvelles données et (iii) explorer des données afin de relever des règles et des tendances cachées. Nous nous concentrons en particulier sur le recours à la modélisation par forêt aléatoire pour comparer certaines autres méthodes en matière d’efficacité de la prédiction d’erreurs et pour traiter des aspects principaux de la nouvelle conception du schéma de vérification et d’imputation.
    Date de diffusion : 2021-10-15

  • Articles et rapports : 18-001-X2020001
    Description :

    Le présent article décrit la méthodologie qui a utilisée pour générer la première mouture de cette base de données, qui contient les résultats obtenus à partir d'un premier ensemble de dix mesures. Les méthodes de calcul sont présentées sous forme de modèle généralisable, car il est maintenant possible d'appliquer des méthodes similaires à une multitude d'autres services et commodités, avec diverses autres spécifications.

    Date de diffusion : 2021-02-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (186)

Analyses (186) (0 à 10 de 186 résultats)

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200011
    Description : Le présent article permet d’examiner des plans d’échantillonnage pour les populations qui peuvent être représentées sous forme de matrice N × M. Par exemple, pour l’étude des activités touristiques, les lignes peuvent représenter les endroits visités par les touristes et les colonnes, les jours pendant la saison touristique. L’objectif est d’échantillonner les cellules (i, j) de la matrice lorsque le nombre de sélections dans chaque ligne et chaque colonne est a priori fixe. La taille d’échantillon de la ie ligne représente le nombre de cellules sélectionnées dans la ligne i, tandis que la taille d’échantillon de la je colonne correspond au nombre de cellules sélectionnées dans la colonne j. Un plan d’échantillonnage matriciel donne une matrice d’indicateurs d’échantillon N × M, avec l’entrée 1 à la position (i, j) si la cellule (i, j) est échantillonnée, et 0 autrement. Le premier plan d’échantillonnage matriciel étudié comporte un niveau d’échantillonnage et les tailles d’échantillon des lignes et des colonnes sont établies à l’avance : les tailles d’échantillon des lignes peuvent varier, tandis que les tailles d’échantillon des colonnes sont toutes identiques. Nous pouvons considérer les marges fixes comme des contraintes d’équilibrage et nous examinons les algorithmes possibles pour la sélection de ces échantillons. Nous abordons ensuite un nouvel estimateur de variance de l’estimateur de Horvitz-Thompson pour la moyenne de la variable d’enquête y. Plusieurs niveaux d’échantillonnage peuvent être requis pour tenir compte de toutes les contraintes, ce qui nécessite des plans d’échantillonnage matriciel à plusieurs niveaux, que nous étudions également.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200013
    Description : Jean-Claude Deville compte parmi les plus éminents chercheurs dans la théorie et la pratique des sondages. Ses travaux sur l’échantillonnage équilibré, l’échantillonnage indirect et le calage en particulier sont reconnus au niveau international et largement utilisés en statistique officielle. Il est également pionnier dans le domaine de l’analyse statistique des données fonctionnelles. Le présent article nous donne l’occasion de reconnaître l’immense travail qu’il a accompli, et de lui rendre hommage. Dans la première partie, nous évoquons brièvement la contribution de Jean-Claude à l’analyse statistique en composantes principales fonctionnelles. Nous détaillons également certaines extensions récentes de ses travaux au croisement des domaines de l’analyse statistique des données fonctionnelles et de la théorie des sondages. Dans la seconde partie, nous présentons une extension de son travail dans le domaine de l’échantillonnage indirect. Ces résultats de recherche sont motivés par des applications concrètes et illustrent l’influence de Jean-Claude sur notre travail de chercheuses.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100006
    Description : Mes commentaires sont répartis en trois volets : 1) bref compte rendu de mon association professionnelle avec Chris Skinner, 2) observations sur les réalisations de Skinner en matière de contrôle de la divulgation statistique et 3) propos sur la production d’inférences à partir de données d’enquête masquées.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100003
    Description :

    L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 11-522-X202100100009
    Description :

    Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.

    Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100021
    Description : L’Institut national italien de statistique (Istat) a lancé un nouveau projet relatif aux processus statistiques à court terme, afin de respecter la future nouvelle réglementation européenne visant à diffuser des estimations plus rapidement. L’évaluation et l’analyse du processus d’enquête actuel de l’enquête à court terme sur le chiffre d’affaires dans les services (FAS) visent à relever la façon dont les meilleures caractéristiques des méthodes et pratiques actuelles peuvent être exploitées pour concevoir un processus plus « efficace ». Le projet devrait, en particulier, fournir des méthodes permettant d’appliquer en général d’importantes économies d’échelle, de portée et de connaissances au contexte de production des enquêtes à court terme, qui ont généralement recours à un nombre restreint de ressources. L’analyse du processus TEL QUEL a révélé que l’enquête FAS entraînait des coûts substantiels de vérification et d’imputation, en particulier du fait de l’importance du suivi et de la vérification interactive utilisés pour tous les types d’erreurs détectées. Dans cette optique, nous avons essayé d’exploiter les leçons retenues en participant au Groupe de haut niveau sur la modernisation des statistiques officielles (GHN-MSO, CEE-ONU) sur l’utilisation de l’apprentissage automatique dans les statistiques officielles. Dans cette étude, nous présentons une première expérience utilisant les modèles de forêt aléatoire pour : (i) prédire les unités représentant des données « douteuses », (ii) évaluer l’utilisation du potentiel de prédiction sur de nouvelles données et (iii) explorer des données afin de relever des règles et des tendances cachées. Nous nous concentrons en particulier sur le recours à la modélisation par forêt aléatoire pour comparer certaines autres méthodes en matière d’efficacité de la prédiction d’erreurs et pour traiter des aspects principaux de la nouvelle conception du schéma de vérification et d’imputation.
    Date de diffusion : 2021-10-15

  • Articles et rapports : 18-001-X2020001
    Description :

    Le présent article décrit la méthodologie qui a utilisée pour générer la première mouture de cette base de données, qui contient les résultats obtenus à partir d'un premier ensemble de dix mesures. Les méthodes de calcul sont présentées sous forme de modèle généralisable, car il est maintenant possible d'appliquer des méthodes similaires à une multitude d'autres services et commodités, avec diverses autres spécifications.

    Date de diffusion : 2021-02-15
Références (16)

Références (16) (0 à 10 de 16 résultats)

  • Enquêtes et programmes statistiques — Documentation : 68-514-X
    Description :

    L'approche utilisée par Statistique Canada pour la collecte et la diffusion de données économiques a évolué depuis plusieurs décennies vers un système de collecte et d'estimation fortement intégré qui alimente le cadre du Système de comptabilité nationale du Canada.

    L'élément clé de cette approche a été la création de l'Enquête unifiée auprès des entreprises, qui avait pour objet d'améliorer l'uniformité, la cohérence, l'ampleur et la profondeur des données des enquêtes-entreprises.

    L'EUE a atteint cet objectif en regroupant dans un cadre commun un grand nombre d'enquêtes-entreprises annuelles du Canada. Ce cadre comprenait une seule base de sondage, un schéma pour le plan d'échantillonnage, l'harmonisation conceptuelle du contenu des enquêtes, divers moyens d'utiliser les données administratives pertinentes, une collecte intégrée des données, des outils de traitement et d'analyse, et un entrepôt central de données.

    Date de diffusion : 2006-11-20

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2005002
    Description :

    Le présent document fournit un aperçu des différences entre l'ancienne et la nouvelle méthodologie de pondération, ainsi que des effets du nouveau système de pondération sur les estimations.

    Date de diffusion : 2005-06-30

  • Enquêtes et programmes statistiques — Documentation : 31-533-X
    Description :

    Commençant avec le mois de référence août 2004, l'Enquête mensuelle sur les industries manufacturières (EMIM) utilise des données administratives (fichiers de la taxe sur les produits et services) pour l'estimation des livraisons manufacturières pour une portion de petits établissements de l'échantillon. Ce document a été publié pour servir de complément à la diffusion des données de l'EMIM pour ce mois.

    Date de diffusion : 2004-10-15

  • Avis et consultations : 87-004-X20000035566
    Géographie : Canada
    Description :

    Comme plusieurs autres domaines de Statistique Canada, le Programme de la statistique culturelle (PSC) tire parti des conseils avisés d'un comité consultatif externe. Fondé en 1984, le Comité consultatif national de la statistique culturelle (CCNSC) a pour mandat de donner des conseils sur la mise en place d'activités statistiques liées à tous les aspects de l'art et de la culture au Canada.

    Date de diffusion : 2001-03-16

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015648
    Description :

    On estime les paramètres d'un modèle stochastique des carrières au sein de la population active tenant compte de la répartition des périodes corrélées d'emploi, de chômage (avec et sans recherche d'emploi) et de non appartenance à la population active. Aucune source unique de données n'est complètement satisfaisante si l'on veut que le modèle refléte les tendances infra-annuelles de l'emploi, ainsi que la progression vers l'âge de la retraite. Par contre, on peut calculer une approximation d'après plusieurs sources de données distinctes.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015666
    Description :

    L'échantillon de fusion obtenu par un procédé d'appariement statistique peut être considéré comme un échantillon tiré d'une population artificielle. Nous dérivons la distribution de cette population artificielle. Si la corrélation entre des variables spécifiques est le seul point d'intérêt, l'importance de l'indépendance conditionnelle peut être réduite. Dans une étude de simulation, nous examinons les effets de la non-confirmation de certaines hypothèses formulées pour obtenir la distribution de la population artificielle. Enfin, nous présentons des idées au sujet de l'établissement de la supposée indépendance conditionnelle par l'analyse de classes latentes.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015670
    Description :

    Pour atteindre efficacement leur public cible, les publicistes et les planificateurs des médias ont besoin de savoir quel pourcentage de consommateurs de Coke diète regardent Alerte à Malibu, ou combien de clients d'AT&T ont vu une annonce de Sprint au cours de la dernière semaine. Toutes les données pertinentes pourraient en théorie être recueillies auprès de chacun des répondants. Toutefois, la collecte de données précises et détaillées serait très coûteuse. Elle imposerait en outre un fardeau important aux répondants, compte tenu de la technique de collecte utilisée actuellement. Pour le moment, ces donées sont recueillies dans le cadre d'enquêtes distinctes, en Nouvelle-Zélande et dans nombre d'autres pays. Le niveau d'exposition aux principaux médias est mesuré de façon continue, et les études sur l'utilisation des produits sont répandues. Des techniques d'appariement statistique fournissent une façon de combiner ces sources d'information distinctes. La base de données des cotes d'écoute de la télévision en Nouvelle-Zélande a été combinée à une enquête multi-intérêts portant sur le profit des lecteurs d'imprimés et la consommation de produits, grâce à l'appariement statistique. Le service Panorama qui en résulte répond aux besoins d'information des publicistes et des planificateurs des médias. L'expérience a été reprise depuis en Australie. Le présent document porte sur l'élaboration du cadre d'appariement statistique qui a servi à la combinaison de ces bases de données, ainsi que sur les connaissances heuristiques et les techniques qui ont été utilisées. Celles-ci comprenaient notamment une expérience effectuée au moyen d'un plan de contrôle visant à déterminer les variables d'appariement importantes. Le présent document comprend en outre un résumé des études ayant servi à l'évaluation et à la validation des résultats combinés. Trois critères principaux d'évaluation ont été utilisés, à savoir : la précision des résultats combinés, la stabilité de ces résultats et la préservation des résultats des bases de données originales. On aborde aussi la façon dont les conditions préalables à la combinaison de ces bases de données ont été respectées. Les différences entre les techniques d'analyse utilisées dans les deux bases de données d'origine ont constitué l'obstacle le plus important à cette étape. Enfin, des suggestions pour le de'veloppement de systèmes d'appariement statistique similaires ailleurs sont fournis.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015018
    Description :

    Dans la présente communication, nous décrivons une méthode pour le traitement de données longitudinales concernant des personnes qui font partie de plus d'une unité, à un niveau supérieur, et au sujet desquelles il manque des renseignements pour l'identification des unités auxquelles appartiennent ces personnes. Dans le domaine de l'éducation, par exemple, un élève peut être classé comme appartenant tour à tour à une école primaire et à une école secondaire en particulier, mais dans le cas de certains élèves, il se peut qu'on ne connaisse ni le nom de l'école primaire, ni celui de l'école secondaire. De manière analogue, dans le cadre d'une étude longitudinale, des élèves peuvent changer d'école ou de classe entre deux périodes et appartenir ainsi à plus d'une unité de niveau supérieur. La méthode utilisée pour modéliser ces structures est une généralisation d'un modèle à effets aléatoires et à niveaux multiples de recoupement.

    Date de diffusion : 1999-10-22

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015024
    Description :

    Une étude longitudinale d'une cohorte d'élèves de l'école secondaire est menée dans une région de l'Italie depuis 1986 afin d'étudier la transition entre l'école et le marché du travail. Les renseignements ont été collectés à chaque étape au moyen d'un questionnaire envoyé par la poste et, à l'étape finale, au moyen d'une interview en salle de classe au cours de laquelle on a posé des questions rétrospectives portant sur l'ensemble de la période d'observation. Les flux bruts entre différents états discrets - toujours dans le système scolaire, sur le marché du travail mais inactif, sur le marché du travail et actif - peuvent ensuite être estimés à la fois à partir de donées prospectives et rétrospectives, et l'effet de mémoire peut être évalué. De plus, les conditions observées au moyen des deux techniques différentes peuvent être considérées comme deux indicateurs de la condition réelle non observable, ce qui nous amène à la spécification et à l'estimation d'un modèle de catégorie latente. Dans ce cadre de référence, une hypothèse de chaïne markovienne peut être introduite et évaluée de maniére à estimer les probabilités de transition entre les états, une fois ceux-ci corrigés ou les erreurs de classification. Puisque les renseignements collectés par la poste présentent une proportion importante de données manquantes sous forme de non-réponse d'unités, nous introduisons aussi la catégorie manquante dans le modèle applicable aux données prospectives.

    Date de diffusion : 1999-10-22

Browse our partners page to find a complete list of our partners and their associated products.

Date de modification :