Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

2 facets displayed. 0 facets selected.

Géographie

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (11)

Tout (11) (0 à 10 de 11 résultats)

  • Articles et rapports : 12-001-X202100200002
    Description :

    Dans le couplage d’ensembles de données massifs, on a recours aux pochettes pour sélectionner un sous-ensemble gérable de paires d’enregistrements quitte à perdre quelques paires appariées. Cette perte tient une grande place dans l’erreur de couplage globale, parce que les décisions relatives aux pochettes se prennent tôt dans le processus sans qu’on puisse les réviser par la suite. Mesurer le rôle que joue cette perte demeure un grand défi si on considère la nécessité de modéliser toutes les paires dans le produit cartésien des sources, et non seulement celles qui répondent aux critères des pochettes. Malheureusement, les modèles antérieurs d’erreur ne nous aident guère parce qu’ils ne respectent normalement pas cette exigence. Il sera question ici d’un nouveau modèle de mélange fini, qui ne demande ni vérifications manuelles, ni données d’entraînement, ni hypothèse d’indépendance conditionnelle des variables de couplage. Il s’applique dans le cadre d’une procédure de pochettes typique dans le couplage d’un fichier avec un registre ou un recensement exhaustif lorsque ces deux sources sont exemptes d’enregistrements en double.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100006
    Description :

    Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

    Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 12-001-X202000200005
    Description :

    Dans les enquêtes, les réponses textuelles à des questions ouvertes ont de l’importance, puisqu’elles permettent aux répondants de livrer plus de renseignements sans contrainte. Dans une classification automatique des réponses à des questions ouvertes en apprentissage supervisé, la précision souvent n’est pas assez grande. Comme autre possibilité, une stratégie de classification semi-automatisée peut être envisagée : les réponses sont classifiées automatiquement dans le groupe facile à classer et classifiées manuellement dans le reste. Nous présentons ici une méthode de classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples pour les cas où les réponses textuelles peuvent appartenir simultanément à plusieurs classes. La méthode que nous proposons se trouve à combiner de multiples chaînes de classification probabiliste en évitant des coûts de calcul prohibitifs. L’évaluation du rendement sur trois ensembles de données démontre l’efficacité de cette méthode.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2018017
    Description :

    Afin de concevoir des politiques visant à promouvoir l’égalité entre les sexes en matière de leadership, l’autonomisation économique des femmes et la croissance inclusive, il est important de bien comprendre la propriété d’entreprises par des femmes ainsi que le rendement des entreprises appartenant à des femmes. Cependant, l’information sur la propriété d’entreprises selon le sexe demeure rare, en raison du manque de données exhaustives. L’étude Entreprises appartenant à des femmes au Canada (Grekou, Li et Liu, 2018), comble ce manque de données en distinguant les propriétaires d’entreprises selon leur sexe à l’aide d’un nouvel ensemble de données administratives appelé la Base de données canadienne sur la dynamique employeurs-employés. Cet ensemble de données contient des renseignements sur les propriétaires d’entreprises pour toutes les entreprises non constituées en société et les sociétés privées au Canada. Le présent document porte sur la méthodologie adoptée pour établir la structure de la propriété d’entreprises selon le sexe. Il présente ensuite des estimations de la propriété d’entreprises selon le sexe (propriétaires majoritairement masculins ou féminins et propriété à parts égales). Enfin, il analyse la sensibilité de ces estimations et les compare à celles calculées à l’aide d’autres sources de données.

    Date de diffusion : 2018-09-24

  • Articles et rapports : 11-522-X200600110402
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs, notamment les ensembles de données administratives. À l'aide de quatre exemples, nous illustrons des situations courantes dans lesquelles se trouvent les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques de même niveau et sont codés selon la même année de référence du découpage géographique aux fins du recensement (par exemple, si les deux ont des données 2001 AD); (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement (par exemple, 1996 SD dans l'enquête, mais 1996 SR dans les données du recensement); (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes de géographie telles que 1996 SD pour l'enquête, mais 2001 AD pour le recensement); (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux-ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-002-X20060019254
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs. Par quatre exemples, nous illustrons des situations où se trouvent fréquemment les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques qui se situent au même niveau et sont codés pour la même année de référence du découpage géographique aux fins du recensement; (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement; (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes; (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2006-07-18

  • Revues et périodiques : 84F0013X
    Géographie : Canada, Province ou territoire
    Description :

    La présente étude, entreprise pour confirmer la validité des méthodes de couplage probabiliste utilisées à Statistique Canada, a permis de comparer les résultats des couplages de données sur les naissances et sur la mortalité infantile au Canada avec celles sur la mortalité infantile des bases de données de la Nouvelle-Écosse et de l'Alberta. On a aussi comparé l'existence de données sur la mortalité foetale dans les fichiers national et provinciaux.

    Date de diffusion : 1999-10-08

  • Articles et rapports : 75F0002M1996011
    Description :

    Dans ce document, on examine les données de l'Enquête sur la dynamique du travail et du revenu (EDTR). On donne également une explication de la méthode utilisée dans l'EDTR pour refléter les changements, ainsi que plusieurs exemples montrant comment les données sur la famille peuvent être analysées dans une optique longitudinale.

    Date de diffusion : 1997-12-31
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (11)

Analyses (11) (0 à 10 de 11 résultats)

  • Articles et rapports : 12-001-X202100200002
    Description :

    Dans le couplage d’ensembles de données massifs, on a recours aux pochettes pour sélectionner un sous-ensemble gérable de paires d’enregistrements quitte à perdre quelques paires appariées. Cette perte tient une grande place dans l’erreur de couplage globale, parce que les décisions relatives aux pochettes se prennent tôt dans le processus sans qu’on puisse les réviser par la suite. Mesurer le rôle que joue cette perte demeure un grand défi si on considère la nécessité de modéliser toutes les paires dans le produit cartésien des sources, et non seulement celles qui répondent aux critères des pochettes. Malheureusement, les modèles antérieurs d’erreur ne nous aident guère parce qu’ils ne respectent normalement pas cette exigence. Il sera question ici d’un nouveau modèle de mélange fini, qui ne demande ni vérifications manuelles, ni données d’entraînement, ni hypothèse d’indépendance conditionnelle des variables de couplage. Il s’applique dans le cadre d’une procédure de pochettes typique dans le couplage d’un fichier avec un registre ou un recensement exhaustif lorsque ces deux sources sont exemptes d’enregistrements en double.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100006
    Description :

    Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

    Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 12-001-X202000200005
    Description :

    Dans les enquêtes, les réponses textuelles à des questions ouvertes ont de l’importance, puisqu’elles permettent aux répondants de livrer plus de renseignements sans contrainte. Dans une classification automatique des réponses à des questions ouvertes en apprentissage supervisé, la précision souvent n’est pas assez grande. Comme autre possibilité, une stratégie de classification semi-automatisée peut être envisagée : les réponses sont classifiées automatiquement dans le groupe facile à classer et classifiées manuellement dans le reste. Nous présentons ici une méthode de classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples pour les cas où les réponses textuelles peuvent appartenir simultanément à plusieurs classes. La méthode que nous proposons se trouve à combiner de multiples chaînes de classification probabiliste en évitant des coûts de calcul prohibitifs. L’évaluation du rendement sur trois ensembles de données démontre l’efficacité de cette méthode.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2018017
    Description :

    Afin de concevoir des politiques visant à promouvoir l’égalité entre les sexes en matière de leadership, l’autonomisation économique des femmes et la croissance inclusive, il est important de bien comprendre la propriété d’entreprises par des femmes ainsi que le rendement des entreprises appartenant à des femmes. Cependant, l’information sur la propriété d’entreprises selon le sexe demeure rare, en raison du manque de données exhaustives. L’étude Entreprises appartenant à des femmes au Canada (Grekou, Li et Liu, 2018), comble ce manque de données en distinguant les propriétaires d’entreprises selon leur sexe à l’aide d’un nouvel ensemble de données administratives appelé la Base de données canadienne sur la dynamique employeurs-employés. Cet ensemble de données contient des renseignements sur les propriétaires d’entreprises pour toutes les entreprises non constituées en société et les sociétés privées au Canada. Le présent document porte sur la méthodologie adoptée pour établir la structure de la propriété d’entreprises selon le sexe. Il présente ensuite des estimations de la propriété d’entreprises selon le sexe (propriétaires majoritairement masculins ou féminins et propriété à parts égales). Enfin, il analyse la sensibilité de ces estimations et les compare à celles calculées à l’aide d’autres sources de données.

    Date de diffusion : 2018-09-24

  • Articles et rapports : 11-522-X200600110402
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs, notamment les ensembles de données administratives. À l'aide de quatre exemples, nous illustrons des situations courantes dans lesquelles se trouvent les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques de même niveau et sont codés selon la même année de référence du découpage géographique aux fins du recensement (par exemple, si les deux ont des données 2001 AD); (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement (par exemple, 1996 SD dans l'enquête, mais 1996 SR dans les données du recensement); (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes de géographie telles que 1996 SD pour l'enquête, mais 2001 AD pour le recensement); (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux-ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-002-X20060019254
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs. Par quatre exemples, nous illustrons des situations où se trouvent fréquemment les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques qui se situent au même niveau et sont codés pour la même année de référence du découpage géographique aux fins du recensement; (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement; (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes; (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2006-07-18

  • Revues et périodiques : 84F0013X
    Géographie : Canada, Province ou territoire
    Description :

    La présente étude, entreprise pour confirmer la validité des méthodes de couplage probabiliste utilisées à Statistique Canada, a permis de comparer les résultats des couplages de données sur les naissances et sur la mortalité infantile au Canada avec celles sur la mortalité infantile des bases de données de la Nouvelle-Écosse et de l'Alberta. On a aussi comparé l'existence de données sur la mortalité foetale dans les fichiers national et provinciaux.

    Date de diffusion : 1999-10-08

  • Articles et rapports : 75F0002M1996011
    Description :

    Dans ce document, on examine les données de l'Enquête sur la dynamique du travail et du revenu (EDTR). On donne également une explication de la méthode utilisée dans l'EDTR pour refléter les changements, ainsi que plusieurs exemples montrant comment les données sur la famille peuvent être analysées dans une optique longitudinale.

    Date de diffusion : 1997-12-31
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :