Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (24)

Tout (24) (0 à 10 de 24 résultats)

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100002
    Description : Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage assisté par un modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle est fondée sur une application nouvelle de la projection d’information et de la pondération par calage du modèle. La méthode proposée est particulièrement intéressante pour combiner des renseignements de plusieurs sources présentant différentes tendances en matière de données manquantes. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de l'enquête KNHANES (enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du NHISS (service national coréen de partage de l’assurance maladie).
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202000200005
    Description :

    Dans les enquêtes, les réponses textuelles à des questions ouvertes ont de l’importance, puisqu’elles permettent aux répondants de livrer plus de renseignements sans contrainte. Dans une classification automatique des réponses à des questions ouvertes en apprentissage supervisé, la précision souvent n’est pas assez grande. Comme autre possibilité, une stratégie de classification semi-automatisée peut être envisagée : les réponses sont classifiées automatiquement dans le groupe facile à classer et classifiées manuellement dans le reste. Nous présentons ici une méthode de classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples pour les cas où les réponses textuelles peuvent appartenir simultanément à plusieurs classes. La méthode que nous proposons se trouve à combiner de multiples chaînes de classification probabiliste en évitant des coûts de calcul prohibitifs. L’évaluation du rendement sur trois ensembles de données démontre l’efficacité de cette méthode.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 82-622-X2015009
    Description :

    Le Registre canadien du cancer (RCC) est le fruit d'une collaboration entre Statistique Canada et les 13 registres provinciaux et territoriaux du cancer visant à créer une base de données unique pour la déclaration annuelle de l'incidence du cancer et du taux de survie au Canada et à l'échelle provinciale ou territoriale. Bien que des améliorations aient été apportées pour assurer la qualité supérieure, l'uniformisation et la comparabilité des données, le RCC ne possède actuellement pas toute l'information nécessaire sur le traitement du cancer. Le Conseil canadien des registres du cancer (CCRC) a déterminé que le besoin de données sur le traitement du cancer à l'échelle nationale représentait une de ses principales priorités stratégiques pour 2013-2014. Le couplage d'enregistrements a été retenu comme solution possible pour combler cette lacune en matière d'information.

    La présente étude vise à examiner la possibilité de recourir au couplage d'enregistrements pour intégrer de l'information sur le traitement de certains cancers : sein, côlon et rectum et prostate. L'objectif est double : évaluer la qualité des méthodes de couplage et déterminer la validité du recours à des données couplées pour estimer les taux de traitement du cancer à l'échelle provinciale. L'étude est fondée sur les données du Registre canadien du cancer de 2005 à 2008 couplées à celles de la Base de données sur les congés des patients (BDCP) et du Système national d'information sur les soins ambulatoires (SNISA) pour quatre provinces (l'Ontario, le Manitoba, la Nouvelle-Écosse et l'Île-du-Prince-Édouard). Le couplage a été proposé par Statistique Canada, le CCRC et l'Institut canadien d'information sur la santé (ICIS). Le couplage a été approuvé et Statistique Canada a procédé au couplage.

    Date de diffusion : 2015-11-23

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 82-003-X200900110795
    Géographie : Canada
    Description :

    Cet article décrit des méthodes de combinaison des divers cycles de l'Enquête sur la santé dans les collectivités canadiennes et discute des problèmes dont il convient de tenir compte si ces données sont combinées.

    Date de diffusion : 2009-02-18

  • Articles et rapports : 82-003-X200800310681
    Géographie : Canada
    Description :

    Le présent article décrit les méthodes utilisées pour coupler les données du questionnaire complet du recensement aux données sur la mortalité et fait état de constatations simples pour les principaux groupes, définis en fonction du revenu, du niveau de scolarité, de la profession, de la langue, et de l'appartenance ethnique, du statut d'Autochtone ou de l'appartenance à une minorité visible, et de la situation vis-à-vis des limitations d'activité.

    Date de diffusion : 2008-09-17

  • Articles et rapports : 11-522-X200600110402
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs, notamment les ensembles de données administratives. À l'aide de quatre exemples, nous illustrons des situations courantes dans lesquelles se trouvent les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques de même niveau et sont codés selon la même année de référence du découpage géographique aux fins du recensement (par exemple, si les deux ont des données 2001 AD); (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement (par exemple, 1996 SD dans l'enquête, mais 1996 SR dans les données du recensement); (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes de géographie telles que 1996 SD pour l'enquête, mais 2001 AD pour le recensement); (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux-ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2008-03-17

  • Enquêtes et programmes statistiques — Documentation : 68-514-X
    Description :

    L'approche utilisée par Statistique Canada pour la collecte et la diffusion de données économiques a évolué depuis plusieurs décennies vers un système de collecte et d'estimation fortement intégré qui alimente le cadre du Système de comptabilité nationale du Canada.

    L'élément clé de cette approche a été la création de l'Enquête unifiée auprès des entreprises, qui avait pour objet d'améliorer l'uniformité, la cohérence, l'ampleur et la profondeur des données des enquêtes-entreprises.

    L'EUE a atteint cet objectif en regroupant dans un cadre commun un grand nombre d'enquêtes-entreprises annuelles du Canada. Ce cadre comprenait une seule base de sondage, un schéma pour le plan d'échantillonnage, l'harmonisation conceptuelle du contenu des enquêtes, divers moyens d'utiliser les données administratives pertinentes, une collecte intégrée des données, des outils de traitement et d'analyse, et un entrepôt central de données.

    Date de diffusion : 2006-11-20

  • Articles et rapports : 12-002-X20060019254
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs. Par quatre exemples, nous illustrons des situations où se trouvent fréquemment les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques qui se situent au même niveau et sont codés pour la même année de référence du découpage géographique aux fins du recensement; (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement; (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes; (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2006-07-18
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (23)

Analyses (23) (0 à 10 de 23 résultats)

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100002
    Description : Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage assisté par un modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle est fondée sur une application nouvelle de la projection d’information et de la pondération par calage du modèle. La méthode proposée est particulièrement intéressante pour combiner des renseignements de plusieurs sources présentant différentes tendances en matière de données manquantes. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de l'enquête KNHANES (enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du NHISS (service national coréen de partage de l’assurance maladie).
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202000200005
    Description :

    Dans les enquêtes, les réponses textuelles à des questions ouvertes ont de l’importance, puisqu’elles permettent aux répondants de livrer plus de renseignements sans contrainte. Dans une classification automatique des réponses à des questions ouvertes en apprentissage supervisé, la précision souvent n’est pas assez grande. Comme autre possibilité, une stratégie de classification semi-automatisée peut être envisagée : les réponses sont classifiées automatiquement dans le groupe facile à classer et classifiées manuellement dans le reste. Nous présentons ici une méthode de classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples pour les cas où les réponses textuelles peuvent appartenir simultanément à plusieurs classes. La méthode que nous proposons se trouve à combiner de multiples chaînes de classification probabiliste en évitant des coûts de calcul prohibitifs. L’évaluation du rendement sur trois ensembles de données démontre l’efficacité de cette méthode.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 82-622-X2015009
    Description :

    Le Registre canadien du cancer (RCC) est le fruit d'une collaboration entre Statistique Canada et les 13 registres provinciaux et territoriaux du cancer visant à créer une base de données unique pour la déclaration annuelle de l'incidence du cancer et du taux de survie au Canada et à l'échelle provinciale ou territoriale. Bien que des améliorations aient été apportées pour assurer la qualité supérieure, l'uniformisation et la comparabilité des données, le RCC ne possède actuellement pas toute l'information nécessaire sur le traitement du cancer. Le Conseil canadien des registres du cancer (CCRC) a déterminé que le besoin de données sur le traitement du cancer à l'échelle nationale représentait une de ses principales priorités stratégiques pour 2013-2014. Le couplage d'enregistrements a été retenu comme solution possible pour combler cette lacune en matière d'information.

    La présente étude vise à examiner la possibilité de recourir au couplage d'enregistrements pour intégrer de l'information sur le traitement de certains cancers : sein, côlon et rectum et prostate. L'objectif est double : évaluer la qualité des méthodes de couplage et déterminer la validité du recours à des données couplées pour estimer les taux de traitement du cancer à l'échelle provinciale. L'étude est fondée sur les données du Registre canadien du cancer de 2005 à 2008 couplées à celles de la Base de données sur les congés des patients (BDCP) et du Système national d'information sur les soins ambulatoires (SNISA) pour quatre provinces (l'Ontario, le Manitoba, la Nouvelle-Écosse et l'Île-du-Prince-Édouard). Le couplage a été proposé par Statistique Canada, le CCRC et l'Institut canadien d'information sur la santé (ICIS). Le couplage a été approuvé et Statistique Canada a procédé au couplage.

    Date de diffusion : 2015-11-23

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 82-003-X200900110795
    Géographie : Canada
    Description :

    Cet article décrit des méthodes de combinaison des divers cycles de l'Enquête sur la santé dans les collectivités canadiennes et discute des problèmes dont il convient de tenir compte si ces données sont combinées.

    Date de diffusion : 2009-02-18

  • Articles et rapports : 82-003-X200800310681
    Géographie : Canada
    Description :

    Le présent article décrit les méthodes utilisées pour coupler les données du questionnaire complet du recensement aux données sur la mortalité et fait état de constatations simples pour les principaux groupes, définis en fonction du revenu, du niveau de scolarité, de la profession, de la langue, et de l'appartenance ethnique, du statut d'Autochtone ou de l'appartenance à une minorité visible, et de la situation vis-à-vis des limitations d'activité.

    Date de diffusion : 2008-09-17

  • Articles et rapports : 11-522-X200600110402
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs, notamment les ensembles de données administratives. À l'aide de quatre exemples, nous illustrons des situations courantes dans lesquelles se trouvent les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques de même niveau et sont codés selon la même année de référence du découpage géographique aux fins du recensement (par exemple, si les deux ont des données 2001 AD); (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement (par exemple, 1996 SD dans l'enquête, mais 1996 SR dans les données du recensement); (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes de géographie telles que 1996 SD pour l'enquête, mais 2001 AD pour le recensement); (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux-ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-002-X20060019254
    Description :

    Dans cet article, nous expliquons comment joindre les données sommaires du recensement par région à des données d'enquête ou à des données administratives. Nous citons des exemples d'ensembles de données présents dans les Centres de données de recherche de Statistique Canada, mais les méthodes valent aussi pour des ensembles extérieurs. Par quatre exemples, nous illustrons des situations où se trouvent fréquemment les chercheurs : (1) cas où les données d'enquête (ou les données administratives) et les données du recensement contiennent des identificateurs géographiques qui se situent au même niveau et sont codés pour la même année de référence du découpage géographique aux fins du recensement; (2) cas où les deux fichiers contiennent des identificateurs géographiques pour la même année de référence, mais pour des niveaux différents de découpage géographique du recensement; (3) cas où les deux fichiers contiennent des données codées pour des années de référence différentes; (4) cas où les données d'enquête n'ont pas d'identificateurs géographiques, ceux ci devant d'abord être produits à partir des codes postaux du fichier d'enquête. Ces exemples sont présentés en syntaxe SAS, mais les principes s'appliquent à d'autres langages de programmation ou progiciels statistiques.

    Date de diffusion : 2006-07-18

  • Articles et rapports : 12-001-X20050018083
    Description :

    L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

    Date de diffusion : 2005-07-21
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 68-514-X
    Description :

    L'approche utilisée par Statistique Canada pour la collecte et la diffusion de données économiques a évolué depuis plusieurs décennies vers un système de collecte et d'estimation fortement intégré qui alimente le cadre du Système de comptabilité nationale du Canada.

    L'élément clé de cette approche a été la création de l'Enquête unifiée auprès des entreprises, qui avait pour objet d'améliorer l'uniformité, la cohérence, l'ampleur et la profondeur des données des enquêtes-entreprises.

    L'EUE a atteint cet objectif en regroupant dans un cadre commun un grand nombre d'enquêtes-entreprises annuelles du Canada. Ce cadre comprenait une seule base de sondage, un schéma pour le plan d'échantillonnage, l'harmonisation conceptuelle du contenu des enquêtes, divers moyens d'utiliser les données administratives pertinentes, une collecte intégrée des données, des outils de traitement et d'analyse, et un entrepôt central de données.

    Date de diffusion : 2006-11-20
Date de modification :