Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (16)

Tout (16) (0 à 10 de 16 résultats)

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200001
    Description :

    L’élaboration de procédures d’imputation appropriées pour les données ayant des valeurs extrêmes ou des relations non linéaires avec des covariables constitue un défi important dans les enquêtes à grande échelle. Nous élaborons une procédure d’imputation pour les enquêtes complexes fondée sur la régression quantile semi-paramétrique. Nous appliquons cette méthode au Conservation Effects Assessment Project (CEAP), une enquête à grande échelle qui recueille des données utilisées pour quantifier la perte de sol provenant des champs de culture. Dans la procédure d’imputation, nous générons d’abord des valeurs imputées à partir d’un modèle semi-paramétrique pour les quantiles de la distribution conditionnelle de la réponse pour une covariable donnée. Ensuite, nous évaluons les paramètres d’intérêt à l’aide de la méthode généralisée des moments (MGM). Nous dérivons la distribution asymptotique des estimateurs MGM pour une classe générale de plans d’enquête complexes. Dans les simulations destinées à représenter les données du CEAP, nous évaluons les estimateurs de variance en fonction de la distribution asymptotique et comparons la méthode d’imputation par régression quantile (IRQ) semi-paramétrique à des solutions de rechange entièrement paramétriques et non paramétriques. La procédure de l’IRQ est plus efficace que les solutions de rechange non paramétriques et entièrement paramétriques, et les couvertures empiriques des intervalles de confiance se situent à moins de 1 % du niveau nominal de 95 %. Une application à l’estimation de l’érosion moyenne indique que l’IRQ pourrait être une option viable pour le CEAP.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100009
    Description :

    La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 11-522-X200600110408
    Description :

    Malgré les progrès réalisés en vue d'améliorer la santé de la population des États Unis, des disparités en matière de santé persistent entre divers groupes raciaux/ethniques et socioéconomiques. Les sources habituelles de données pour évaluer la santé d'une population d'intérêt comprennent les enquêtes à grande échelle, qui contiennent souvent des questions à réponse autodéclarée, comme « Un médecin ou un autre professionnel de la santé vous a t-il déjà dit que vous souffrez de problème de santé d'intérêt ? Les réponses à de telles questions pourraient ne pas refléter la prévalence réelle des problèmes de santé (p. ex., si le répondant n'a pas accès à un médecin ou à un autre professionnel de la santé). De même, les renseignements autodéclarés concernant des données quantitatives telles que la taille et le poids pourraient être entachés d'erreurs de déclaration. Ce genre d'« erreurs de mesure » dans les données sur la santé pourraient avoir une incidence sur les inférences relatives aux mesures de la santé et aux disparités en matière de santé. Dans la présente étude, nous ajustons des modèles d'erreur de mesure aux données de la National Health and Nutrition Examination Survey, qui comprend un volet d'interview durant lequel sont posées des questions à réponse autodéclarée et un volet d'examen durant lequel sont obtenues des mesures physiques. Puis, nous élaborons des méthodes permettant d'utiliser les modèles ajustés pour améliorer l'analyse des données autodéclarées provenant d'une autre enquête ne comportant pas de volet d'examen. Enfin, nous appliquons ces méthodes, qui comportent l'imputation multiples de valeurs fondées sur les données recueillies par examen à l'enquête ne produisant que des données autodéclarées, à la National Health Interview Survey dans des exemples ayant trait au diabète, à l'hypertension et à l'obésité. Les résultats préliminaires laissent entendre que les ajustements pour l'erreur de mesure peuvent causer des variations non négligeables des estimations des mesures de la santé.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20050029044
    Description :

    Les méthodes d'estimation de la variance des estimations par sondage applicables à des données complètes sont biaisées lorsque certaines données sont imputées. Nous recourons à la simulation pour comparer l'efficacité de la méthode assistée par modèle, de la méthode du jackknife ajusté et de la méthode d'imputation multiple pour estimer la variance d'un total quand les réponses à certaines questions ont été imputées par la méthode hot deck. La simulation vise à étudier les propriétés des estimations de la variance des estimations imputées de totaux pour la population dans son ensemble et pour certains domaines provenant d'un plan d'échantillonnage stratifié non proportionnel à un degré quand les hypothèses sous jacentes, comme l'absence de biais dans l'estimation ponctuelle et l'hypothèse des réponses manquantes au hasard dans les cellules hot deck, ne sont pas vérifiées. Les estimateurs de la variance des estimations pour l'ensemble de la population produisent des intervalles de confiance dont le taux de couverture s'approche du taux nominal, même en cas d'écarts modestes par rapport aux hypothèses, mais il n'en est pas ainsi des estimations par domaine. La couverture est surtout sensible au biais dans les estimations ponctuelles. Comme le démontre la simulation, même si une méthode d'imputation donne des estimations presque sans biais pour la population dans son ensemble, les estimations par domaine peuvent être fort biaisées.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017725
    Description :

    Dans ce document, on examine les techniques servant à imputer les données d'enquête manquantes.

    Date de diffusion : 2005-01-26
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (16)

Analyses (16) (0 à 10 de 16 résultats)

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200001
    Description :

    L’élaboration de procédures d’imputation appropriées pour les données ayant des valeurs extrêmes ou des relations non linéaires avec des covariables constitue un défi important dans les enquêtes à grande échelle. Nous élaborons une procédure d’imputation pour les enquêtes complexes fondée sur la régression quantile semi-paramétrique. Nous appliquons cette méthode au Conservation Effects Assessment Project (CEAP), une enquête à grande échelle qui recueille des données utilisées pour quantifier la perte de sol provenant des champs de culture. Dans la procédure d’imputation, nous générons d’abord des valeurs imputées à partir d’un modèle semi-paramétrique pour les quantiles de la distribution conditionnelle de la réponse pour une covariable donnée. Ensuite, nous évaluons les paramètres d’intérêt à l’aide de la méthode généralisée des moments (MGM). Nous dérivons la distribution asymptotique des estimateurs MGM pour une classe générale de plans d’enquête complexes. Dans les simulations destinées à représenter les données du CEAP, nous évaluons les estimateurs de variance en fonction de la distribution asymptotique et comparons la méthode d’imputation par régression quantile (IRQ) semi-paramétrique à des solutions de rechange entièrement paramétriques et non paramétriques. La procédure de l’IRQ est plus efficace que les solutions de rechange non paramétriques et entièrement paramétriques, et les couvertures empiriques des intervalles de confiance se situent à moins de 1 % du niveau nominal de 95 %. Une application à l’estimation de l’érosion moyenne indique que l’IRQ pourrait être une option viable pour le CEAP.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100009
    Description :

    La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 11-522-X200600110408
    Description :

    Malgré les progrès réalisés en vue d'améliorer la santé de la population des États Unis, des disparités en matière de santé persistent entre divers groupes raciaux/ethniques et socioéconomiques. Les sources habituelles de données pour évaluer la santé d'une population d'intérêt comprennent les enquêtes à grande échelle, qui contiennent souvent des questions à réponse autodéclarée, comme « Un médecin ou un autre professionnel de la santé vous a t-il déjà dit que vous souffrez de problème de santé d'intérêt ? Les réponses à de telles questions pourraient ne pas refléter la prévalence réelle des problèmes de santé (p. ex., si le répondant n'a pas accès à un médecin ou à un autre professionnel de la santé). De même, les renseignements autodéclarés concernant des données quantitatives telles que la taille et le poids pourraient être entachés d'erreurs de déclaration. Ce genre d'« erreurs de mesure » dans les données sur la santé pourraient avoir une incidence sur les inférences relatives aux mesures de la santé et aux disparités en matière de santé. Dans la présente étude, nous ajustons des modèles d'erreur de mesure aux données de la National Health and Nutrition Examination Survey, qui comprend un volet d'interview durant lequel sont posées des questions à réponse autodéclarée et un volet d'examen durant lequel sont obtenues des mesures physiques. Puis, nous élaborons des méthodes permettant d'utiliser les modèles ajustés pour améliorer l'analyse des données autodéclarées provenant d'une autre enquête ne comportant pas de volet d'examen. Enfin, nous appliquons ces méthodes, qui comportent l'imputation multiples de valeurs fondées sur les données recueillies par examen à l'enquête ne produisant que des données autodéclarées, à la National Health Interview Survey dans des exemples ayant trait au diabète, à l'hypertension et à l'obésité. Les résultats préliminaires laissent entendre que les ajustements pour l'erreur de mesure peuvent causer des variations non négligeables des estimations des mesures de la santé.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20050029044
    Description :

    Les méthodes d'estimation de la variance des estimations par sondage applicables à des données complètes sont biaisées lorsque certaines données sont imputées. Nous recourons à la simulation pour comparer l'efficacité de la méthode assistée par modèle, de la méthode du jackknife ajusté et de la méthode d'imputation multiple pour estimer la variance d'un total quand les réponses à certaines questions ont été imputées par la méthode hot deck. La simulation vise à étudier les propriétés des estimations de la variance des estimations imputées de totaux pour la population dans son ensemble et pour certains domaines provenant d'un plan d'échantillonnage stratifié non proportionnel à un degré quand les hypothèses sous jacentes, comme l'absence de biais dans l'estimation ponctuelle et l'hypothèse des réponses manquantes au hasard dans les cellules hot deck, ne sont pas vérifiées. Les estimateurs de la variance des estimations pour l'ensemble de la population produisent des intervalles de confiance dont le taux de couverture s'approche du taux nominal, même en cas d'écarts modestes par rapport aux hypothèses, mais il n'en est pas ainsi des estimations par domaine. La couverture est surtout sensible au biais dans les estimations ponctuelles. Comme le démontre la simulation, même si une méthode d'imputation donne des estimations presque sans biais pour la population dans son ensemble, les estimations par domaine peuvent être fort biaisées.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017725
    Description :

    Dans ce document, on examine les techniques servant à imputer les données d'enquête manquantes.

    Date de diffusion : 2005-01-26
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :