Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Enquête ou programme statistique

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 12-001-X202100100009
    Description :

    L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20030017724
    Description :

    Dans ce document, on présente les résultats pour deux applications de vérification et d'imputation, c'est à dire la UK Annual Business Inquiry et le fichier de données sur les ménages de l'échantillon à 1 % du Recensement du Royaume Uni (le SARS) et pour une application sur les données manquantes fondée sur l'Enquête sur la population active du Danemark.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20010016303
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Dans les enquêtes à grande échelle, il est inévitable de retrouver un certain taux de non-réponse. En général, les organismes statistiques recourent à l'imputation pour corriger la non-réponse. Une étape préalable courante consiste en la création de cellules d'imputation. Dans cet article, il est question de la création de ces cellules selon deux méthodes. La première s'inspire d'Eltinge et Yansaneh (1997) pour ce qui est des cellules de pondération, et la deuxième renvoie à la méthode actuelle de l'Enquête sur la population active au Canada. À l'aide des données sur la population active, nous testons - par simulation - l'effet du taux de réponse, le mécanisme de réponse et les contraintes de qualité de l'estimation ponctuelle pour les deux méthodes.

    Date de diffusion : 2002-09-12

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30

  • Articles et rapports : 12-001-X199400114433
    Description :

    L’imputation est une méthode dont se servent couramment les organismes d’enquête afin de corriger le problème posé par la non-réponse à des questions particulières. Bien que dans la plupart des cas, les ensembles de données ainsi complétés offrent de bonnes estimations des moyennes et des totaux, les variances correspondantes, souvent, sont largement sous-estimées. Plusieurs méthodes permettent de remédier à ce problème, mais la plupart dépendent du plan d’échantillonnage et de la méthode d’imputation. Récemment, Rao (1992) et Rao et Shao (1992) ont proposé une méthode jackknife unifiée pour l’estimation de la variance d’ensembles de données ayant fait l’objet d’une imputation. Le présent article évalue cette technique de manière empirique, au moyen d’une population réelle d’entreprises, et selon un plan d’échantillonnage aléatoire simple et un mécanisme de non-réponse uniforme. La possibilité d’étendre cette méthode à des plans d’échantillonnage stratifié à plusieurs degrés est examinée, et l’on se penche brièvement sur la performance de l’estimateur de la variance proposé dans le cas de mécanismes de réponse qui ne sont pas uniformes.

    Date de diffusion : 1994-06-15

  • Articles et rapports : 12-001-X198600214449
    Description :

    Presque tous les recensements et enquêtes comportent deux types de non-réponses : la non-réponse au questionnaire (non-réponse totale) et la non-réponse à une question (non-réponse partielle). Plusieurs méthodes de compensation de la non-réponse ont été élaborées pour tenter de réduire la distorsion due à la non-réponse. Cet article résume les méthodes de compensation de la non-réponse utilisées au U.S. Census Bureau, et traite particulièrement du problème de la non-réponse au questionnaire. On examine aussi sommairement les travaux de recherche actuels et futurs dans ce domaine.

    Date de diffusion : 1986-12-15

  • Articles et rapports : 12-001-X198600114441
    Description :

    Des réponses incomplètes rendent difficile l’analyse de données d’enquête. En appliquant la méthode du maximum de vraisemblance, il est possible d’obtenir des estimateurs pour les paramètres à l’étude et d’effectuer certains tests statistiques. Dans le présent document, nous définissons les estimateurs du maximum de vraisemblance pour le cas où la non-réponse est considérée comme étant répartie aléatoirement. Nous examinons une méthode d’imputation des valeurs manquantes ainsi que le problème de l’estimation des points d’inflexion pour la moyenne. Nous tentons également d’étendre les résultats de notre analyse à des covariances structurées et au cas où la non-réponse n’est pas aléatoire.

    Date de diffusion : 1986-06-16
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (11)

Analyses (11) (0 à 10 de 11 résultats)

  • Articles et rapports : 12-001-X202100100009
    Description :

    L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20030017724
    Description :

    Dans ce document, on présente les résultats pour deux applications de vérification et d'imputation, c'est à dire la UK Annual Business Inquiry et le fichier de données sur les ménages de l'échantillon à 1 % du Recensement du Royaume Uni (le SARS) et pour une application sur les données manquantes fondée sur l'Enquête sur la population active du Danemark.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20010016303
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Dans les enquêtes à grande échelle, il est inévitable de retrouver un certain taux de non-réponse. En général, les organismes statistiques recourent à l'imputation pour corriger la non-réponse. Une étape préalable courante consiste en la création de cellules d'imputation. Dans cet article, il est question de la création de ces cellules selon deux méthodes. La première s'inspire d'Eltinge et Yansaneh (1997) pour ce qui est des cellules de pondération, et la deuxième renvoie à la méthode actuelle de l'Enquête sur la population active au Canada. À l'aide des données sur la population active, nous testons - par simulation - l'effet du taux de réponse, le mécanisme de réponse et les contraintes de qualité de l'estimation ponctuelle pour les deux méthodes.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 12-001-X199400114433
    Description :

    L’imputation est une méthode dont se servent couramment les organismes d’enquête afin de corriger le problème posé par la non-réponse à des questions particulières. Bien que dans la plupart des cas, les ensembles de données ainsi complétés offrent de bonnes estimations des moyennes et des totaux, les variances correspondantes, souvent, sont largement sous-estimées. Plusieurs méthodes permettent de remédier à ce problème, mais la plupart dépendent du plan d’échantillonnage et de la méthode d’imputation. Récemment, Rao (1992) et Rao et Shao (1992) ont proposé une méthode jackknife unifiée pour l’estimation de la variance d’ensembles de données ayant fait l’objet d’une imputation. Le présent article évalue cette technique de manière empirique, au moyen d’une population réelle d’entreprises, et selon un plan d’échantillonnage aléatoire simple et un mécanisme de non-réponse uniforme. La possibilité d’étendre cette méthode à des plans d’échantillonnage stratifié à plusieurs degrés est examinée, et l’on se penche brièvement sur la performance de l’estimateur de la variance proposé dans le cas de mécanismes de réponse qui ne sont pas uniformes.

    Date de diffusion : 1994-06-15

  • Articles et rapports : 12-001-X198600214449
    Description :

    Presque tous les recensements et enquêtes comportent deux types de non-réponses : la non-réponse au questionnaire (non-réponse totale) et la non-réponse à une question (non-réponse partielle). Plusieurs méthodes de compensation de la non-réponse ont été élaborées pour tenter de réduire la distorsion due à la non-réponse. Cet article résume les méthodes de compensation de la non-réponse utilisées au U.S. Census Bureau, et traite particulièrement du problème de la non-réponse au questionnaire. On examine aussi sommairement les travaux de recherche actuels et futurs dans ce domaine.

    Date de diffusion : 1986-12-15

  • Articles et rapports : 12-001-X198600114441
    Description :

    Des réponses incomplètes rendent difficile l’analyse de données d’enquête. En appliquant la méthode du maximum de vraisemblance, il est possible d’obtenir des estimateurs pour les paramètres à l’étude et d’effectuer certains tests statistiques. Dans le présent document, nous définissons les estimateurs du maximum de vraisemblance pour le cas où la non-réponse est considérée comme étant répartie aléatoirement. Nous examinons une méthode d’imputation des valeurs manquantes ainsi que le problème de l’estimation des points d’inflexion pour la moyenne. Nous tentons également d’étendre les résultats de notre analyse à des covariances structurées et au cas où la non-réponse n’est pas aléatoire.

    Date de diffusion : 1986-06-16

  • Articles et rapports : 12-001-X198600114444
    Description :

    Un nouveau système de traitement, utilisant la méthode d’imputation du plus proche voisin (N-N), est employé pour l’Enquête nationale sur les fermes (ENF). Une étude empirique a été faite pour déterminer si les estimations ENF seraient affectées par l’emploi de groupes d’imputation basés sur le type de ferme. Pour la règle d’imputation examinée ici, l’étude prouve que l’effet peut être petit.

    Date de diffusion : 1986-06-16
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30
Date de modification :