Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (6)

Tout (6) ((6 résultats))

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060029555
    Description :

    Les chercheurs et les responsables des politiques utilisent souvent des données provenant d'enquêtes par échantillonnage probabiliste représentatives de la population nationale. Le nombre de sujets couverts par ces enquêtes, et par conséquent la durée des entrevues, a généralement augmenté au fil des ans, ce qui a accru les coûts et le fardeau de réponse. Un remède éventuel à ce problème consiste à regrouper prudemment les questions d'une enquête en sous ensembles et à demander à chaque répondant de ne répondre qu'à l'un de ces sous ensembles. Les plans de sondage de ce type sont appelés plans à « questionnaire scindé » ou plans d'« échantillonnage matriciel ». Le fait de ne poser qu'un sous ensemble des questions d'une enquête à chaque répondant selon un plan d'échantillonnage matriciel crée ce que l'on peut considérer comme des données manquantes. Le recours à l'imputation multiple (Rubin 1987), une approche polyvalente mise au point pour traiter les données pour lesquelles des valeurs manquent, est tentant pour analyser les données provenant d'un échantillon matriciel, parce qu'après la création des imputations multiples, l'analyste peut appliquer les méthodes standard d'analyse de données complètes provenant d'une enquête par sondage. Le présent article décrit l'élaboration et l'évaluation d'une méthode permettant de créer des questionnaires d'échantillonnage matriciel contenant chacun un sous ensemble de questions devant être administrées à des répondants sélectionnés aléatoirement. La méthode peut être appliquée dans des conditions complexes, y compris les situations comportant des enchaînements de questions. Les questionnaires sont créés de telle façon que chacun comprenne des questions qui sont prédictives des questions exclues, afin qu'il soit possible, lors des analyses subséquentes fondées sur l'imputation multiple, de recouvrer une partie de l'information relative aux questions exclues qui aurait été recueillie si l'on n'avait pas recouru à l'échantillonnage matriciel. Ce dernier et les méthodes d'imputation multiple sont évalués au moyen de données provenant de la National Health and Nutrition Examination Survey, l'une des nombreuses enquêtes par échantillonnage probabiliste représentatives de la population nationale réalisées par le National Center for Health Statistics des Centers for Disease Control and Prevention. L'étude démontre que l'approche peut être appliquée à une grande enquête nationale sur la santé à structure complexe et permet de faire des recommandations pratiques quant aux questions qu'il serait approprié d'inclure dans des plans d'échantillonnage matriciel lors de futures enquêtes.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 75F0002M2006007
    Description :

    Le présent document résume les données sur les caractéristiques du logement et les dépenses liées au logement qui sont disponibles dans l'EDTR, une attention particulière étant portée aux méthodes d'imputation utilisées pour ces données. De 1994 à 2001, l'enquête ne portait que sur quelques caractéristiques, surtout le mode d'occupation et le type de logement. En 2002, avec le début de la commandite de la Société canadienne d'hypothèques et de logement (SCHL), plusieurs autres caractéristiques ainsi que des dépenses détaillées liées au logement ont été ajoutées à l'enquête. Diverses méthodes d'imputation ont aussi été adoptées à ce moment là, pour remplacer les valeurs manquantes attribuables à la non réponse à l'enquête, et pour fournir les coûts des services publics qui contribuent au coût total du logement. Ces méthodes tirent parti du plan de sondage longitudinal de l'EDTR, et elles utilisent également des données d'autres sources comme l'Enquête sur la population active et le Recensement. En juin 2006, d'autres améliorations aux méthodes d'imputation ont été adoptées pour 2004 et appliquées à des années antérieures dans le cadre d'une révision historique. Le présent rapport documente également cette révision.

    Date de diffusion : 2006-07-26

  • Articles et rapports : 12-001-X20060019260
    Description :

    Nous examinons le recours à l'imputation et à la pondération pour corriger l'erreur de mesure dans l'estimation d'une fonction de distribution. Le problème qui a motivé l'étude est celui de l'estimation de la distribution de la rémunération horaire au Royaume Uni au moyen de données provenant de l'Enquête sur la population active. Les erreurs de mesure causent un biais et le but est d'utiliser des données auxiliaires, mesurées avec précision pour un sous échantillon, en vue de le corriger. Nous envisageons divers estimateurs ponctuels, fondés sur différentes approches d'imputation et de pondération, dont l'imputation fractionnaire, l'imputation par la méthode du plus proche voisin, l'appariement d'après la moyenne prévisionnelle et la pondération par le score de propension à répondre. Nous comparons ensuite ces estimateurs ponctuels d'un point de vue théorique et par simulation. Nous recommandons d'adopter une approche d'imputation fractionnaire par appariement d'après la moyenne prévisionnelle. Elle donne les mêmes résultats que la pondération par le score de propension, mais a l'avantage d'être légèrement plus robuste et efficace.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050029041
    Description :

    L'imputation hot deck est une procédure qui consiste à remplacer les réponses manquantes à certaines questions par des valeurs empruntées à d'autres répondants. L'un des modèles sur lesquels elle s'appuie est celui où l'on suppose que les probabilités de réponse sont égales dans les cellules d'imputation. Nous décrivons une version efficace de l'imputation hot deck pour le modèle de réponse dans les cellules et donnons un estimateur de la variance dont le traitement informatique est efficace. Nous détaillons une approximation de la procédure entièrement efficace dans laquelle un petit nombre de valeurs sont imputées pour chaque non répondant. Nous illustrons les procédures d'estimation de la variance dans une étude de Monte Carlo.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029044
    Description :

    Les méthodes d'estimation de la variance des estimations par sondage applicables à des données complètes sont biaisées lorsque certaines données sont imputées. Nous recourons à la simulation pour comparer l'efficacité de la méthode assistée par modèle, de la méthode du jackknife ajusté et de la méthode d'imputation multiple pour estimer la variance d'un total quand les réponses à certaines questions ont été imputées par la méthode hot deck. La simulation vise à étudier les propriétés des estimations de la variance des estimations imputées de totaux pour la population dans son ensemble et pour certains domaines provenant d'un plan d'échantillonnage stratifié non proportionnel à un degré quand les hypothèses sous jacentes, comme l'absence de biais dans l'estimation ponctuelle et l'hypothèse des réponses manquantes au hasard dans les cellules hot deck, ne sont pas vérifiées. Les estimateurs de la variance des estimations pour l'ensemble de la population produisent des intervalles de confiance dont le taux de couverture s'approche du taux nominal, même en cas d'écarts modestes par rapport aux hypothèses, mais il n'en est pas ainsi des estimations par domaine. La couverture est surtout sensible au biais dans les estimations ponctuelles. Comme le démontre la simulation, même si une méthode d'imputation donne des estimations presque sans biais pour la population dans son ensemble, les estimations par domaine peuvent être fort biaisées.

    Date de diffusion : 2006-02-17
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (6)

Analyses (6) ((6 résultats))

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060029555
    Description :

    Les chercheurs et les responsables des politiques utilisent souvent des données provenant d'enquêtes par échantillonnage probabiliste représentatives de la population nationale. Le nombre de sujets couverts par ces enquêtes, et par conséquent la durée des entrevues, a généralement augmenté au fil des ans, ce qui a accru les coûts et le fardeau de réponse. Un remède éventuel à ce problème consiste à regrouper prudemment les questions d'une enquête en sous ensembles et à demander à chaque répondant de ne répondre qu'à l'un de ces sous ensembles. Les plans de sondage de ce type sont appelés plans à « questionnaire scindé » ou plans d'« échantillonnage matriciel ». Le fait de ne poser qu'un sous ensemble des questions d'une enquête à chaque répondant selon un plan d'échantillonnage matriciel crée ce que l'on peut considérer comme des données manquantes. Le recours à l'imputation multiple (Rubin 1987), une approche polyvalente mise au point pour traiter les données pour lesquelles des valeurs manquent, est tentant pour analyser les données provenant d'un échantillon matriciel, parce qu'après la création des imputations multiples, l'analyste peut appliquer les méthodes standard d'analyse de données complètes provenant d'une enquête par sondage. Le présent article décrit l'élaboration et l'évaluation d'une méthode permettant de créer des questionnaires d'échantillonnage matriciel contenant chacun un sous ensemble de questions devant être administrées à des répondants sélectionnés aléatoirement. La méthode peut être appliquée dans des conditions complexes, y compris les situations comportant des enchaînements de questions. Les questionnaires sont créés de telle façon que chacun comprenne des questions qui sont prédictives des questions exclues, afin qu'il soit possible, lors des analyses subséquentes fondées sur l'imputation multiple, de recouvrer une partie de l'information relative aux questions exclues qui aurait été recueillie si l'on n'avait pas recouru à l'échantillonnage matriciel. Ce dernier et les méthodes d'imputation multiple sont évalués au moyen de données provenant de la National Health and Nutrition Examination Survey, l'une des nombreuses enquêtes par échantillonnage probabiliste représentatives de la population nationale réalisées par le National Center for Health Statistics des Centers for Disease Control and Prevention. L'étude démontre que l'approche peut être appliquée à une grande enquête nationale sur la santé à structure complexe et permet de faire des recommandations pratiques quant aux questions qu'il serait approprié d'inclure dans des plans d'échantillonnage matriciel lors de futures enquêtes.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 75F0002M2006007
    Description :

    Le présent document résume les données sur les caractéristiques du logement et les dépenses liées au logement qui sont disponibles dans l'EDTR, une attention particulière étant portée aux méthodes d'imputation utilisées pour ces données. De 1994 à 2001, l'enquête ne portait que sur quelques caractéristiques, surtout le mode d'occupation et le type de logement. En 2002, avec le début de la commandite de la Société canadienne d'hypothèques et de logement (SCHL), plusieurs autres caractéristiques ainsi que des dépenses détaillées liées au logement ont été ajoutées à l'enquête. Diverses méthodes d'imputation ont aussi été adoptées à ce moment là, pour remplacer les valeurs manquantes attribuables à la non réponse à l'enquête, et pour fournir les coûts des services publics qui contribuent au coût total du logement. Ces méthodes tirent parti du plan de sondage longitudinal de l'EDTR, et elles utilisent également des données d'autres sources comme l'Enquête sur la population active et le Recensement. En juin 2006, d'autres améliorations aux méthodes d'imputation ont été adoptées pour 2004 et appliquées à des années antérieures dans le cadre d'une révision historique. Le présent rapport documente également cette révision.

    Date de diffusion : 2006-07-26

  • Articles et rapports : 12-001-X20060019260
    Description :

    Nous examinons le recours à l'imputation et à la pondération pour corriger l'erreur de mesure dans l'estimation d'une fonction de distribution. Le problème qui a motivé l'étude est celui de l'estimation de la distribution de la rémunération horaire au Royaume Uni au moyen de données provenant de l'Enquête sur la population active. Les erreurs de mesure causent un biais et le but est d'utiliser des données auxiliaires, mesurées avec précision pour un sous échantillon, en vue de le corriger. Nous envisageons divers estimateurs ponctuels, fondés sur différentes approches d'imputation et de pondération, dont l'imputation fractionnaire, l'imputation par la méthode du plus proche voisin, l'appariement d'après la moyenne prévisionnelle et la pondération par le score de propension à répondre. Nous comparons ensuite ces estimateurs ponctuels d'un point de vue théorique et par simulation. Nous recommandons d'adopter une approche d'imputation fractionnaire par appariement d'après la moyenne prévisionnelle. Elle donne les mêmes résultats que la pondération par le score de propension, mais a l'avantage d'être légèrement plus robuste et efficace.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050029041
    Description :

    L'imputation hot deck est une procédure qui consiste à remplacer les réponses manquantes à certaines questions par des valeurs empruntées à d'autres répondants. L'un des modèles sur lesquels elle s'appuie est celui où l'on suppose que les probabilités de réponse sont égales dans les cellules d'imputation. Nous décrivons une version efficace de l'imputation hot deck pour le modèle de réponse dans les cellules et donnons un estimateur de la variance dont le traitement informatique est efficace. Nous détaillons une approximation de la procédure entièrement efficace dans laquelle un petit nombre de valeurs sont imputées pour chaque non répondant. Nous illustrons les procédures d'estimation de la variance dans une étude de Monte Carlo.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029044
    Description :

    Les méthodes d'estimation de la variance des estimations par sondage applicables à des données complètes sont biaisées lorsque certaines données sont imputées. Nous recourons à la simulation pour comparer l'efficacité de la méthode assistée par modèle, de la méthode du jackknife ajusté et de la méthode d'imputation multiple pour estimer la variance d'un total quand les réponses à certaines questions ont été imputées par la méthode hot deck. La simulation vise à étudier les propriétés des estimations de la variance des estimations imputées de totaux pour la population dans son ensemble et pour certains domaines provenant d'un plan d'échantillonnage stratifié non proportionnel à un degré quand les hypothèses sous jacentes, comme l'absence de biais dans l'estimation ponctuelle et l'hypothèse des réponses manquantes au hasard dans les cellules hot deck, ne sont pas vérifiées. Les estimateurs de la variance des estimations pour l'ensemble de la population produisent des intervalles de confiance dont le taux de couverture s'approche du taux nominal, même en cas d'écarts modestes par rapport aux hypothèses, mais il n'en est pas ainsi des estimations par domaine. La couverture est surtout sensible au biais dans les estimations ponctuelles. Comme le démontre la simulation, même si une méthode d'imputation donne des estimations presque sans biais pour la population dans son ensemble, les estimations par domaine peuvent être fort biaisées.

    Date de diffusion : 2006-02-17
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :