Statistiques par sujet – Vérification et imputation

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Enquête ou programme statistique

1 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (73)

Tout (73) (25 of 73 results)

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214661
    Description :

    Un exemple présenté par Jean-Claude Deville en 2005 est soumis à trois méthodes d’estimation : la méthode des moments, la méthode du maximum de vraisemblance et le calage généralisé. Les trois méthodes donnent exactement les mêmes résultats pour les deux modèles de non-réponse. On discute ensuite de la manière de choisir le modèle le plus adéquat

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300111825
    Description :

    Une limite importante des méthodes actuelles de vérification automatique des données tient au fait que toutes les vérifications sont traitées comme des contraintes fermes. Autrement dit, un rejet à la vérification suppose systématiquement une erreur dans les données. Par contre, dans le cas de la vérification manuelle, les spécialistes du domaine recourent aussi à de très nombreuses vérifications avec avertissement, c'est-à-dire des contraintes destinées à repérer les valeurs et combinaisons de valeurs qui sont suspectes mais pas forcément incorrectes. L'incapacité des méthodes de vérification automatique à traiter les vérifications avec avertissement explique partiellement pourquoi, en pratique, de nombreuses différences sont constatées entre les données vérifiées manuellement et celles vérifiées automatiquement. L'objet du présent article est de présenter une nouvelle formulation du problème de localisation des erreurs qui permet de faire la distinction entre les vérifications avec rejet (hard edits) et les vérifications avec avertissement (soft edits). En outre, il montre comment ce problème peut être résolu grâce à une extension de l'algorithme de localisation des erreurs de De Waal et Quere (2003).

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201200211759
    Description :

    L'un des avantages de l'imputation multiple est qu'elle permet aux utilisateurs des données de faire des inférences valides en appliquant des méthodes classiques avec des règles de combinaison simples. Toutefois, les règles de combinaison établies pour les tests d'hypothèse multivariés échouent quand l'erreur d'échantillonnage est nulle. Le présent article propose des tests modifiés utilisables dans les analyses en population finie de données de recensement comportant de multiples imputations pour contrôler la divulgation et remplacer des données manquantes, et donne une évaluation de leurs propriétés fréquentistes par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21

  • Produits techniques : 12-539-X
    Description :

    Ce document réunit des lignes directrices et des listes de contrôles liées à de nombreuses questions dont on doit tenir compte dans la poursuite des objectifs de qualité que sous-tend l'exécution des activités statistiques. Le document s'attarde principalement à la façon d'assurer la qualité grâce à la conception ou à la restructuration efficace et adéquate d'un projet ou d'un programme statistique, des débuts jusqu'à l'évaluation, la diffusion et la documentation des données. Ces lignes directrices sont fondées sur les connaissances et l'expérience collective d'un grand nombre d'employés de Statistique Canada. On espère que les Lignes directrices concernant la qualité seront utiles au personnel chargé de la planification et de la conception des enquêtes et d'autres projets statistiques, ainsi qu'à ceux qui évaluent et analysent les résultats de ces projets.

    Date de diffusion : 2009-12-02

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Produits techniques : 75F0002M2008005
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements. Les enquêtes par sondage sont sujet aux erreurs d'échantillonnage. Pour tenir compte de ces erreurs, les estimations présentées dans la série "Tendance du revenu au Canada" viennent avec un indicateur de qualité basé sur le coefficient de variation. Cependant d'autres facteurs doivent également ête considérés afin d'utiliser les données de l'enquête à bon escient. Statistique Canada met un temps et un effort considérable à contrôler les erreurs à chaque stade de l'enquête et à optimiser l'utilité des données. Malgré tout, la façon dont l'enquête a été conçue et le traitement des données peuvent limiter la bonne utilisation des données de l'enquête. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume l'ensemble des mesures de qualité des données de l'EDTR. Parmi les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2008-08-20

  • Produits techniques : 75F0002M2007003
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements.

    Les enquêtes par sondage peuvent comporter des erreurs. Comme dans toutes ses enquêtes, Statistique Canada met un temps et un effort considérable à contrôler ces erreurs à chaque stade de l'Enquête sur la dynamique du travail et du revenu. Mais il y a quand même des erreurs. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume les mesures de qualité qui ont pour objet de décrire la qualité des données de l'EDTR. Parmi les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2007-05-10

  • Produits techniques : 11-522-X20050019459
    Description :

    Cet article porte sur l'utilisation de données administratives comme les données fiscales et les données sur la sécurité sociale pour la production de statistiques structurelles sur les entreprises. Le présent article traite également des statistiques que nous venons de développer sur les omnipraticiens.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019458
    Description :

    La communication proposée présente une méthodologie alternative laissant aux données le soin de définir des classes homogènes, déterminées par une classification ascendante hiérachique sur les valeurs des détails observées. Le problème est ensuite d'affecter une entreprise non répondante à l'une de ces classes. Plusieurs procédures d'affectation, basées sur des variables explicatives disponibles dans la déclaration fiscales, sont comparées, sur données brutes ou discrétisées : analyses discriminantes paramétrique et non-paramétrique, modèles log-linéaires etc.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019467
    Description :

    Nous passons en revue les techniques de traitement des données manquantes dans les enquêtes complexes lors de la réalisation d'une analyse longitudinale. En plus de présenter les mêmes types de données manquantes que les données transversales, les observations longitudinales souffrent de données manquantes dues aux abandons. En analyse longitudinale, les modèles à effets aléatoires sont ceux utilisés le plus fréquemment pour tenir compte de la nature longitudinale des données. Toutefois, l'intégration du plan de sondage complexe dans les modèles multiniveaux types utilisés dans ce genre d'analyse longitudinale pose des difficultés, surtout en présence de données manquantes dues à des cas d'abandon.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Produits techniques : 75F0002M2006007
    Description :

    Le présent document résume les données sur les caractéristiques du logement et les dépenses liées au logement qui sont disponibles dans l'EDTR, une attention particulière étant portée aux méthodes d'imputation utilisées pour ces données. De 1994 à 2001, l'enquête ne portait que sur quelques caractéristiques, surtout le mode d'occupation et le type de logement. En 2002, avec le début de la commandite de la Société canadienne d'hypothèques et de logement (SCHL), plusieurs autres caractéristiques ainsi que des dépenses détaillées liées au logement ont été ajoutées à l'enquête. Diverses méthodes d'imputation ont aussi été adoptées à ce moment là, pour remplacer les valeurs manquantes attribuables à la non réponse à l'enquête, et pour fournir les coûts des services publics qui contribuent au coût total du logement. Ces méthodes tirent parti du plan de sondage longitudinal de l'EDTR, et elles utilisent également des données d'autres sources comme l'Enquête sur la population active et le Recensement. En juin 2006, d'autres améliorations aux méthodes d'imputation ont été adoptées pour 2004 et appliquées à des années antérieures dans le cadre d'une révision historique. Le présent rapport documente également cette révision.

    Date de diffusion : 2006-07-26

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (46)

Analyses (46) (25 of 46 results)

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214661
    Description :

    Un exemple présenté par Jean-Claude Deville en 2005 est soumis à trois méthodes d’estimation : la méthode des moments, la méthode du maximum de vraisemblance et le calage généralisé. Les trois méthodes donnent exactement les mêmes résultats pour les deux modèles de non-réponse. On discute ensuite de la manière de choisir le modèle le plus adéquat

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300111825
    Description :

    Une limite importante des méthodes actuelles de vérification automatique des données tient au fait que toutes les vérifications sont traitées comme des contraintes fermes. Autrement dit, un rejet à la vérification suppose systématiquement une erreur dans les données. Par contre, dans le cas de la vérification manuelle, les spécialistes du domaine recourent aussi à de très nombreuses vérifications avec avertissement, c'est-à-dire des contraintes destinées à repérer les valeurs et combinaisons de valeurs qui sont suspectes mais pas forcément incorrectes. L'incapacité des méthodes de vérification automatique à traiter les vérifications avec avertissement explique partiellement pourquoi, en pratique, de nombreuses différences sont constatées entre les données vérifiées manuellement et celles vérifiées automatiquement. L'objet du présent article est de présenter une nouvelle formulation du problème de localisation des erreurs qui permet de faire la distinction entre les vérifications avec rejet (hard edits) et les vérifications avec avertissement (soft edits). En outre, il montre comment ce problème peut être résolu grâce à une extension de l'algorithme de localisation des erreurs de De Waal et Quere (2003).

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201200211759
    Description :

    L'un des avantages de l'imputation multiple est qu'elle permet aux utilisateurs des données de faire des inférences valides en appliquant des méthodes classiques avec des règles de combinaison simples. Toutefois, les règles de combinaison établies pour les tests d'hypothèse multivariés échouent quand l'erreur d'échantillonnage est nulle. Le présent article propose des tests modifiés utilisables dans les analyses en population finie de données de recensement comportant de multiples imputations pour contrôler la divulgation et remplacer des données manquantes, et donne une évaluation de leurs propriétés fréquentistes par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060019264
    Description :

    L'échantillonnage pour le suivi des cas de non réponse (échantillonnage SCNR) est une innovation qui a été envisagée lors de l'élaboration de la méthodologie du recensement décennal des États Unis de 2000. L'échantillonnage SCNR consiste à envoyer des recenseurs auprès d'un échantillon seulement des ménages qui n'ont pas répondu au questionnaire initial envoyé par la poste; ce qui réduit les coûts, mais crée un problème important d'estimation pour petits domaines. Nous proposons un modèle permettant d'imputer les caractéristiques des ménages qui n'ont pas répondu au questionnaire envoyé par la poste, afin de profiter des économies importantes que permet de réaliser l'échantillonnage SCNR, tout en obtenant un niveau de précision acceptable pour les petits domaines. Notre stratégie consiste à modéliser les caractéristiques des ménages en utilisant un petit nombre de covariables aux niveaux élevés de détail géographique et des covariables plus détaillées (plus nombreuses) aux niveaux plus agrégés de détail géographique. Pour cela, nous commençons par classer les ménages en un petit nombre de types. Puis, au moyen d'un modèle loglinéaire hiérarchique, nous estimons dans chaque îlot la distribution des types de ménage parmi les ménages non-répondants non échantillonnés. Cette distribution dépend des caractéristiques des ménages répondants qui ont retourné le questionnaire par la poste appartenant au même îlot et des ménages non-répondants échantillonnés dans les îlots voisins. Nous pouvons alors imputer les ménages non-répondants non échantillonnés d'après cette distribution estimée des types de ménage. Nous évaluons les propriétés de notre modèle loglinéaire par simulation. Les résultats montrent que, comparativement aux estimations produites par des modèles de rechange, notre modèle loglinéaire produit des estimations dont l'EQM est nettement plus faible dans de nombreux cas et à peu près la même dans la plupart des autres cas. Bien que l'échantillonnage SCNR n'ait pas été utilisé lors du recensement de 2000, notre stratégie d'estimation et d'imputation peut être appliquée lors de tout recensement ou enquête recourant cet échantillonnage où les unités forment des grappes telles que les caractéristiques des non répondants sont reliées aux caractéristiques des répondants vivant dans le même secteur, ainsi qu'aux caractéristiques des non répondants échantillonnés dans les secteurs voisins.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20060019257
    Description :

    En présence de non réponse partielle, deux approches sont généralement utilisées à des fins d'inférence des paramètres d'intérêt. La première repose sur l'hypothèse que la réponse est uniforme dans les classes d'imputation, tandis que la seconde s'appuie sur l'hypothèse que la réponse est ignorable, mais utilise un modèle pour la variable d'intérêt comme fondement de l'inférence. Dans le présent article, nous proposons une troisième approche qui se fonde sur l'hypothèse d'un mécanisme de réponse précisé ignorable sans que doive être spécifié un modèle de la variable d'intérêt. Dans ce cas, nous montrons comment obtenir des valeurs imputées qui mènent à des estimateurs d'un total approximativement sans biais sous l'approche proposée, ainsi que sous la deuxième des approches susmentionnées. Nous obtenons aussi des estimateurs de la variance des estimateurs imputés qui sont approximativement sans biais en suivant une approche proposée par Fay (1991) dans laquelle sont inversés l'ordre de l'échantillonnage et de la réponse. Enfin, nous effectuons des études par simulation afin d'étudier les propriétés des méthodes dans le cas d'échantillons finis, en termes de biais et d'erreur quadratique moyenne.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050029041
    Description :

    L'imputation hot deck est une procédure qui consiste à remplacer les réponses manquantes à certaines questions par des valeurs empruntées à d'autres répondants. L'un des modèles sur lesquels elle s'appuie est celui où l'on suppose que les probabilités de réponse sont égales dans les cellules d'imputation. Nous décrivons une version efficace de l'imputation hot deck pour le modèle de réponse dans les cellules et donnons un estimateur de la variance dont le traitement informatique est efficace. Nous détaillons une approximation de la procédure entièrement efficace dans laquelle un petit nombre de valeurs sont imputées pour chaque non répondant. Nous illustrons les procédures d'estimation de la variance dans une étude de Monte Carlo.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029044
    Description :

    Les méthodes d'estimation de la variance des estimations par sondage applicables à des données complètes sont biaisées lorsque certaines données sont imputées. Nous recourons à la simulation pour comparer l'efficacité de la méthode assistée par modèle, de la méthode du jackknife ajusté et de la méthode d'imputation multiple pour estimer la variance d'un total quand les réponses à certaines questions ont été imputées par la méthode hot deck. La simulation vise à étudier les propriétés des estimations de la variance des estimations imputées de totaux pour la population dans son ensemble et pour certains domaines provenant d'un plan d'échantillonnage stratifié non proportionnel à un degré quand les hypothèses sous jacentes, comme l'absence de biais dans l'estimation ponctuelle et l'hypothèse des réponses manquantes au hasard dans les cellules hot deck, ne sont pas vérifiées. Les estimateurs de la variance des estimations pour l'ensemble de la population produisent des intervalles de confiance dont le taux de couverture s'approche du taux nominal, même en cas d'écarts modestes par rapport aux hypothèses, mais il n'en est pas ainsi des estimations par domaine. La couverture est surtout sensible au biais dans les estimations ponctuelles. Comme le démontre la simulation, même si une méthode d'imputation donne des estimations presque sans biais pour la population dans son ensemble, les estimations par domaine peuvent être fort biaisées.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20030016610
    Description :

    En présence de non-réponse partielle, en pratique, on recourt souvent à des méthodes d'imputation non pondérée, mais celles-ci produisent généralement des estimateurs biaisés sous l'hypothèse d'une réponse uniforme à l'intérieur des classes d'imputation. En nous inspirant de Skinner et Rao (2002), nous proposons un estimateur corrigé pour le biais d'une moyenne de population sous imputation par le ratio non pondérée et sous imputation aléatoire hot-deck, et nous calculons des estimateurs de la variance par linéarisation. Nous réalisons une petite étude en simulation pour évaluer les propriétés de biais et d'erreur quadratique moyenne des estimateurs obtenus. Nous étudions aussi le biais relatif et la stabilité relative des estimateurs de la variance.

    Date de diffusion : 2003-07-31

  • Articles et rapports : 12-001-X20020026427
    Description :

    On propose une méthode d'imputation des données catégoriques fondée sur un estimateur du maximum de vraissemblance, qui est établi selon un modèle de probabilité conditionnelle (Besag 1974). On définit également une mesure de l'erreur due à la non-réponse partielle utile pour évaluer le biais par rapport à celui produit par d'autres méthodes d'imputation. Pour calculer cette mesure, on procède à un ajustement proportionnel itératif bayésien (Gelman et Rubin 1991; Schafer 1997), et nous appliquons notre méthode d'imputation à la répétition générale (1998) du recensement de 2000 de Sacramento. De plus, on emploie la mesure de l'erreur afin de comparer l'imputation de la non-réponse partielle entre notre méthode et une version de la méthode hot-deck du plus proche voisin (Fay 1999; Chen et Shao 1997, 2000) à des niveaux agrégés. Les résultats semblent indiquer que cette méthode offre une protection supplémentaire comparativement à la méthode hot-deck utilisée contre le biais d'imputation dû à l'hétérogénéité des domaines d'étude.

    Date de diffusion : 2003-01-29

  • Articles et rapports : 12-001-X20010015857
    Description :

    Le présent article décrit et évalue une procédure d'imputation des valeurs manquantes pour une structure relativement complexe des données lorsque celles-ci manquent au hasard. On obtient les imputations en ajustant une séquence de modèles de régression et en tirant les valeurs des distributions prédictives correspondantes. Les types de modèle de régression utilisés sont les suivants : linéaire, logistique, de Poisson, logit généralisé, ou encore un mélange qui dépend du type de variable imputé. Deux autres caractéristiques communes du processus d'imputation sont intégrées : la restriction à une sous-population pertinente pour certaines variables et des limites ou contraintes logiques pour les valeurs imputées. Les restrictions comportent la création de sous-ensembles d'unités d'échantillon répondant à certains critères au moment de l'ajustement des modèles de régression. Les limites supposent que l'on tire des valeurs d'une distribution prédictive tronquée. L'élaboration de cette méthode s'est inspirée en partie de l'analyse de deux fichiers de données utilisés à titre d'illustration. On applique la procédure de régression séquentielle à l'analyse d'imputations multiples pour les deux problèmes appliqués. Les propriétés d'échantillonnage des inférences tirées de fichiers de données polyimputées créés à l'aide de la méthode de régresison séquentielle sont évaluées en fonction de fichiers de données simulées.

    Date de diffusion : 2001-08-22

  • Articles et rapports : 12-001-X20010015856
    Description :

    On recourt fréquemment à l'imputation pour compenser la non-réponse partielle. L'estimation de la variance après imputation a suscité de nombreux débats et plusieurs estimateurs ont été proposés. Nous proposons un estimateur de la variance fondé sur un ensemble de pseudo-données créé uniquement pour estimer la variance. L'application des estimateurs type de la variance de données complètes à l'ensemble de pseudo-données produit des estimateurs cohérents dans le cas des estimateurs linéaires pour diverses méthodes d'imputation, y compris l'imputation par la méthode hot deck sans remise et avec remise. Nous illustrons l'équivalence asymptotique de la méthode proposée et de la méthode corrigée du jackknife de Rao et Sitter (1995). La méthode proposée s'applique directement à l'estimation de la variance en cas d'échantillonnage à deux phases.

    Date de diffusion : 2001-08-22

  • Articles et rapports : 12-001-X20000015180
    Description :

    L'imputation est une méthode utilisée couramment pour compenser l'effet de la non-réponse lors de l'analyse des données d'enquête. Fondée sur des données auxiliaires, l'imputation peut produire des estimateurs plus efficaces que ceux construits en ne tenant compte ni de la non-réponse ni de la repondération. Nous étudions et comparons l'erreur quadratique moyenne d'estimateurs d'enquête fondés sur des données imputées par trois méthodes distinctes, c'est-à-dire la méthode courante d'imputation par quotient et deux méthodes cold deck fréquemment appliquées aux enquêtes de nature économique réalisées par le U.S. Census Bureau et par le U.S. Bureau of Labor Statistics.

    Date de diffusion : 2000-08-30

Références (27)

Références (27) (25 of 27 results)

  • Produits techniques : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 12-539-X
    Description :

    Ce document réunit des lignes directrices et des listes de contrôles liées à de nombreuses questions dont on doit tenir compte dans la poursuite des objectifs de qualité que sous-tend l'exécution des activités statistiques. Le document s'attarde principalement à la façon d'assurer la qualité grâce à la conception ou à la restructuration efficace et adéquate d'un projet ou d'un programme statistique, des débuts jusqu'à l'évaluation, la diffusion et la documentation des données. Ces lignes directrices sont fondées sur les connaissances et l'expérience collective d'un grand nombre d'employés de Statistique Canada. On espère que les Lignes directrices concernant la qualité seront utiles au personnel chargé de la planification et de la conception des enquêtes et d'autres projets statistiques, ainsi qu'à ceux qui évaluent et analysent les résultats de ces projets.

    Date de diffusion : 2009-12-02

  • Produits techniques : 75F0002M2008005
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements. Les enquêtes par sondage sont sujet aux erreurs d'échantillonnage. Pour tenir compte de ces erreurs, les estimations présentées dans la série "Tendance du revenu au Canada" viennent avec un indicateur de qualité basé sur le coefficient de variation. Cependant d'autres facteurs doivent également ête considérés afin d'utiliser les données de l'enquête à bon escient. Statistique Canada met un temps et un effort considérable à contrôler les erreurs à chaque stade de l'enquête et à optimiser l'utilité des données. Malgré tout, la façon dont l'enquête a été conçue et le traitement des données peuvent limiter la bonne utilisation des données de l'enquête. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume l'ensemble des mesures de qualité des données de l'EDTR. Parmi les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2008-08-20

  • Produits techniques : 75F0002M2007003
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements.

    Les enquêtes par sondage peuvent comporter des erreurs. Comme dans toutes ses enquêtes, Statistique Canada met un temps et un effort considérable à contrôler ces erreurs à chaque stade de l'Enquête sur la dynamique du travail et du revenu. Mais il y a quand même des erreurs. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume les mesures de qualité qui ont pour objet de décrire la qualité des données de l'EDTR. Parmi les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2007-05-10

  • Produits techniques : 11-522-X20050019459
    Description :

    Cet article porte sur l'utilisation de données administratives comme les données fiscales et les données sur la sécurité sociale pour la production de statistiques structurelles sur les entreprises. Le présent article traite également des statistiques que nous venons de développer sur les omnipraticiens.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019458
    Description :

    La communication proposée présente une méthodologie alternative laissant aux données le soin de définir des classes homogènes, déterminées par une classification ascendante hiérachique sur les valeurs des détails observées. Le problème est ensuite d'affecter une entreprise non répondante à l'une de ces classes. Plusieurs procédures d'affectation, basées sur des variables explicatives disponibles dans la déclaration fiscales, sont comparées, sur données brutes ou discrétisées : analyses discriminantes paramétrique et non-paramétrique, modèles log-linéaires etc.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019467
    Description :

    Nous passons en revue les techniques de traitement des données manquantes dans les enquêtes complexes lors de la réalisation d'une analyse longitudinale. En plus de présenter les mêmes types de données manquantes que les données transversales, les observations longitudinales souffrent de données manquantes dues aux abandons. En analyse longitudinale, les modèles à effets aléatoires sont ceux utilisés le plus fréquemment pour tenir compte de la nature longitudinale des données. Toutefois, l'intégration du plan de sondage complexe dans les modèles multiniveaux types utilisés dans ce genre d'analyse longitudinale pose des difficultés, surtout en présence de données manquantes dues à des cas d'abandon.

    Date de diffusion : 2007-03-02

  • Produits techniques : 75F0002M2006007
    Description :

    Le présent document résume les données sur les caractéristiques du logement et les dépenses liées au logement qui sont disponibles dans l'EDTR, une attention particulière étant portée aux méthodes d'imputation utilisées pour ces données. De 1994 à 2001, l'enquête ne portait que sur quelques caractéristiques, surtout le mode d'occupation et le type de logement. En 2002, avec le début de la commandite de la Société canadienne d'hypothèques et de logement (SCHL), plusieurs autres caractéristiques ainsi que des dépenses détaillées liées au logement ont été ajoutées à l'enquête. Diverses méthodes d'imputation ont aussi été adoptées à ce moment là, pour remplacer les valeurs manquantes attribuables à la non réponse à l'enquête, et pour fournir les coûts des services publics qui contribuent au coût total du logement. Ces méthodes tirent parti du plan de sondage longitudinal de l'EDTR, et elles utilisent également des données d'autres sources comme l'Enquête sur la population active et le Recensement. En juin 2006, d'autres améliorations aux méthodes d'imputation ont été adoptées pour 2004 et appliquées à des années antérieures dans le cadre d'une révision historique. Le présent rapport documente également cette révision.

    Date de diffusion : 2006-07-26

  • Produits techniques : 75F0002M2006005
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements.

    Les enquêtes par sondage peuvent comporter des erreurs. Comme dans toutes ses enquêtes, Statistique Canada met un temps et un effort considérable à contrôler ces erreurs à chaque stade de l'Enquête sur la dynamique du travail et du revenu. Mais il y a quand même des erreurs. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume les mesures de qualité qui ont pour objet de décrire la qualité des données de l'EDTR. Parmis les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2006-04-06

  • Produits techniques : 75F0002M2005012
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements.

    Les enquêtes par sondage peuvent comporter des erreurs. Comme dans toutes ses enquêtes, Statistique Canada met un temps et un effort considérable à contrôler ces erreurs à chaque stade de l'Enquête sur la dynamique du travail et du revenu. Mais il y a quand même des erreurs. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume les mesures de qualité qui ont pour objet de décrire la qualité des données de l'EDTR. Parmis les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2005-09-15

  • Produits techniques : 75F0002M2005011
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements.

    Les enquêtes par sondage peuvent comporter des erreurs. Comme dans toutes ses enquêtes, Statistique Canada met un temps et un effort considérable à contrôler ces erreurs à chaque stade de l'Enquête sur la dynamique du travail et du revenu. Mais il y a quand même des erreurs. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume les mesures de qualité qui ont pour objet de décrire la qualité des données de l'EDTR. Parmis les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2005-09-15

  • Produits techniques : 75F0002M2005004
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements.

    Les enquêtes par sondage peuvent comporter des erreurs. Comme dans toutes ses enquêtes, Statistique Canada met un temps et un effort considérable à contrôler ces erreurs à chaque stade de l'Enquête sur la dynamique du travail et du revenu. Mais il y a quand même des erreurs. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume les mesures de qualité qui ont pour objet de décrire la qualité des données de l'EDTR. Parmis les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2005-05-12

  • Produits techniques : 11-522-X20030017722
    Description :

    Dans ce document, on montre comment adapter les cadres de travail basés sur le plan de sondage et basés sur un modèle dans le cas de l'échantillonnage à deux degrés

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017603
    Description :

    Dans ce document, on décrit la situation actuelle relativement à l'adhérence des méthodes de développement et de mise à l'essai de questionnaires pour les enquêtes auprès des entreprises. On y présente également un programme de recherche méthodologique et des stratégies pour améliorer l'adhérence de ces méthodes.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017724
    Description :

    Dans ce document, on présente les résultats pour deux applications de vérification et d'imputation, c'est à dire la UK Annual Business Inquiry et le fichier de données sur les ménages de l'échantillon à 1 % du Recensement du Royaume Uni (le SARS) et pour une application sur les données manquantes fondée sur l'Enquête sur la population active du Danemark.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017725
    Description :

    Dans ce document, on examine les techniques servant à imputer les données d'enquête manquantes.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016729
    Description :

    Dans la grande majorité, sinon la totalité, des enquêtes par sondage, on doit faire face au problème de données manquantes. Les données manquantes sont habituellement causées par la non-réponse (le refus de participer à l'enquête ou l'intervieweur n'a pas été capable de rencontrer le répondant), mais elles peuvent aussi être créées à l'étape de la vérification des données pour résoudre des problèmes d'incohérences ou de réponses suspectes. La présence de données manquantes (non-réponse) entraîne généralement du biais et de l'incertitude dans les estimations. Pour surmonter cette difficulté, l'utilisation appropriée de toute l'information auxiliaire disponible permet de réduire au maximum le biais et la variance dus à la non-réponse. Dans le cadre de cette présentation, on définit le problème et on décrit la méthode sur laquelle le SEVANI est basé, puis on examine les utilisations possibles du système. En dernier lieu, on présente quelques exemples basés sur des données réelles illustrant la théorie en pratique.

    En pratique, il est très difficile d'estimer le biais dû à la non-réponse. Il est cependant possible d'évaluer la variance due à la non-réponse en supposant que le biais est négligeable. Au cours de la dernière décennie, plusieurs méthodes ont d'ailleurs été proposées pour estimer cette variance, dont certaines ont été implantées dans le Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI).

    La méthode utilisée pour développer le SEVANI est basée sur la théorie de l'échantillonnage à deux phases où l'on suppose que la deuxième phase de sélection est la non-réponse. Toutefois, contrairement à l'échantillonnage à deux phases, un modèle d'imputation ou de non-réponse est requis pour l'estimation de la variance. Le SEVANI suppose également que la non-réponse est traitée en repondérant les unités répondantes ou en imputant les valeurs manquantes. On étudie trois techniques d'imputation : l'imputation d'une variable auxiliaire, l'imputation par la régression (déterministe ou aléatoire) et l'imputation par le plus proche voisin.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20010016305
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Une étude réalisée par l'Office for National Statistics (ONS) a montré qu'il était nécessaire d'élaborer de nouvelles méthodes afin d'accroître l'efficacité des méthodes de validation et de vérification des données des enquêtes auprès des entreprises, sans diminuer la qualité de celles-ci. On a donc mis au point des méthodes visant à automatiser la correction des erreurs systématiques et à exécuter certaines vérifications des données. Cependant, comme l'organisation et les procédures d'enquêtes de l'ONS auprès des entreprises avaient évolué au fil du temps, leur mise en 'uvre posait un certain nombre d'obstacles. Ce document décrit ces obstacles et la manière dont on les a surmontés, puis questionne leur pertinence à l'égard d'autres organismes. On y traite également de l'approche à privilégier pour évaluer l'incidence des nouvelles méthodes tant sur la qualité que sur l'efficacité.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X20010016306
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Le présent article traite de la détection et de la correction automatique des données incohérentes ou en dehors des limites permises dans un processus général de collecte de données statistiques. La méthode proposée s'applique aussi bien aux données qualitatives que quantitatives. Notre objectif est de surmonter les contraintes de calcul de la méthode de Fellegi-Holt, tout en retenant ses aspects positifs. Comme à l'accoutumée, les enregistrements de données doivent satisfaire un ensemble de règles afin d'être déclarés corrects. Grâce au codage de règles sous forme d'inéquations linéaires, nous créons des modèles mathématiques pour les problèmes étudiés. Dans le premier point pertinent, en réglant une série de problèmes de faisabilité, l'ensemble de règles proprement dit est vérifié en vue de déceler les incohérences ou les redondances par résolution. Dans le deuxième point pertinent, l'imputation est réalisée par la résolution d'une série de problèmes de couverture d'ensemble.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X20010016253
    Description :

    Le Census Bureau des États-Unis a élaboré un logiciel appelé StEPS (Standard Economic Processing System ou Système standard de traitement d'enquêtes économiques) pour remplacer 16 systèmes servant au traitement des données de plus d'une centaine d'enquêtes économiques courantes. Ce document décrit la méthodologie et la conception des modules StEPS de vérification et d'imputation et résume les réactions des utilisateurs à l'emploi de ces modules dans le traitement de leurs données d'enquête.

    Date de diffusion : 2002-09-12

Date de modification :