Publications

Programme de recherche et développement en méthodologie : réalisations en 2013-2014

Autres liens

Autres articles

Projets de recherche

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Passer au texte

Recherche, développement et consultation à la DRIS
Vérification et imputation
Échantillonnage et estimation
Estimation sur petits domainess
Recherche sur l'analyse des données (RAD)
Collecte des données
Centre de ressources sur le contrôle de la divulgation
Recherche sur le couplage d'enregistrements

Début du texte

Pour en savoir plus sur l’ensemble du programme, communiquez avec :
Mike Hidiroglou (613 951-0251, mike.hidiroglou@statcan.gc.ca).

Recherche, développement et consultation à la DRIS

La Division de la recherche et de l’innovation en statistique (DRIS) a été créée au sein de la Direction de la méthodologie le 21 juin 2006. La DRIS est responsable de la recherche, de l’élaboration et de la promotion de techniques nouvelles et novatrices en méthodologie statistique, ainsi que de la surveillance et de l’encadrement de l’adoption de ces techniques en vue d’appuyer les programmes statistiques de Statistique Canada. Son mandat comprend aussi l’offre d’un leadership technique, de conseils et d’un encadrement aux employés des autres secteurs du Programme de recherche et développement en méthodologie. Ce soutien prend la forme de conseils sur les problèmes méthodologiques que posent les projets en cours ou l’élaboration de nouveaux projets. La DRIS travaille aussi de concert avec d’autres employés à des projets de recherche parrainés par le programme de recherche et développement en méthodologie (PRDM).

En 2013-2014, la DRIS a participé à de nombreux projets de recherche, de développement et de consultation. La contribution de ses employés a été importante, notamment en ce qui touche l’estimation, l’estimation sur petits domaines et les techniques applicables aux séries chronologiques. Des renseignements détaillés sur les progrès accomplis sont présentés dans la description des sujets de recherche, plus loin dans le présent rapport.

Mike Hidiroglou, Victor Estevao et Yong You ont terminé les spécifications requises pour le développement du logiciel d’estimation sur petits domaines (EPD) selon les méthodes hiérarchiques bayésiennes (HB). Ensuite, deux nouvelles méthodes d’estimation HB, soit un modèle logarithmique du sous-dénombrement du recensement sans appariement et un modèle logarithmique linéaire (avec variances connues), ont été programmées et mises à l’essai conformément à ces spécifications. Ces procédures ont été ajoutées à l’ensemble des procédures liées au prototype d’estimation sur petits domaines conçu par la DRIS. Nous avons mis à jour la documentation sur l’estimation sur petits domaines en y ajoutant la méthodologie propre à ces deux nouvelles méthodes HB, et en préparant un nouveau guide de l’utilisateur avec des exemples.

François Laflamme a poursuivi son travail de collecte de données dans plusieurs domaines, notamment : i. L’utilisation d’un plan de collecte dynamique dans les enquêtes interview téléphonique assistée par ordinateur (ITAO); ii. Le suivi des enquêtes à l’aide du questionnaire électronique (QE) dans le contexte de la collecte multimodale; iii. L’élaboration d’un nouveau tableau de bord résumant les progrès et le rendement de l’enquête à l’aide d’indicateurs clés répartis en différentes catégories (par exemple bureau régional, taux de réponse, temps système du budget, temps système écoulé, pourcentage du temps système du budget écoulé); iv. La réalisation d’une analyse à l’aide du Registre des adresses afin de mesurer l’incidence de l’utilisation de la nouvelle base de sondage sur les taux de réponse à l’ESG27IS (Enquête sociale générale Identité sociale, 2013 Enquête principale) et à l’ESG-DBP (Enquête sociale générale – Don, bénévolat et participation). Des présentations ont été faites lors de conférences et devant divers comités : plusieurs articles ont été écrits et présentés sur les résultats de la recherche.

Takis Merkouris a effectué des travaux relatifs à l’estimation sous plusieurs angles, y compris : i. L’estimation linéaire optimale dans l’échantillonnage à deux phases. Dans ce projet, une méthode d’estimation de l’efficacité optimale a été élaborée, incluant l’utilisation d’un calage en une seule étape pour la première phase et des poids d’échantillonnage pour la deuxième phase. ii. L’intégration de données. Une procédure de calage visant à « intégrer » efficacement des données dans plusieurs fichiers a été élaborée. iii. L’estimation par régression pseudo-optimale. L’objectif de ce projet est de trouver une solution de rechange pratique pour effectuer l’estimation par régression optimale non dépistable, grâce à une procédure plus efficace que l’habituel calage par régression généralisée. Ce travail est réalisé en collaboration avec Mike Hidiroglou.

Susana Rubin-Bleuer a participé à plusieurs projets de consultation et de recherche liés à l’estimation sur petits domaines (EPD), notamment en travaillant à une étude de faisabilité sur la production des 212 estimations sur petits domaines nécessaires au Système de comptabilité nationale avec les données de l’enquête Recherche et développement dans l’industrie canadienne. Dans le cadre de cette étude, Susana a élaboré et mis en œuvre une méthode de suppression des valeurs aberrantes dans l’EPD, et elle a ensuite utilisé le système d’EPD pour produire les estimations. Susana a préparé et donné un cours intensif d’une journée sur l’estimation sur petits domaines afin d’aider les méthodologistes d’enquête à comprendre les enjeux de base de l’EPD et de leur apprendre comment appliquer l’EPD dans leurs milieux de travail respectifs. En outre, Susana a travaillé sur un modèle transversal et de séries chronologiques pour les enquêtes-entreprises (voir la section Estimation sur petits domaines) et, avec des coauteurs, sur les extensions de l’estimateur des pseudo-EBLUP avec application à l’Enquête sur l’emploi, la rémunération et les heures de travail (EERH) et l’estimateur de variance positif pour le modèle de Fay-Herriot au niveau du domaine.

Harold Mantel et Mike Hidiroglou ont élaboré des idées en vue d’utiliser l’échantillonnage à une phase dans l’Enquête sur la population active. Ils ont mis de l’avant des propositions touchant des plans d’échantillonnage à une phase qui corrigeraient les problèmes d’efficacité sans perturber les estimations des variations.

Jean-François Beaumont a participé à plusieurs projets de recherche. Il a notamment étudié, avec des coauteurs, un estimateur de variance simplifié pour l’échantillonnage à deux phases, et il a élaboré une méthode d’estimation de Winsor. Cette dernière peut être considérée comme une façon de mettre en œuvre l'estimateur de Beaumont, Haziza et Ruiz-Gazen (2013), qui permet de limiter l'incidence des valeurs influentes. De plus, Jean-François a collaboré à deux projets sur le bootstrap, à un projet sur la pondération des répondants tardifs (voir la section Échantillonnage et estimation), ainsi qu'à un projet sur l’utilisation d’une procédure adaptative pour la détermination de l’ordre de priorité des appels (voir la section Collecte des données).

Benoit Quenneville (2013) a mis au point une procédure d'estimation de la variance des séries désaisonnalisées produites par X-12-ARIMA. Cette variance est à la fois fondée sur le modèle (elle tient compte des processus de X-12-ARIMA) et sur le plan de sondage (elle intègre l'aspect de l'échantillonnage des séries).

En plus de participer aux activités de recherche menées par le Programme de recherche et développement en méthodologie (PRDM) à titre de chefs de projet et de chercheurs, les employés de la DRIS ont pris part aux activités suivantes :

Le personnel a donné des conseils aux membres d’autres divisions de méthodologie concernant les questions techniques suivantes :
- Mike et son équipe ont continué de fournir des conseils sur l’échantillonnage et les procédures d’estimation utilisées pour les enquêtes-entreprises annuelles. Ces conseils ont été donnés lors des réunions habituelles du comité directeur du Programme intégré de la statistique des entreprises (PISE) ainsi qu’à l’occasion des réunions du comité technique sur les enquêtes-entreprises.
- PISE : Des consultations (J.-F. Beaumont) ont eu lieu sur la façon d’utiliser SEVANI et G-EST pour le PISE. Un court document a été rédigé au sujet de l’estimation de la variance d’échantillonnage avec un échantillon à deux phases lorsque l’imputation est utilisée pour combler les valeurs manquantes.
- Enquête sur la santé dans les collectivités canadiennes (ESCC)/Enquêtes sur la santé : Le personnel de la DRIS a été consulté sur la façon de traiter le plan d’échantillonnage dans la réalisation d’analyses complexes.
- Nombreuses consultations ou important soutien méthodologique (François Laflamme) offerts à la haute direction du secteur 7, aux gestionnaires de projets de la Division de la planification et de la gestion de la collecte (DPGC) (qui exigeaient une attention immédiate), à des projets ministériels spéciaux importants (SICO) et aux méthodologistes/sujets touchant la recherche sur les paradonnées (par exemple le projet pilote du questionnaire électronique de l’Enquête sur la population active (EPA)) ou l’analyse de la collecte de données (de 4 à 5 demandes de consultation par mois en moyenne).
- Victor Estevao et Yong You ont été consultés par une délégation du bureau central de statistique de la Chine sur l’estimation sur petits domaines. Des conseils et plusieurs présentations ont été offerts à la délégation, notamment une démonstration du prototype d’EPD conçu par la DRIS. Une copie du prototype a été remise à la délégation afin qu’elle puisse faire des essais avec ses propres ensembles de données.
- Jean-François Beaumont (ainsi que Christian Nadeau, Johanne Tremblay et Wisner Jocelyn) a été consulté par une délégation du bureau central de statistique de la Chine sur l’utilisation des données fiscales à des fins de calage.
- Jean-Francois Beaumont a donné des conseils sur le bootstrap généralisé pour l’ESCC et les enquêtes postcensitaires.
- Harold Mantel a été consulté sur la façon de traiter le plan d’échantillonnage dans la réalisation d’analyses complexes dans l’ESCC et les enquêtes sur la santé.
- Harold Mantel a coopéré avec les membres des autres divisions de méthodologie sur la meilleure façon de générer les intervalles de confiance pour les proportions. Cette coopération s’est conclue par un document qui résume les méthodes et les évaluations empiriques ainsi que les comparaisons relevées dans la littérature, et qui examine la pertinence des méthodes pouvant être utilisées avec les données d’enquêtes complexes. On a recommandé d’utiliser provisoirement la méthode du bootstrap fondée sur un percentile, si possible, et une méthode de Clopper-Pearson modifiée lorsque la proportion observée est de 0 ou 1.
- Mike Hidiroglou et Victor Estevao ont collaboré avec Christian Nambeu (Recensement et Division des enquêtes-ménages) afin d’ajuster les chiffres du Recensement de 2011 avec les résultats de la contre-vérification des dossiers. Ils ont utilisé le prototype de l’EPD pour produire les ajustements requis.
La DRIS a participé à trois présentations au Comité consultatif des méthodes statistiques :
- En avril 2013, Mike Hidiroglou et Victor Estevao ont présenté une procédure à trois phases pour traiter la non-réponse à l’aide du suivi. Cet article a été réalisé dans le but de traiter la non-réponse dans l’Enquête nationale auprès des ménages.
- En novembre 2013, François Laflamme a présenté une procédure uniforme pour l’utilisation du cadre sur le plan de collecte adaptatif dans les enquêtes multimodales.
- Jean-Francois Beaumont, Cynthia Bocci et Mike Hidiroglou ont étudié certaines procédures de pondération pour les répondants tardifs. Cet article a été réalisé dans le but de traiter les répondants tardifs à l’Enquête nationale auprès des ménages. Il a été présenté au Comité consultatif des méthodes statistiques au début de mai 2014.
La DRIS a consulté les membres du Comité des méthodes et des normes, ainsi que certains autres gestionnaires de Statistique Canada, afin d’établir les priorités du programme de recherche.
Les employés ont poursuivi leurs activités au sein de divers comités de la Direction de la méthodologie, notamment le Comité de l’apprentissage et du perfectionnement et le Comité de l’informatique. En particulier, ils ont participé activement à la recherche et à la discussion des articles du mois.
Mike Hidiroglou a été membre du Census Scientific Advisory Committee (CSAC) à l’automne 2013 et au printemps 2014.
Jean-François Beaumont a fait deux présentations sur l’analyse des données d’enquête à l’aide du bootstrap. La première à l’occasion de la conférence italienne sur la méthodologie d’enquête, à Milan, et la seconde au Joint Statistical Meeting à Montréal.
Susana Rubin-Bleuer a présenté une communication sollicitée sur la méthodologie de microstrates pour contrôler le chevauchement des échantillons à la conférence annuelle de la Société statistique du Canada, en 2013.
Jean-François Beaumont a coprésenté deux ateliers à la Conférence de l’Institut international de statistique (IIS) à Hong Kong. Le premier atelier portait sur les méthodes utilisées pour les enquêtes-entreprises tandis que le second traitait de la vérification et de l’imputation des données d’enquête.
La DRIS a continué de soutenir activement la revue Techniques d’enquête. Mike Hidiroglou en est le rédacteur en chef depuis janvier 2010. Cinq employés de la DRIS contribuent à la revue, un à titre de rédacteur associé et trois autres à titre de rédacteurs adjoints.
Jean-François Beaumont est le président du Comité scientifique du Symposium de 2014. Un programme provisoire a été préparé.
Mike Hidiroglou et Jean-François Beaumont sont les cosignataires d’un article sur les contributions de Statistique Canada aux méthodes d’enquête, qui a été publié dans un livre de Chapman & Hall sous la direction de J.F. Lawless.
Les employés ont rédigé ou corédigé plusieurs articles qui sont cités à la fin du présent rapport (DOCUMENTS DE RECHERCHE PARRAINÉS PAR LE PRDM).

Pour obtenir de plus amples renseignements, veuillez communiquer avec :
Mike Hidiroglou (613 951-0251, mike.hidiroglou@statcan.gc.ca).

Vérification et imputation

Les principaux objectifs de la recherche sur la vérification et l’imputation sont les suivants : i) élaborer de nouvelles méthodes en vue de résoudre les enjeux associés aux programmes statistiques; ii) comparer les méthodes existantes sur le plan théorique ou empirique; et iii) développer des outils informatiques qui permettront d’utiliser les meilleures méthodes dans les programmes statistiques. Deux projets ont été réalisés pendant l’exercice financier. Le premier consistait à améliorer un outil informatique pour la détection des valeurs aberrantes. Le second projet portait sur l’estimation de la variance de rééchantillonnage lorsque les valeurs manquantes sont entrées par imputation avec la méthode du plus proche voisin.

1. Outil de comparaison de différentes méthodes de détection de valeurs aberrantes

Au cours de la dernière année, nous avons poursuivi des discussions sur les développements possibles de notre outil de comparaison de méthodes de détection de valeurs aberrantes et avons continué d’offrir du soutien aux utilisateurs. Entre autres, nous avons discuté de l’adaptation de l’outil pour les besoins de l’Indice des prix à la consommation (IPC) dans lequel on souhaite cibler les données les plus influentes sur les poids de panier. On a déterminé plusieurs méthodes qui pourraient être utiles à l’IPC. On souhaite également détecter les valeurs aberrantes dans les séries temporelles. Par conséquent, on prévoit dans un proche avenir développer une méthode de détection utilisant les séries chronologiques. Le développement se fera conjointement avec la section des séries chronologiques. En plus de l’IPC, d’autres utilisateurs à Statistique Canada ont montré de l’intérêt pour une telle méthode. On débutera avec une méthode générique et on améliorera la méthode selon la rétroaction des utilisateurs. On a aussi développé la méthode ‘estimation M généralisée’ afin de comparer les résultats avec la méthode ‘estimation M’ déjà disponible avec l’outil. Par ailleurs, une nouvelle fonction graphique est en test pour la méthode de l’estimation M.

De plus, nous avons présenté l’outil aux personnes responsables de l’enquête sur les voyages internationaux où on est surtout intéressé à la méthode ‘Sigma-Gap’. On prévoit également faire des présentations pour deux autres enquêtes. On a aussi effectué une mise à jour du guide de référence rapide, mais elle n’est disponible qu’en français pour le moment.

Finalement, l’agence statistique de Nouvelle-Zélande a montré de l’intérêt pour notre outil de détection de valeurs aberrantes et une licence leur a été envoyée.

2. Calcul de la variance due à la non-réponse avec l’utilisation de méthodes de ré échantillonnage

Le but de cette recherche était de proposer une méthode de bootstrap pour estimer la variance due à la non-réponse d’un estimateur imputé du total lorsque les données manquantes sont imputées par la méthode d’imputation par le plus proche voisin (IPPV).

L’IPPV est une méthode d’imputation non paramétrique, car la forme du modèle d’imputation n’est pas explicitement détaillée. Cette caractéristique de l’IPPV est très intéressante au moment de l’imputation, car cette méthode est plus robuste à une mauvaise spécification du modèle contrairement à une méthode d’imputation comme l’imputation par la régression pour laquelle les deux premiers moments (moyenne et variance) doivent être spécifiés correctement. Par contre, l’IPPV complexifie l’estimation de la variance et il faut très souvent faire des hypothèses additionnelles pour arriver à une estimation de variance valide.

Nous avons proposé d’utiliser le bootstrap pour estimer la variance afin d’éviter toute hypothèse additionnelle. Le cadre d’inférence utilisé pour l’estimation de la variance est basé sur le modèle d’imputation (par exemple Särndal, 1992). Des répliques bootstrap de la taille de l’échantillon initial sont sélectionnées à partir de l’échantillon de répondants. Dans chacune des répliques, l’erreur due à la non-réponse est estimée. L’estimation bootstrap de la variance peut ensuite être calculée. La méthode proposée a tendance à surestimer la variance due à la non-réponse. Nous tentons d’identifier la cause du problème afin d’y apporter une solution.

Les résultats de cette recherche pourraient être utilisés dans de nombreuses enquêtes menées à Statistique Canada, comme le programme des entreprises non-incorporées (T1), qui utilisent l’imputation par le plus proche voisin pour imputer les valeurs manquantes.

Pour obtenir de plus amples renseignements, veuillez communiquer avec :
Jean-François Beaumont (613 951-1479, jean-francois.beaumont@statcan.gc.ca).

Bibliographie

Särndal, C.-E. (1992). Méthodes pour estimer la précision des estimations d’une enquête ayant fait l’objet d’une imputation. Techniques d’enquête, 18, 2, 257-268.

Échantillonnage et estimation

Le présent rapport d’avancement regroupe les quatre projets de recherche touchant l’échantillonnage et l’estimation :

Méthode bootstrap généralisée pour plans à trois phases
Pondération des répondants tardifs dans le suivi d'un sous-échantillon de non-répondants
Calage incomplet (ou Calage avec un total de contrôle estimé)
Estimation de variances et contrôle de divulgation avec la méthode du bootstrap

1. Méthode bootstrap généralisée pour plans à trois phases

L’objectif de cette recherche est le développement d’une méthode bootstrap d’estimation de la variance pour l’Enquête auprès des peuples autochtones (EAPA) de 2012. L’échantillon de personnes de l’EAPA provient d’un plan de sondage à trois phases. Les deux premières phases correspondent à l’échantillon de ménages de l’Enquête nationale auprès des ménages (ENM). La deuxième phase de l’ENM est due au sous-échantillonnage des non-répondants pour le suivi de la non-réponse. L’échantillonnage aléatoire simple sans remise est utilisé à chaque phase. Il n’existe présentement aucune application de la méthode bootstrap pour un tel plan de sondage. Nous avons donc développé une extension du bootstrap généralisé de Langlet, Beaumont et Lavallée (2008) pour un plan à deux phases. Cette méthode s’inspire elle-même de la méthodologie de Beaumont et Patak (2012) pour les plans à une phase.

La méthode considérée nécessite le calcul des probabilités d’inclusion simples et conjointes à chacune des phases. Compte tenu de la non-réponse à l’ENM au sous-échantillon des non-répondants, on a considéré l’ENM comme étant un plan à trois phases. Des probabilités d’inclusion ont été calculées pour chacune des trois phases et ces probabilités ont été combinées pour obtenir des probabilités d’inclusion représentant les trois phases combinées. En ajoutant l’échantillonnage de l’EAPA comme une deuxième phase, on peut alors utiliser le bootstrap généralisé pour plans à deux phases.

Un prototype (macro SAS) pour le calcul des poids bootstrap initiaux a été créé et des poids bootstraps finaux ont été produits. Le prototype pourrait être utilisé pour n’importe quelle enquête similaire qui a un plan à trois phases ou moins comme, par exemple, les enquêtes post-ENM. En fait, la méthode a aussi été utilisée pour l’enquête canadienne sur l’incapacité (ECI). La méthode pourrait également être utilisée sur l’ENM elle-même.

On a aussi établi l’impossibilité de toujours pouvoir trouver des poids bootstrap positifs tout en satisfaisant les contraintes sur les deux premiers moments.

On a trouvé une façon d’éliminer la dépendance de l’ajustement de deuxième phase de celui de première phase. Ceci permet d’éviter les poids bootstrap extrêmes et pourrait être utilisé lors d’une prochaine enquête post censitaire.

Dans le cadre de l’EAPA et de l’ECI, tous les ajustements de pondération ont été appliqués aux poids bootstrap initiaux pour obtenir des poids bootstrap finaux tenant compte de tous les ajustements aux poids de sondage. En particulier, les facteurs d’ajustement aléatoire de 1re phase (ENM) associés à la méthode du bootstrap généralisé à deux phases ont servi à calculer des totaux de contrôle variables (estimations de l’ENM) lors de la poststratification.

La méthode a été documentée dans la partie portant sur l’estimation de la variance du rapport méthodologique de l’EAPA. Le projet de recherche est maintenant terminé.

2. Pondération des répondants tardifs dans le suivi d’un sous-échantillon de non-répondants

La non-réponse est fréquente dans les enquêtes et mène, en principe, à des estimations présentant un biais. Un moyen utile de contrôler le biais dû à la non-réponse consiste à effectuer un suivi auprès d’un sous-échantillon aléatoire de non-répondants après une certaine période pendant la collecte des données. Le biais dû à la non-réponse peut être éliminé grâce à une stratégie de pondération appropriée, en supposant que toutes les unités sélectionnées dans le sous-échantillon répondent. On procède parfois à la sélection d’un sous-échantillon de non-répondants, car cette pratique peut être moins coûteuse que le suivi auprès de tous les non-répondants.

Toutefois, dans la pratique, on ne peut complètement éliminer le biais dû à la non-réponse, car il est peu probable que toutes les unités sélectionnées dans le sous-échantillon donnent une réponse. Cependant, il est possible de traiter la non-réponse dans le sous-échantillon de suivi en utilisant des techniques normalisées telles que la pondération de la non-réponse ou l’imputation.

Ce projet vise à mettre l’accent sur un enjeu de pondération délicat qui résulte des réponses tardives. Les répondants tardifs sont ceux qui répondent finalement à l’enquête, mais après la sélection du sous-échantillon. Il est donc possible que ces répondants tardifs aient été sélectionnés dans l’échantillon de suivi. Nous élaborons et étudions des stratégies de pondération pour la non-réponse qui pourraient permettre de traiter les répondants tardifs autrement qu’en les éliminant.

Nous avons élaboré deux méthodes de pondération qui produisent des estimateurs cohérents des totaux pourvu que l’on trouve des estimateurs cohérents des probabilités inconnues d’être un répondant tardif. La théorie a été élaborée et consignée. Nous avons effectué une étude de simulation pour évaluer ces deux approches. Nous avons en outre préparé un résumé de deux pages et un document d’information de 10 pages requis pour le Comité consultatif des méthodes statistiques (CCMS).

3. Calage incomplet (ou Calage avec un total de contrôle estimé)

Singh et Raghunath (2011) ont proposé un estimateur motivé par un modèle de régression dont l’un des totaux, en l’occurrence la taille de la population était estimée en utilisant les poids de sondage de l’enquête. Sous certaines conditions, cet estimateur peut être plus efficace qu’un estimateur par régression qui utilise le vrai total. Nous avons comparé cet estimateur dans le cas précis de deux variables auxiliaires (la variable constante et une variable indépendante) aux estimateurs par la régression linéaire simple; l’estimateur par le ratio et deux estimateurs optimaux (le premier utilisant uniquement la variable indépendante et le second utilisant les deux variables).

Une étude par simulation a été réalisée en utilisant différents plans de sondage (taille fixe et taille aléatoire) : le plan de Midzuno (Midzuno, 1952), le plan de Sampford et le plan de Poisson. Elle a montré que selon le plan de sondage, l’estimateur étudié pouvait mieux performer que les estimateurs compétiteurs. De plus, notamment dans le plan de Midzuno, la performance de l’estimateur optimal utilisant les deux variables auxiliaires était en deçà des attentes : l’estimateur était très instable. Par ailleurs, sous le plan de Poisson, l’estimateur étudié par Singh et Raghunath (2011) performait beaucoup moins bien que les autres estimateurs.

Durant la période en cours, nous avons fait deux présentations : la première au symposium international de 2013 et la seconde au congrès annuel de la Société statistique du Canada (SSC) 2013. Actuellement, nous considérons la rédaction d’un article qui sera soumise dans une revue scientifique.

4. Estimation de variances et contrôle de divulgation avec la méthode du bootstrap

Un grand nombre d’enquêtes auprès des ménages utilisent la méthode du bootstrap afin d’estimer la variance des estimations produites à partir de leurs données d’enquêtes. La méthode Rao-Wu-Yue (1992) est typiquement utilisée pour répliquer le processus d’échantillonnage dans la génération des poids bootstrap. Cette méthode Rao-Wu-Yue mène à la création d’ensembles de poids bootstrap permettant naturellement de dériver les variables du plan de sondage sous-jacentes à la création des poids bootstrap, ce qui cause des problèmes à la diffusion de ces poids. En effet, de tels poids bootstrap ne peuvent accompagner les fichiers de microdonnées à grande diffusion, puisque les caractéristiques de plan de sondage peuvent être retracées via les poids bootstrap.

Le but du projet est d’examiner différentes méthodes de variances bootstrap selon trois critères dans l’espoir qu’une de celles-ci produise des estimations de variances de qualité, tout en protégeant l’information du plan de sondage. Les trois critères sont :

Produire une estimation de qualité de la vraie variance;
Performer même dans les cas où la fraction de sondage est élevée;
Protéger la divulgation des variables sous-jacentes au plan de sondage.

L’analyse des quatre méthodes d’estimation de variance bootstrap a été complétée du point de vue de l’exactitude des différentes méthodes à estimer la vraie variance. Depuis le rapport semestriel précédent, les résultats d’estimations de variances pour de petits domaines ont été analysés. Les résultats complets ont été présentés au Comité technique de la Division des méthodes d'enquêtes auprès des ménages (DMEM) en novembre 2013.

Une autre étape du projet consiste à appliquer les méthodes reçues aux données d’enquêtes existantes. Ainsi, la méthode généralisée est à être mise en place dans le contexte de l’Enquête sur la santé dans les collectivités canadiennes. Cette enquête utilise déjà la méthode de Rao-Wu-Yue, et a récemment testé la méthode de Poisson. Ces méthodes seront comparées en termes d’exactitude, puis en termes de capacité à contrôler la divulgation d’information confidentielle (plus spécifiquement l’information du plan de sondage).

La documentation des résultats et certaines recommandations seront incorporées au rapport du projet de recherche.

Une proposition de recherche a été soumise et fait un peu suite à l’idée couverte par ce projet, c’est-à-dire de produire des poids bootstrap ne dévoilant pas d’information confidentielle. Il s’agit d’explorer la méthode suggérée par Kim et Wu (2013) et voir si cette méthode respecte les critères recherchés et si la confidentialité des informations (reliées au plan de sondage) est respectée. La proposition a été retenue et le travail commencera durant l’année fiscale 2014-15.

Pour plus de renseignements, s’adresser à
François Brisebois (613 951-5338, francois.brisebois@statcan.gc.ca).

Bibliographie

Kim, J.K., et Wu, C. (2013). Estimation parcimonieuse et efficace de la variance par ré échantillonnage pour les enquêtes complexes. Techniques d’enquête, 39, 1, 105-137.

Midzuno, H. (1952). On the sampling system with probability proportional to sum of size. Annals of the institute of statistical Mathematics, 3, 99-107.

Singh, S., et Raghunath, A. (2011). On Calibration of design weights. METRON International.

Estimation sur petits domaines

L’estimation sur petits domaines est plus pertinente aujourd’hui en raison de la hausse des coûts de la collecte de données, de la croissance de la demande de statistiques fiables pour les petits domaines et de la nécessité de réduire le fardeau de réponse. Les estimateurs directs s’appliquant à un domaine utilisent seulement les données provenant de l’échantillon dans ce domaine et leur précision n’est pas suffisante pour les petits domaines, parce que la taille de l’échantillon est petite. Par ailleurs, les estimateurs indirects (estimateurs sur petits domaines) empruntent des données à des domaines apparentés afin d’accroître la taille effective de l’échantillon. Des données sont empruntées aux autres domaines en s’appuyant sur une série d’hypothèses ou « modèle », puis les estimations sont produites en se basant sur ce modèle. Nos principaux objectifs de recherche sont d’aider à répondre aux questions suivantes : 1) Existe-t-il une méthode d’estimation sur petits domaines (EPD) qui fournit des estimations de qualité suffisante pour la publication? Pouvons-nous fournir une mesure de la qualité fondée sur le plan de sondage (fondée sur les propriétés d’échantillonnage)? 2) Pouvons-nous mettre cette méthode en œuvre dans un environnement de production (coûts de développement et coûts opérationnels, actualité, réputation de l’organisme par rapport à la demande des clients, fardeau de réponse, coûts de collecte)? 3) Comment les résultats du projet et les questions qu’il soulève aideront-ils Statistique Canada à élaborer une stratégie de production d’estimations fondées sur un modèle? Durant la période visée par le présent rapport, nous avons fait progresser les travaux et présenté des articles relatifs aux dix projets qui suivent, avec application aux enquêtes sociales et aux enquêtes-entreprises.

Extensions de l’estimateur des pseudo-EBLUP avec application à l’Enquête sur l’emploi, la rémunération et les heures de travail (EERH)

Nous avons comparé divers estimateurs sur petits domaines transversaux en vue d’une application éventuelle à l’EERH. En plus des extensions de l’estimateur des pseudo-EBLUP nécessaires à l’application à l’EERH, nous avons ajouté l’estimateur des EBLUP à la comparaison et aux graphiques utilisés afin de montrer que l’estimateur de l’erreur quadratique moyenne (EQM) fondée sur un modèle des divers estimateurs des EBLUP sous-estime l’EQM fondée sur le plan de sondage. Nous avons terminé l’analyse des résultats et les avons intégrés à l’atelier sur l’estimation sur petits domaines qui s’est déroulé à Statistique Canada le 15 octobre 2013.

Un estimateur de variance positif pour le modèle d’estimation sur petits domaines Fay-Herriot

L’estimateur fondé sur le meilleur prédicteur linéaire empirique (EBLUP), obtenu par ajustement du modèle de Fay-Herriot (1979), est une moyenne pondérée de l’estimateur direct d’après les données d’enquête et de l’estimateur hybride régression-synthétique. Les poids dépendent de la variance des effets de domaine aléatoires. Les méthodes classiques d’estimation de la variance produisent souvent des estimations négatives, dont on fixe la valeur à zéro, et l’estimateur EBLUP devient un estimateur hybride régression-synthétique. Cependant, la plupart des praticiens hésitent à utiliser des estimateurs synthétiques pour les moyennes de petit domaine, puisque ces estimateurs ne tiennent pas compte de l’information fondée sur l’enquête et présentent souvent un biais important. Ce problème a donné le jour à une série de méthodes d’estimation de la variance qui produisent toujours des estimations positives. Nous proposons l’estimateur de variance MIX, qui est non seulement positif, mais dont le biais possède aussi un taux de convergence plus rapide que les autres estimateurs de variance positifs. En 2013-2014, nous avons étudié les propriétés théoriques et empiriques des estimateurs de variance de Li et Lahiri (2011) et de Yoshimori et Lahiri (2013), et nous les avons comparées avec l’estimateur de variance MIX (en collaboration avec Yong You).

Estimation sur petits domaines pour l’enquête sur la RDIC

L’enquête sur la Recherche et développement dans l’industrie canadienne (RDIC) utilise des données administratives et un échantillon de 2 000 « entreprises » ou entités de collecte. Nous avons besoin de l’enquête sur la RDIC pour produire un fichier de microdonnées entièrement imputées ainsi que des estimations sur les 212 groupes de la classification des industries de l’Amérique du Nord pour le Système de comptabilité nationale (SCN). Dans le PISE, les objectifs actuels et la taille de l’échantillon de la RDIC ne le permettent pas. Nous avons mené une étude de faisabilité sur la production d’estimations sur 212 petits domaines à l’aide des techniques d’estimation sur petits domaines. Nous avons étudié une variété de modèles et utilisé le système d’estimation sur petits domaines pour produire des estimations. Nous avons rédigé un rapport décrivant la méthodologie et expliquant les résultats.

Estimation sur petits domaines avec des modèles au niveau des unités en présence d’un plan de sondage informatif

L’objectif du projet est de développer et d’étudier une méthode simple d’estimation pour de petits domaines qui se base sur des modèles au niveau des unités et qui produit des estimations fiables quand le plan de sondage est informatif. La méthode consiste à ajouter comme variable explicative au modèle des variables du plan de sondage telles que le poids de sondage ou la mesure de taille lorsqu’on a affaire à un plan de sondage avec probabilités de sélection proportionnelles à la taille.

Des simulations ont montré que l’ajustement du modèle augmenté permettait des gains de précision importants dans les estimations ponctuelles sous des plans informatifs, tant du point de vue du biais que de l’erreur quadratique moyenne. Un article a été soumis à la revue Techniques d’enquête à la fin de l’année fiscale 2011-2012 et a été accepté conditionnellement à des révisions. Pendant l’année fiscale en cours, des simulations supplémentaires ont été menées. L’article a été révisé et soumis de nouveau (Verret, Rao et Hidiroglou, 2014).

Ce projet comblera des lacunes de l’estimation pour de petites régions à l’aide de modèles au niveau des unités dues à l’hypothèse très forte que le plan de sondage n’est pas informatif. En effet, dans le contexte de l’estimation directe on ne fait pas cette hypothèse pour éviter des biais importants.

Estimation pour de petits domaines au recensement et à l’Enquête nationale auprès des ménages

Ce projet vise à appliquer des méthodes d’estimation pour de petits domaines dans le cadre du Recensement de la population de 2011 et de l’Enquête nationale auprès des ménages (ENM) de 2011. D’une part, depuis plusieurs cycles du recensement l’estimation pour de petits domaines est utilisée pour estimer la sous-couverture par groupe d’âge des personnes vivant dans des réserves indiennes et des personnes d’identité autochtone. Dans le cadre de ce projet de recherche, le système d’estimation pour de petites régions de la DRIS a été utilisé pour estimer la sous-couverture en 2011 (Nambeu et Hidiroglou 2013).

D’autre part, avant de se pencher sur l’estimation pour de petits domaines avec les données de l’ENM on a tenté d’ajuster des modèles au niveau des unités aux données du questionnaire long de 2006. Le but était d’obtenir des estimations plus précises des totaux de revenu par aire de diffusion et par secteur de recensement. Plusieurs défis se sont posés lors de l’ajustement des modèles d’estimation pour de petits domaines. Par exemple, il est difficile de tenir compte de la structure en grappes des données dans la définition de l’unité à l’étude et des variables explicatives du modèle. Malgré ces difficultés l’estimation pour petits domaines a donné des gains en précision appréciables par rapport aux estimateurs directs classiques.

Pour obtenir de plus amples renseignements, veuillez communiquer avec :
Susana Rubin-Bleuer (613 951-6941, susana.rubin-bleuer@statcan.gc.ca).

Bibliographie

Fay, R.E., et Herriot, R.A. (1979). Estimation of income from small places: An application of James-Stein procedures to census data. Journal of the American Statistical Association, 74, 269-277.

Li, H., et Lahiri, P. (2011). An adjusted maximum likelihood method for solving small area estimation problems. Journal of Multivariate Analysis, 101, 882-892.

Yoshimori, M., et Lahiri, P. (2013). A new adjusted maximum likelihood method for the Fay-Herriot small Area model. Sera publié dans le Journal of Multivariate Analysis.

Recherche sur l’analyse des données (RAD)

Les ressources affectées à la recherche sur l’analyse des données sont utilisées pour mener des travaux de recherche sur des problèmes de méthodologie liés à l’analyse courante qui ont été relevés par les analystes et les méthodologistes; elles sont également consacrées à des travaux de recherche sur des problèmes qui devraient avoir une importance stratégique dans un avenir prévisible. Les personnes qui mènent cette recherche acquièrent aussi de l’expérience en transfert de connaissances en publiant des articles techniques et en donnant des séminaires, des exposés et des cours.

Analyse de l’acide désoxyribonucléique (ADN) aux fins d’enquêtes

L’objectif principal de ce projet de recherche était de se préparer à répondre aux enjeux touchant l’analyse de l’ADN recueillie dans le cadre des enquêtes complexes. Statistique Canada recueille désormais l’ADN des répondants à l’Enquête canadienne sur les mesures de la santé (ECMS). Dans le cadre de cette enquête, nous avons commencé à recueillir des échantillons d’ADN auprès de participants consentants âgés de 20 ans et plus. Les échantillons d’ADN sont congelés et conservés anonymement afin de protéger la confidentialité des participants. La biobanque contient des échantillons d’ADN provenant d’environ 6 500 participants âgés d’au moins 20 ans. Pour obtenir de plus amples renseignements sur la biobanque, consultez le http://www.statcan.gc.ca/fra/enquete/menages/5071g. La disponibilité de ces échantillons biologiques offre de nouvelles occasions et de nouvelles voies à explorer. Ces données génétiques peuvent servir à mettre en corrélation des traits génétiques associés à des problèmes de santé avec certaines villes et régions, à déterminer les régions où certains types de services de santé seront très ou peu utilisés et à établir des liens entre des facteurs démographiques et socio-économiques et certains traits génétiques, en plus d’être utiles dans les modèles de microsimulation élaborés par Statistique Canada. Une bonne connaissance des techniques d’analyse de l’ADN est essentielle pour analyser ce nouveau type de données, car il faudra adapter ces techniques aux analyses fondées sur le plan de sondage.

Afin de poursuivre la recherche sur l’analyse de l’ADN dans le cas des échantillons complexes, nous avons tout d’abord examiné les méthodes classiques appliquées à l’épigénétique. Cet examen contribue à orienter davantage la recherche sur les méthodes d’analyse de l’ADN fondées sur le plan de sondage. Il est possible que le lecteur s’interroge sur le lien qui existe entre les analyses épigénétiques et les méthodes d’enquête qui intéressent Statistique Canada. Il faut comprendre que les méthodes d’analyse mentionnées ci-dessus ne sont que des techniques d’exploration de données et que les données d’expression génique ne sont qu’un exemple de mégadonnées. L’analyse des mégadonnées est un volet dont l’importance s’accroît à mesure que l’on recueille de plus en plus de données numériques qui offrent une mine d’information susceptible de modifier les méthodes de collecte et d’analyse des données utilisées par les organismes statistiques. La conversion à des enquêtes en ligne signifie que chaque questionnaire peut servir à recueillir une pléthore de paradonnées qui, une fois explorées, pourraient révéler de l’information susceptible d’aider à améliorer les processus de collecte de façon à obtenir des données plus complètes et exactes. De plus, certaines ou toutes les méthodes appliquées à l’analyse des données de microréseaux peuvent être appliquées à d’autres types d’analyses de mégadonnées.

Étendre l’analyse classique de l’ADN aux enquêtes complexes

Toutes les analyses d’ADN sont des analyses classiques. Cette recherche vise à examiner les enjeux touchant ce type d’analyse avec les données de l’enquête. La combinaison de la superpopulation à deux phases et du modèle fondé sur le plan de sondage à deux phases (de Susana Rubin-Bleuer) semble être une option intéressante pour traiter certains enjeux touchant l’analyse des données épigénétiques.

Sujets sélectionnés dans les méthodes fondées sur le plan de sondage pour l’analyse des données d’enquête : l’analyse de données bayésiennes pour les enquêtes complexes

Chaque année, on détermine certains sujets touchant les méthodes d’analyse des données d’enquêtes fondées sur le plan de sondage, mais ces sujets sont tous de trop faible portée pour devenir un projet unique. Cependant, chacun de ces sujets a une incidence sur les conseils présentés par le centre de ressources en analyse de données (CRAD) quant aux méthodes appropriées pour analyser les données d’enquête.

Cette recherche vise à examiner les méthodes d’analyse bayésiennes et à les comparer aux méthodes classiques et fondées sur le plan de sondage à l’aide de diverses sources de données. Statistique Canada n’utilise pas les méthodes bayésiennes pour analyser les données d’enquête. En général, nous utilisons les méthodes fréquentistes. Dans ce travail, on décrit d’abord les deux différentes approches statistiques à l’égard de l’inférence. Ensuite, on examine les différentes façons d’appliquer les méthodes d’analyse bayésiennes aux données d’enquête qui sont décrites dans la littérature.

Les méthodes bayésiennes peuvent être utiles pour réaliser l’analyse de données administratives ou de mégadonnées.

Toutefois, il existe peu de connaissances spécialisées sur ces méthodes, qui suscitent peu d’intérêt, alors que l’on accorde beaucoup de temps et d’importance à l’estimation fondée sur le plan de sondage et à l’analyse des enquêtes complexes. En outre, on trouve peu de documentation offrant une comparaison entre ces méthodes et leur utilité dans l’analyse de différentes données, notamment les données des enquêtes administratives ou complexes.

For further information, contact:
Karla Fox (613 951-4624, karla.fox@statcan.gc.ca).

Collecte de données

La recherche en collecte a comme objectif de faire avancer les connaissances afin de pouvoir mettre en place des processus de collecte plus efficaces en termes de coût et de qualité.

Les projets de recherche en collecte couvrent 3 aspects principaux : 3 projets reliés à améliorer les véhicules de collecte; 1) l’établissement de lignes directrices pour le développement des questionnaires électroniques; 2) le développement d’une approche innovatrice au moyen de la théorie des graphes pour analyser la complexité des questionnaires afin de potentiellement réduire le fardeau de réponse et faciliter le traitement post-collecte; et 3) le développement un instrument de mesure approprié afin de réduire l’erreur de réponse potentielle pour la collecte par procuration en tenant compte du mode de collecte. 3 projets visant à développer des mesures d’atténuation pour répondre au risque corporatif no 6 : 1) Revue des méthodes de dépistage afin de les améliorer; 2) l’évaluation de l’impact potentiel des incitatifs dans les enquêtes ménages; et 3)le développement d’un cadre de travail théorique pour la priorisation des suivis lors de la collecte des nouvelles stratégies de collecte. Finalement un projet relié à définir et évaluer les effets des modes de collecte sur la qualité avec le développement d’un cadre mathématique afin d’évaluer les effets de mode.

Principes directeurs à l’égard des questionnaires électroniques

À mesure que le nombre d’enquêtes qui adoptent le questionnaire électronique augmente, les exigences relatives aux données et aux fonctionnalités connexes propres aux enquêtes continuent d’augmenter et d’évoluer. L’un des objectifs permanents du projet est de résumer et de consigner les connaissances acquises jusqu’à présent et de cerner les enjeux à examiner de manière plus approfondie en ce qui a trait à la conception des questionnaires électroniques.

Le Comité des normes relatives aux questionnaires électroniques (CNQE) a repris ses activités en mai 2013. Le Centre de ressources en conception de questionnaires (CRCQ) participe à ce comité interdisciplinaire et interdivisionnaire de façon hebdomadaire. En outre, nous avons entrepris la rédaction d’un document de recherche sur les méthodes présentement utilisées pour faire l’essai préliminaire des questionnaires électroniques.

Le CRCQ continue de participer directement à l’élaboration et à la mise en œuvre des stratégies d’essais de convivialité et d’interviews cognitives pour les enquêtes-entreprises et les enquêtes sociales qui adoptent l’environnement des questionnaires électroniques. Les résultats de ces essais auprès des utilisateurs finaux aident à prendre les décisions à l’égard de la conception et du développement des applications de QE nouvelles et existantes. Ces efforts ont pour objectif d’améliorer la qualité des données en réduisant les erreurs de mesure possibles et le fardeau de réponse.

Puisque le projet des questionnaires électroniques n’est pas terminé, nous continuerons de résumer et de consigner les connaissances acquises dans le cadre des expériences de collecte de données en ligne de Statistique Canada, et de comparer ces résultats avec le travail de conception et de recherche réalisé par d’autres intervenants.

Approches de la théorie des graphes dans la conception des questionnaires

L’objectif de la recherche consiste à automatiser et à comprendre les approches de la théorie des graphes dans la conception et l’élaboration des questionnaires. Dans des recherches antérieures, Şchiopu-Kratina a montré que la théorie des graphes peut réussir à expliquer la complexité d’un questionnaire. De plus, il a été montré qu’on pouvait utiliser cette méthode pour simplifier un questionnaire. Les travaux visent à étendre cette recherche aux enjeux touchant l’automatisation de la méthode de calcul des scores de complexité et les méthodes de simplification des graphes. En plus de la faisabilité de l’automatisation, on étudie l’utilité des indicateurs de la qualité du fardeau de réponse à l’aide des mesures de la complexité des graphes. On a travaillé à l’élimination de la double comptabilisation dans le score de complexité, mais aussi à l’élaboration, à l’aide de l’outil de conception des questionnaires, d’un questionnaire d’essai qui aiderait à évaluer la faisabilité de l’automatisation. Des travaux sont présentement réalisés sur des approches informatiques appropriées à l’automatisation et à la complexité. Des présentations ont été faites et des discussions ont eu lieu avec l’équipe responsable de l’outil de conception des questionnaires afin de contribuer à l’automatisation de cette approche.

Les travaux futurs porteront sur la compréhension de la répartition générale des scores de complexité à Statistique Canada, mais aussi sur quelques études de cas; et nous continuerons à explorer des options logicielles pour l’automatisation des graphes. Les applications de cette recherche peuvent servir à réduire les coûts ou à améliorer la qualité des données. Cette approche pourrait éventuellement produire un indicateur utile du fardeau de réponse. Elle pourrait également aider à la conception des questionnaires, aux essais, à la vérification et à l’imputation, ainsi qu’à l’analyse.

Comprendre les réponses par personne interposée

L’objectif de cette recherche est de comprendre les facteurs associés à la qualité de la réponse par personne interposée dans le contexte des enquêtes-ménages. Sans comprendre les facteurs psychologiques, contextuels et structurels qui sous-tendent la qualité de la réponse par personne interposée, nous serions probablement incapables de comprendre quelles seraient les circonstances et les stratégies de collecte qui aideraient à obtenir des réponses par personne interposée de grande qualité.

En plus de la communication présentée au Symposium qui a eu lieu à l’automne, un financement supplémentaire a été alloué à la réalisation de recherches supplémentaires en collaboration avec un psychologue cognitif. Une analyse de l’environnement a été effectuée. Parmi les nombreux articles offerts dans la littérature, 29 ont été sélectionnés et utilisés dans le modèle conceptuel pilote. Les facteurs établis dans l’étude ont servi à définir un cadre théorique pilote de la réponse par personne interposée.

Les facteurs proposés dans la littérature comme étant liés à la qualité de la réponse par personne interposée ont été regroupés par catégories, caractéristiques, opérationnalisations et résultats. La littérature examinée propose cinq grandes catégories de caractéristiques liées à la qualité de la réponse, notamment :

le répondant ciblé (c.-à-d. la personne dont on veut obtenir des réponses);
la personne interposée (c.-à-d. la personne qui donne l’information);
la relation entre le répondant ciblé et la personne interposée (par exemple s’ils sont très proches);
la question (par exemple le caractère délicat des questions);
le contexte (par exemple dans quelle mesure la situation encourage des réponses socialement souhaitables).

Le cadre fournit un point de départ à l’élaboration d’un instrument qui améliore la qualité globale de la réponse, assure une bonne corrélation avec les autodéclarations et produit un biais limité. On peut l’utiliser pour établir les caractéristiques à mesurer dans les cas où on tient compte des réponses par personne interposée et que l’on veut définir l’adaptation des données à leur utilisation dans les réponses finales.

Les travaux futurs devraient inclure un examen documentaire de la littérature qui permettra d’achever le cadre. Il est possible que l’on effectue des sessions de tests cognitifs dans le cadre d’une véritable enquête menée auprès d’un échantillon plus large de participants ayant différents types de relation et de participants éprouvant des problèmes de santé chroniques.

En outre, il serait possible de réaliser un certain nombre d’analyses des données secondaires avec les données existantes. Enfin, une approche reposant sur un cadre de domaines théorique pour l’élaboration des interventions pourrait être conçue afin d’améliorer les réponses à l’enquête. Les résultats pourraient servir à la collecte de données d’enquête et aider à comprendre la qualité potentielle des réponses par personne interposée.

L’utilisation d’incitatifs dans les enquêtes ménages

Ce projet de recherche poursuit le projet sur les taux de réponse financé en 2012-2013 par le Secrétariat de la qualité qui a permis de faire une revue de la littérature sur l’utilisation des incitatifs.

Une revue de littérature a été entamée pendant la période. Les résultats ont été discutés lors d’une présentation au Comité technique des enquêtes auprès des ménages et ont été utilisés par le groupe de travail sur les incitatifs de Statistique Canada pour leur présentation au Comité des politiques. Plusieurs nouveaux articles pertinents ont été retracés et compléteront la revue de littérature et des pratiques internationales.

Procédure de collecte de données adaptative pour la détermination de l’ordre de priorité des appels

Ce projet de recherche avait pour objectif de proposer une procédure de collecte de données adaptative pour déterminer l’ordre de priorité des appels dans le contexte des enquêtes avec interview téléphonique assistée par ordinateur. La procédure est adaptative en ce sens que l’effort consacré à une unité échantillonnée peut varier d’une unité à l’autre et peut aussi varier pendant la collecte des données. L’objectif d’une procédure adaptative est habituellement d’accroître la qualité pour un coût donné ou de réduire le coût pour un niveau de qualité donné. Le critère de qualité qui est souvent considéré dans la littérature spécialisée est le biais de non-réponse d’un estimateur qui n’est pas corrigé pour la non-réponse. Bien que la réduction du biais de non-réponse demeure un objectif souhaitable, ce critère n’est pas utile, car le biais que l’on peut éliminer à l’étape de la collecte des données d’une enquête grâce à une procédure de collecte adaptative peut également être éliminé à l’étape de l’estimation grâce à des ajustements de poids pour la non-réponse appropriés. À la place, nous avons conçu et évalué, dans le cadre d’une étude de simulation, une procédure de détermination de l’ordre de priorité des appels qui tente de minimiser la variance de la non-réponse d’un estimateur ajusté pour la non-réponse en fonction d’une contrainte budgétaire générale.

Pendant le dernier exercice, nous avons soumis un article de recherche à une revue à des fins de publication, et avons reçu des rapports encourageants du rédacteur en chef adjoint et des examinateurs. Ainsi, nous avons effectué quelques simulations exploratoires supplémentaires et rédigé des réponses à ces rapports. Une version révisée de l’article a été soumise.

Extension à une compréhension mathématique de l’effet du mode d’enquête

Les travaux antérieurs réalisés par Statistique Canada sur les effets du mode d’enquête ont permis d’établir un cadre pour les facteurs qui définissent l’effet du mode d’enquête et de cerner les facteurs qui sont touchés par les modifications apportées au mode d’enquête. L’objectif de ce projet de recherche était de concevoir un outil de simulation qui aiderait à comprendre l’incidence des changements apportés au mode, au plan et à la collecte sur l’estimation.

La simulation a été créée en SAS et consignée dans un rapport. Elle reposait sur des approches de conception similaires à celles qui sont utilisées dans l’Enquête sociale générale (ESG). D’anciens et de nouveaux plans d’échantillonnage ont été couplés théoriquement à un modèle de superpopulation à l’aide de différents mécanismes, ainsi qu’à des hypothèses sur la superpopulation; la simulation créait des populations d’intérêt finies.

On a tenu compte des différences entre les lignes téléphoniques résidentielles et cellulaires pour créer une base de sondage synthétique des ménages et de l’accès aux ménages. La population comporte plusieurs paramètres estimés que l’on peut modifier pour constater l’incidence des hypothèses de planification sur une seule estimation par catégorie. Des renseignements détaillés sur la conception de la simulation sont présentés plus loin dans le présent rapport.

Il est facile de modifier la simulation pour l’adapter à d’autres études, et les paramètres peuvent être utilisés dans la simulation de collecte de Modgen.

Centre de ressources sur le contrôle de la divulgation

Dans le cadre de son mandat, le Centre de ressources sur le contrôle de la divulgation (CRCD) fournit aux programmes de Statistique Canada des conseils et un soutien concernant les méthodes d’évaluation et de contrôle du risque de divulgation. Il partage également de l’information et des conseils sur les pratiques de contrôle de la divulgation avec d’autres ministères et organismes. Un soutien continu relativement aux méthodes de contrôle de la divulgation est également offert aux programmes des centres de données de Statistique Canada. La majeure partie du soutien prend la forme d’une aide à l’application et à l’interprétation des règles de contrôle de la divulgation ayant trait aux fonds des centres de données, y compris les données d’enquête, les données de recensement, les données administratives et les données couplées.

De l’information et des conseils ont aussi été fournis à l’interne et au Secrétariat du Conseil du Trésor du Canada, à l’Office of Statistics and Information du gouvernement de l’Alberta et à l’Institut de la statistique du Québec. Le CRCD a également réalisé une révision technique pour le livre Anonymizing Health Data – Case Studies and Methods to Get You Started (El Emam et Arbuckle, 2013).

Élaboration de règles de contrôle de la divulgation pour les données administratives

Le projet vise au développement de règles pour le contrôle de la divulgation de données administratives personnelles sous formes agrégées (tableaux et résultats analytiques). Nous avons divisé les types de données administratives en 2 groupes, type A (santé, justice, éducation,…) et type B (données fiscales) afin de pouvoir mieux adapter les règles aux besoins et défis propres à chacun. On vise la diffusion de données administratives contrôlée par l’agence (avec notre système GTAB) plutôt que la diffusion par le programme d’Accès direct en temps réel (ADTR). Différentes approches ont été étudiées et discutées (suppression, Barnardisation, méthode des scores, permutation de données, méthodes de bruit, etc.). Notre approche tente de préserver l’acquis (règles déjà en place pour ADTR et GTAB). De façon générale, l’approche est post-tabulaire (traitement sur les sorties).

On a élaboré une nouvelle approche pour les proportions (pourcentages) avec un indicateur de qualité, développé une règle pour les centiles, évalué des options pour un rajout de suppressions primaires à l’arrondissement contrôlé des comptes, développé des règles de contrôle de la divulgation pour des totaux, effectué le calcul théorique et la détermination empirique de l’impact exact de nos grilles d’arrondissements sur les données originales, et créé un « compagnon » GTAB qui procède à l’analyse du tableau à la sortie, calcule un score et informe l’utilisateur au moyen d’une échelle, de messages variés (par exemple, présence d’un grand nombre de petites cellules, de cellules pleines, etc.) du niveau de risque de divulgation et propose des solutions manuelles et automatisées. Le compagnon est également un outil d’apprentissage et de conscientisation des divers problèmes reliés au contrôle de la divulgation. Les approches ont été présentées au client interne et des spécifications de système ont été préparées.

Stratégies pour le traitement des données tabulaires à l’aide du logiciel G-Confid

Le système G-Confid de Statistique Canada utilise la suppression de cellules pour protéger les valeurs des cellules confidentielles dans les tableaux de données quantitatives. Les utilisateurs aimeraient qu’il traite certaines situations particulières, notamment les données d’enquête pondérées, les valeurs négatives et les renonciations. Les renonciations sont utilisées lorsqu’un organisme statistique, dans le but de diffuser une plus grande quantité de données, demande à certains grands répondants la permission de dévoiler des renseignements qui pourraient divulguer leur valeur. Nous avons élaboré des approches susceptibles d’aider à relever ces défis et à combler d’autres besoins à l’aide de G-Confid. Ces approches ont été présentées lors des Joint Statistical Meetings de 2013 (Tambay et Fillion, 2013). Elles pourraient être appliquées à d’autres programmes de suppression de cellules.

Perturbation des données afin de réduire la suppression des cellules

Dans le cas des données quantitatives tabulaires (par exemple données agrégées des ventes par industrie et province), le projet de recherche permet d’explorer des solutions de rechange à la suppression complémentaire des cellules, notamment l’ajout de bruit à la fois dans les microdonnées et les données agrégées, ainsi que des méthodes permettant de maintenir les totaux de marge des tableaux et de réduire les effets généraux du bruit sur les cellules non confidentielles. L’utilisation de ces méthodes de rechange a été étudiée à l’aide d’une variété de scénarios de suppression primaire, y compris des cas comportant une seule cellule confidentielle et des cas comportant une province complètement confidentielle. Enfin, le projet vise à examiner les avantages et les inconvénients de chaque technique, et à formuler des recommandations sur la pertinence de leur utilisation dans des circonstances différentes. Les résultats seront documentés au cours du prochain exercice.

Pour obtenir de plus amples renseignements, veuillez communiquer avec :
Jean-Louis Tambay (613 951-6959, jean-louis.tambay@statcan.gc.ca).

Bibliographie

El Emam, K., et Arbuckle, L. (2013). Anonymizing Health Data – Case Studies and Methods to Get You Started. O’Reilly Media, Inc., Sebastopol, CA.

Recherche sur le couplage d’enregistrements

Le couplage d’enregistrements rassemble des données provenant de fichiers différents. Cet important outil dans l’exploitation des données administratives peut également servir à d’autres fins, notamment la création d’une base de sondage ou la collecte de données. La recherche était axée sur le couplage d’enregistrements précis et couvrait trois volets. Le premier volet consistait en l’exploration de nouvelles méthodes de couplage d’enregistrements, y compris la méthode de covariance spectrale et l’utilisation de nouveaux modèles statistiques pour les données couplées. Le deuxième volet portait sur la mesure des erreurs de couplage et sur les critères objectifs permettant de déterminer l’adaptation des données couplées à leur utilisation. Ce volet englobait l’utilisation de nouveaux modèles et l’élaboration d’indicateurs de la qualité globale, de mesures et de lignes directrices. Le troisième volet se rapportait à l’élaboration d’une approche générale pour le couplage d’enregistrements, y compris des solutions déterministes telles que MixMatch.

Segmentation en unités spectrales des noms en vue d’une mise en grappe ethnolinguistique avec application au couplage d’enregistrements probabiliste

Nous avons discuté du rendement de la méthode de covariance spectrale et de ses applications à titre de stratégie de regroupement (Dasylva, 2013). Les applications pratiques à grande échelle sont actuellement limitées par des questions pratiques telles que le nombre relativement important de grappes produites par la méthode spectrale et ses exigences de traitement trop élevées.

Prototype de couplage d’enregistrements déterministe

MixMatch v5.1 est une solution de couplage d’enregistrements déterministe avec une base de clients existante. Elle a été transférée avec succès en SAS, et de nouvelles fonctionnalités ont été ajoutées, notamment des rapports tabulaires sur le rendement du couplage (Lachance, 2014). En outre, de la documentation s’y rattachant a été élaborée, y compris un dictionnaire de données et un manuel de l’utilisateur.

Méthodes non paramétriques pour le couplage d’enregistrements probabiliste

Le couplage d’enregistrements probabiliste exact rassemble des enregistrements tirés d’un ou de plusieurs ensembles de données, qui proviennent des mêmes personnes, en calculant explicitement la probabilité que les paires d’enregistrements sélectionnées soient des paires couplées contenant des enregistrements reliés ou des paires non couplées. Il faut estimer la répartition des paires d’enregistrements à partir d’un échantillon et classer les paires sélectionnées dans la catégorie des paires couplées ou des paires non couplées, conformément à la règle de décision optimale de Fellegi-Sunter. Dans les applications pratiques, le couplage probabiliste exact repose principalement sur des modèles paramétriques tels que le modèle original de Fellegi-Sunter d’indépendance conditionnelle, un modèle qui ne tient pas compte des corrélations. De nouveaux modèles statistiques ont été proposés pour le couplage d’enregistrements (Dasylva, 2014). Ces modèles permettent de réaliser des interactions et comprennent des modèles non paramétriques, c’est-à-dire des modèles où la structure de la corrélation entre les variables du couplage peut être arbitraire. Les propriétés théoriques des modèles proposés ont été étudiées, notamment l’importante question de leur identifiabilité (Fienberg, 2007). Des algorithmes d’espérance-maximisation (EM) ont été proposés pour en faire l’estimation. Les nouveaux modèles permettent d’estimer avec précision les erreurs de couplage; une condition essentielle à l’analyse précise des données couplées. Ils sont évalués et comparés aux modèles précédents par des simulations, par exemple aux modèles log-linéaires en classes latentes avec interactions (Thibaudeau, 1993).

Indicateurs de qualité pour les données couplées

Des indicateurs de qualité détaillés, des mesures, des lignes directrices ainsi que des pratiques exemplaires ont été établis pour les données couplées et les différentes étapes du processus de couplage, déterministe ou probabiliste (Dasylva and Haddou, 2014). Ces directives sont utiles non seulement pour maximiser la qualité du couplage, mais aussi pour évaluer l’adaptation des données couplées à leur utilisation et l’incidence du couplage d’enregistrements sur les autres étapes de l’enquête, y compris l’estimation et l’analyse. Elles complètent les lignes directrices actuelles et les listes de vérification du couplage d’enregistrements, notamment celles que l’on trouve dans le document Lignes directrices concernant la qualité de Statistique Canada.

Pour obtenir de plus amples renseignements, veuillez communiquer avec :
Abel Dasylva (613 951-7618, abel.dasylva@statcan.gc.ca).

Bibliographie

Abeysundera, M., Field, C. et Gu, H. (2012). Phylogenetic analysis of multiple genes using spectral methods. Mol. Biol. Evol., 29(2), 579-597.

Fellegi, I.P., et Sunter, A.B. (1969). A theory for record linkage. Journal of the American Statistical Association, 64(328), 1183-1210.

Fienberg, S., Rinaldo, A., Hersh P. et Zhou, Y. (2007). Maximum likelihood estimation in latent class models for contingency table data. Rapport, disponible au http://www.ml.cmu.edu/research/dap-papers/yizhou-kdd.pdf.

Thibaudeau, Y. (1993). Le pouvoir discriminant des structures de dépendance dans le couplage d’enregistrements. Techniques d’enquête, 19, 1, 35-43.

Date de modification :: 2015-11-27