Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Résumés et actes

Actes : Disponibles à l'automne 2010

Résumés : PDF

Ateliers

(F) Atelier 2 : Plus de 15 ans d'enquêtes longitudinales à Statistique Canada : leçons et innovations

Michelle Simard et François Brisebois, Statistique Canada

Les enquêtes longitudinales sont relativement récentes à Statistique Canada. En effet, il faut attendre le milieu des années 1990 pour assister au développement de projets d’envergure comme l’Enquête longitudinale nationale auprès des enfants et des jeunes (ELNEJ), l’Enquête nationale sur la santé de la population (ENSP) et l’Enquête sur la dynamique du travail et du revenu (EDTR), trois enquêtes qui sont d’ailleurs toujours actives aujourd’hui. Chacune de ces enquêtes poursuit des objectifs particuliers. L’ELNEJ a pour but d’identifier les facteurs qui influencent le développement de la population canadienne de la naissance jusqu’à l’âge adulte. L’ENSP recueille des renseignements sur la santé de la population canadienne ainsi que des informations sociodémographiques connexes. L’EDTR s’intéresse quant à elle au bien-être économique des Canadiens.

Au tournant des années 2000, trois nouvelles enquêtes longitudinales ont été développées par Statistique Canada. Il s’agit de l’Enquête sur les jeunes en transition (EJET), de l’Enquête longitudinale auprès des immigrants au Canada (ELIC) et de l’Enquête sur le milieu de travail et les employés (EMTE), qui s’intéressent toutes à des populations particulières. L’ELIC étudie l’adaptation des nouveaux immigrants à la société canadienne, en plus d’identifier les facteurs qui appuient les efforts d’intégration des immigrants, de même que ceux qui leur nuisent. L’EJET a pour principal objectif de documenter la transition entre le milieu scolaire et le marché du travail chez les jeunes adultes. L’EMTE explore quant à elle un large éventail de questions liées au monde du travail (employeurs et employés), afin de déterminer comment les employeurs et leur personnel réagissent et s’adaptent aux changements d’un environnement concurrentiel axé sur les technologies.

Cet atelier passe en revue les six enquêtes longitudinales de Statistique Canada et met l’accent sur les leçons qu’en a tiré l’organisme, au cours des années. Il s’intéresse également aux innovations résultant de la conception de ces enquêtes et aux défis qu’elles ont engendrés.

La journée commence par un aperçu des principes de base des enquêtes longitudinales et des principales difficultés qui s’y rattachent. Les six enquêtes feront ensuite l’objet de descriptions individuelles : aperçu des objectifs et du plan de sondage, puis présentation détaillée des leçons et des innovations propres à l’enquête.

Chacune de ces enquêtes se distingue par sa raison d’être et sa méthodologie. Les thèmes traités pendant la journée vont donc toucher diverses étapes de la méthodologie d’enquête et devraient combler, ce faisant, l’ensemble des participants.

(A) Atelier 3 : Modélisation multiniveau des données longitudinales

Sophia Rabe-Hesketh du Graduate School of Education, Université de la Californie (Berkeley), É.-U. et
Anders Skrondal de la Division d'épidémiologie, Institut norvégien de santé publique, Norvège

Les études longitudinales permettent de recueillir des réponses auprès des mêmes individus en plusieurs occasions ou cycles d’un panel. En considérant chaque combinaison personne-occasion comme une observation, il apparaît naturel de régresser la variable réponse correspondante autant en fonction de variables indépendantes fixes que variant dans le temps. Cependant, même après avoir contrôlé pour l’effet des covariables, il subsiste généralement une certaine hétérogénéité non observée entre les personnes, suggérant l’existence d’une dépendance intra-personne. Cette hétérogénéité non observée peut être prise en compte par l’inclusion dans l’équation de régression de termes constants spécifiques aux personnes, et possiblement de coefficients de régression, également spécifiques aux personnes. Une telle approche peut être aisément généralisée pour tenir compte de plusieurs niveaux d’inclusion (ou d’emboîtements), par exemple des individus emboîtés dans des écoles.

Nous commencerons par étudier les modèles à effets aléatoires (ou modèles multiniveaux) et les approches à effets fixes, pour différents types de variables réponse, incluant les données continues, nominales, ordinales et d'effectifs. Ces modèles permettent d’étudier les moyennes des courbes de croissance et la variabilité inter-personne sous plusieurs aspects des trajectoires de croissance. Les modèles à effets fixes et à effets aléatoires peuvent être considérés comme conditionnels ou spécifiques à chaque personne. De tels modèles sont comparés aux modèles marginaux ou aux modèles moyens de population. Dans le cadre d’une approche marginale un aperçu de diverses méthodes permettant de traiter ou de modéliser la dépendance intra-personne sera présenté. La distinction entre les effets marginaux et les effets conditionnels sera aussi discutée. Finalement nous considérons l’intégration des poids d’échantillonnage aux données d’enquêtes complexes.

Session 1 – Discours principal

(A) Un programme de recherche méthodologique pour les enquêtes longitudinales

Peter Lynn, Institute for Social and Economic Research, Université de Essex, Royaume-Uni

Cet exposé propose un programme de recherche en méthodologie à venir sur les enjeux relatifs aux enquêtes longitudinales. Le programme porte sur les défis méthodologiques qui sont uniques aux enquêtes longitudinales et sur un examen de la recherche destinée à relever ces défis. L’accent sera mis principalement sur la recherche récente et actuelle, et une discussion se déroulera à propos des répercussions des résultats de la recherche récente, des transformations technologiques et autres innovations. Les objectifs sont de stimuler la recherche en méthodologie et de souligner la sensibilisation aux limites du savoir méthodologique actuel.

Les sujets abordés incluent le plan de sondage, les intervalles entre les vagues, le suivi des membres de l’échantillon et le maintient de la coopération, l’ajustement de la non-réponse et de l’érosion du panel, l’accoutumance du panel, et la conception d’un instrument qui minimise l’erreur de mesure des changements.

Session 2 – Collecte de données biographiques

(A) Une méthode d’évaluation par triangulation du calendrier rétrospectif de l’étude ELSA

Alice McGee et Hayley Cripps, National Centre for Social Research, Royaume-Uni
Joanne Pascale, U.S. Census Bureau, É.-U.

Utilisée dans les enquêtes depuis plusieurs décennies, la méthode du calendrier rétrospectif s’impose de plus en plus, grâce en partie aux récents travaux de recherche montrant qu’à l’égard de certains sujets, elle peut produire des données d’une plus grande qualité que les questionnaires conventionnels. Toutefois, une recherche systématique s’avère nécessaire pour éclairer deux aspects importants de cette méthode. D’une part, comment fonctionne le calendrier rétrospectif dans la pratique, notamment en ce qui concerne l’interaction intervieweur-répondant, l’utilisation de la méthode et la réceptivité dont elle fait l’objet? D’autre part, quelle est la « mécanique » des points de repère internes et externes, qui les propose comme aide-mémoire et à quel moment, et dans quelle mesure aident-ils les répondants à se rappeler les dates avec exactitude?

Cet exposé décrit une étude qui visait à déterminer ces inconnues en évaluant un calendrier rétrospectif utilisé dans le cadre de la English Longitudinal Study of Ageing (ELSA). On a enregistré un échantillon de 124 interviews qu’on a analysées au moyen de diverses méthodes d’évaluation quantitative et qualitative : un questionnaire de l’intervieweur, un questionnaire de compte rendu du répondant, un compte rendu de l’intervieweur et un codage comportemental.

À l’aide d’une méthode de triangulation, cet exposé présente les constatations tirées de ces quatre sources de données, axées sur six questions de recherche spécifiques. Il décrit la nature précise de l’interaction entre l’interviewer et le répondant, aborde la réceptivité à la méthode et l’effet de certaines caractéristiques sur le terrain, ainsi que la nature de l’utilisation des points de repère et la mesure dans laquelle ils ont servi d’aide-mémoire aux répondants.

(A) L’étude des cycles de vie au moyen d’enquêtes prospectives par panel : leçons tirées de l’étude par panel auprès des familles allemandes

Josef Brüderl, Laura Castiglioni, Ulrich Krieger, Volker Ludwig et Klaus Pforr, Université de Mannheim, Allemagne

La collecte de renseignements valides sur les événements, sur le moment où ils se produisent et sur leur alternance au cours du cycle de vie constitue un enjeu crucial pour les chercheurs. Un plan d’enquête prospective par panel permet d’améliorer la qualité des données, car le répondant n’a à se rappeler que de brèves périodes entre les cycles de panel. À la « lisière » des deux cycles de panel, toutefois, les erreurs de déclaration constituent un problème courant (effet de lisière).

Dans cet exposé, nous soutenons qu’on peut réduire considérablement l’effet de lisière en combinant les méthodes du calendrier rétrospectif et de l’interview avec rétroinformation. En nous fondant sur les données préliminaires de la toute nouvelle étude par panel auprès des familles allemandes, nous montrons comment cette approche permet de réduire l’effet de lisière.

Dans le deuxième cycle de notre étude préliminaire, nous avons administré un questionnaire papier-crayon à calendrier rétrospectif allant de l’âge de 14 ans jusqu’à la date de l’interview et couvrant l’historique des relations, de la fécondité et de la mobilité résidentielle. Dans le troisième cycle, nous avons demandé aux répondants quels événements s’étaient produits entre les interviews. À l’aide d’un plan d’enquête avec un questionnaire à deux formes, nous avons présenté soit un calendrier en blanc, soit un calendrier où figurait déjà le statut au deuxième cycle (interview avec rétroinformation). Les écarts entre les deux groupes révèlent que l’interview avec rétroinformation permet de réduire l’effet de lisière et, par conséquent, d’améliorer la qualité des données.

(A) Comparaison des rapports d’enquête obtenus au moyen d’un questionnaire standard et d’un calendrier rétrospectif

Jeffrey Moore, Jason Fields, Joanne Pascale, Gary Benedetto, Martha Stinson et Anna Chan, U.S. Census Bureau, É.-U.

La Survey of Income and Program Participation (SIPP) menée par le Census Bureau des États-Unis fournit des données mensuelles sur le revenu et la richesse de la population et sur sa participation aux programmes publics. À l’heure actuelle, la SIPP interviewe chaque membre de l’échantillon trois fois par année, la période de référence de chaque interview couvrant les quatre mois civils précédents. En 2006, le Census Bureau a entrepris de remanier la SIPP en menant désormais une seule interview annuelle couvrant l’année civile précédente. À cette fin, le Census Bureau entend employer des méthodes axées sur le calendrier rétrospectif. Toutefois, des études antérieures ont soulevé certaines questions quant à la qualité des données obtenues à l’aide du calendrier rétrospectif sur des sujets d’une importance capitale pour la SIPP, comme la participation aux programmes en fonction des besoins. De plus, la base de recherche ne tient pas compte de la principale modification apportée au plan d’enquête de la SIPP, soit l’intention de faire passer la période de référence de quatre à douze mois. Pour examiner les répercussions qu’auraient l’adoption du calendrier rétrospectif et la prolongation de la période de référence, le Census Bureau a procédé, au printemps 2008, à l’essai sur le terrain du calendrier rétrospectif de la SIPP. L’essai consistait essentiellement à réinterviewer à l’aide du calendrier rétrospectif les ménages du panel expiré de la SIPP de 2004. La période de référence de la réinterview était l’année civile 2007; l’échantillon était composé principalement de ménages qui avaient déjà fourni des renseignements sur l’année civile 2007 dans le cours normal de leurs trois dernières interviews dans le cadre de la SIPP. L’essai sur le terrain permet donc de comparer directement les rapports obtenus au moyen du questionnaire standard et du calendrier rétrospectif auprès des mêmes personnes, au sujet des mêmes caractéristiques et pour la même période. Cet exposé porte sur la composante principale de l’évaluation des résultats de l’essai sur le terrain : un examen de la correspondance des deux rapports – l’un obtenu d’après un questionnaire standard, l’autre d’après un instrument à calendrier rétrospectif – à l’égard de plusieurs caractéristiques essentielles visées par la SIPP et pour chaque mois de 2007.

Session 3 –- Biais d'érosion et pondération pour la non-réponse

(A) Évaluation et sélection de modèles pour l’ajustement de la non-réponse due à l’attrition

Eric Slud et Leroy Bailey, U.S. Census Bureau, É.-U.

Dans cet exposé, nous considérons une enquête longitudinale américaine, la Survey of Income and Program Participation (SIPP), qui comporte des cycles successifs de collecte de données auprès de personnes échantillonnées. Dans cette enquête, on corrige la non-réponse due à l’attrition en modifiant la pondération au moyen de cellules d’ajustement ou d’un modèle de régression logistique à l’aide de covariables auxiliaires. Nous mesurons les biais dans les totaux estimatés d’attribut du premier cycle (le « cycle 1 ») entre l’estimateur pondéré du premier cycle et l’estimateur repondéré pour le même total du cycle 1 en fonction des répondants d’un cycle ultérieur. Nous définissons trois nouvelles mesures de la qualité des modèles utilisés pour ajuster les données d’une enquête longitudinale en fonction de l’attrition. Les mesures combinent les biais estimés d’ajustement entre les cycles en fonction de sous-ensembles de l’échantillon, par rapport au total estimé, pour divers éléments de l’enquête. Nous calculons le maximum des biais dans les totaux estimés d’un élément de l’enquête à partir du total partiel pondéré des premières j unités de l’échantillon, j s’échelonnant entre 1 et la taille de l’échantillon entier (cycle 1), après un réordonnancement aléatoire de l’échantillon entier ou des unités comprises dans des cellules distinctes (qui font également l’objet d’un réordonnancement aléatoire); puis, nous divisons le biais d’ajustement maximal moyen, calculé sous les différents réordonnancements, par le total estimé du cycle 1 pour obtenir la valeur de la mesure. Nous estimons des bandes de confiance pour les mesures et nous appliquons les mesures pour juger de la qualité d’une série de modèles de régression logistique afin de choisir un modèle pour ajuster la non-réponse due à l’attrition dans la SIPP de 1996.

(A) L’ajustement des poids de non-réponse au moyen de l’imputation multiple dans la Millenium Cohort Study du Royaume-Uni

John W. McDonald et Sosthenes C. Ketende, Université de Londres, Royaume-Uni

Cet exposé porte sur l’ajustement des poids de non-réponse pour le cycle 3 de la Millennium Cohort Study (MCS) du Royaume-Uni. On peut ajuster les poids pour des profils monotones de non-réponse; ici, le poids de non-réponse est l’inverse de la probabilité de réponse estimative fondée sur un modèle de régression logistique, qui utilise les données de cycles antérieurs pour prévoir la réponse au cycle en cours. Pour des profils non monotones, certains cas comportent des données manquantes pour les cycles antérieurs et cette méthode ne peut être appliquée facilement. Dans le cadre de la MCS, 7,5 % des familles ont pris part aux cycles 1 et 3, mais non au cycle 2; il existe donc un profil non monotone de non-réponse pour 1 444 familles.

Pour estimer un poids de non-réponse au cycle 3 de la MCS, nous avons utilisé l’imputation multiple afin d’imputer les valeurs manquantes nécessaires au cycle 2 pour ces 1 444 familles permettant ainsi la modélisation logistique de la réponse au cycle 3. Cette imputation reposait sur les données des cycles 1 et 3 et consistait uniquement à imputer les valeurs manquantes des variables à variation temporelle qui se sont avérées des prédicteurs de la non-réponse dans le cadre de la MCS. Ce qui revenait donc à faire une imputation multiple des poids de non-réponse au cycle 3, dont on peut établir la moyenne pour produire un poids de non-réponse unique ou encore utiliser les dix poids de non-réponse imputés pour mener des analyses distinctes et combiner les résultats au moyen des règles de Rubin. Nous abordons les avantages et les inconvénients des deux méthodes.

(A) Analyse de la non-réponse dans l’Enquête longitudinale nationale sur les enfants et les jeunes

Mike Tam et Agnes Waye, Statistique Canada

Dans cet exposé, nous examinons la non-réponse de la cohorte initiale de l’Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ). Cette enquête longitudinale recueille des renseignements sur les caractéristiques et les facteurs pouvant influencer au fil du temps le développement et le bien-être des enfants et des jeunes au Canada. Une cohorte initiale d’enfants de 0 à 11 ans, échantillonnée en 1994, fait l’objet de suivis tous les deux ans. En raison du taux de non-réponse à l’enquête, une vaste analyse est en cours pour déterminer l’ampleur du biais de non-réponse qui peut exister et l’incidence éventuelle de ce biais sur les analyses fondées sur les données de l’ELNEJ. Nous cherchons également à déterminer si la non-réponse initiale diffère de la non-réponse subséquente. Pour examiner ces deux enjeux, nous cernons des déterminants éventuels de la non-réponse pour différents profils d’attrition, ainsi que de différentes composantes de la non-réponse, comme le non-contact ou le refus. Nous examinons également la mesure dans laquelle les ajustements apportés aux poids de sondage permettent de corriger le biais. Le fait de cerner les prédicteurs de la non-réponse et d’évaluer notre méthode de pondération actuelle en fonction des caractéristiques liées à la non-réponse nous sera utile au moment de mettre en oeuvre la pondération des données du cycle 8.

Session 4 – Collecte et appariement de données

(A) Maintenir le contact avec les familles entre les cycles de la PSID : essai expérimental d’une nouvelle stratégie

Katherine McGonagle, Mick Couper et Robert Schoeni, Université du Michigan, É.-U.

Depuis 1997, la Panel Study of Income Dynamics (PSID) mène des interviews biennales. On envoie périodiquement aux familles une fiche de mise à jour des coordonnées pour pouvoir les retracer d’un cycle à l’autre. Les familles qui retournent la carte postale dûment remplie reçoivent 10 $. Habituellement, un peu plus de la moitié des familles répondent à cet envoi postal. Une analyse révèle qu’il s’avère rentable de disposer de renseignements à jour avant le début de la collecte de données. Pendant le cycle d’interviews de 2007, les familles qui avaient mis à jour leurs coordonnées étaient beaucoup moins susceptibles de nécessiter un dépistage ou des efforts particuliers de conversion des cas de refus, et il fallait deux fois moins de démarches de prise de contact pour les interviewer. Compte tenu de ces avantages, on a conçu une étude préparatoire au cycle de 2009 pour améliorer le taux de réponse à l’envoi postal de mise à jour des coordonnées. On a envoyé aux familles la fiche de mise à jour selon diverses modalités réparties au hasard, soit un incitatif prépayé ou postpayé, la conception de la fiche (ancienne ou nouvelle version), l’envoi ou non d’un rapport au répondant et le moment de l’envoi postal (à l’été ou à l’automne). Cet exposé présente les constatations initiales relatives aux taux de réponse à l’envoi postal de mise à jour des coordonnées selon ces différentes modalités. Dans l’ensemble, le type d’incitatif employé n’exerce aucune influence. Pour toutes les modalités, l’ancienne version de la fiche s’est avérée plus efficace que la nouvelle. Les familles ayant reçu un deuxième envoi postal ont affiché des taux de réponse nettement plus élevés que celles qui en avaient reçu un seul. On observe certains effets d’interaction dus au moment de l’envoi postal : ainsi, les familles ayant reçu l’envoi postal à l’automne ont affiché des taux de réponse supérieurs si elles avaient également reçu un incitatif prépayé. Nous formulons diverses hypothèses pour expliquer ces constatations et décrivons les prochaines étapes de l’analyse.

(A) Les modes de collecte mixtes et multiples : l’expérience de l’enquête HILDA

Mark Wooden, Université de Melbourne, Australie

À l’instar d’autres enquêtes par panel auprès des ménages, l’enquête Household, Income and Labour Dynamics in Australia (HILDA) recueille des données au moyen de modes de collecte multiples. En outre, la composition de ces modes de collecte a changé

graduellement au fil du temps; au cycle 8, environ 10 % des interviews étaient menées par téléphone, alors qu’au cycle 1, la fréquence des interviews téléphoniques était négligeable. Cette utilisation de modes de collecte mixtes soulève un certain nombre de questions, notamment la crainte que les modifications apportées à la méthode de collecte de données n’entraînent des erreurs dans la mesure du changement.

Dans cet exposé fondé sur l’expérience de l’enquête HILDA, nous examinons l’importance de ces enjeux. Plus précisément, nous tentons de répondre à cinq questions clés. Premièrement, quelles raisons expliquent la décision d’employer des modes de collecte mixtes (et multiples)? Deuxièmement, quelles caractéristiques distinguent les personnes interviewées par téléphone de celles qui sont interviewées sur place? Troisièmement, le mode de collecte a-t-il une incidence, favorable ou défavorable, sur l’attrition de l’échantillon? Quatrièmement, les modes de collecte mixtes et multiples ont-ils une incidence sur la quantité de données recueillies? Enfin, peut-on prouver que l’utilisation d’un mode de collecte mixte a eu une incidence considérable sur l’exactitude des réponses et, ce qui est plus important, sur la cohérence longitudinale de ces réponses?

(A) La gestion d’un appariement inexact complexe dans les applications de codage et de couplage

Michael J. Wenzowski, Statistique Canada

Plus on s’emploie à acquérir indirectement des données de sources administratives et d’autres sources, plus il devient nécessaire d’identifier, voire de coupler ces enregistrements. Par exemple, les données recueillies à d’autres fins ne sont pas nécessairement codées comme il se doit; elles peuvent aussi s’avérer incomplètes sans l’exécution d’un couplage d’enregistrements. Ces deux activités relèvent du domaine de l’appariement inexact et probabiliste. Par exemple, les données disponibles n’ont peut-être pas été obtenues de manière à faciliter le codage selon la norme appropriée; de même, on nous présente rarement une clé unique pour effectuer un couplage déterministe. Ces conditions nous obligent à effectuer un appariement inexact ou « flou », ainsi qu’à utiliser une méthode probabiliste pour identifier les « bons » appariements.

Nous présentons les résultats d’une initiative menée récemment par Statistique Canada pour remanier nos systèmes généralisés de codage et de couplage d’enregistrements afin d’améliorer leur applicabilité pour un vaste éventail de problèmes de traitement et de domaines spécialisés. Ces systèmes sont habituellement adaptés à une utilisation donnée par l’équipe de la méthodologie chargée de créer l’application; en cours de production, ils sont couramment exécutés par le personnel des opérations d’enquête. Nous montrons comment nous avons accru l’utilité générale de ces progiciels en établissant des

contrôles plus intuitifs sur la gestion de la complexité de leur traitement interne et comment nous avons simplifié leurs modèles d’installation, de montage et de traitement. Nous adoptons à cette fin le point de vue des utilisateurs de ces logiciels, qu’il s’agisse du personnel des technologies de l’information, de la méthodologie ou des opérations d’enquête.

(A) La gestion des relations avec les répondants à l’Enquête nationale sur la santé de la population

Andrew MacKenzie et Natasha Zaletel, Statistique Canada

L’Enquête nationale sur la santé de la population (ENSP) est une enquête longitudinale qui recueille depuis 1994 des renseignements sur la santé de la population canadienne et des données socio-démographiques connexes. À l’automne 2009, l’ENSP aura recueilli huit cycles de données couvrant 15 années et se préparera à recueillir le neuvième cycle en 2010. Les taux de réponse à l’ENSP sont restés élevés au cours des huit premiers cycles de collecte de données mais, depuis quelques années, ils ont reculé comme dans le cas de la plupart des autres enquêtes sociales. Comme il s’agit d’une enquête longitudinale, il est essentiel de maintenir un échantillon de participants volontaires, d’autant plus qu’on perd des répondants parce qu’ils meurent ou qu’ils déménagent ou à cause d’autres formes de non-réponse. Cet exposé fait état des relations très positives entre l’ENSP et ses répondants et présente les méthodes utilisées pour favoriser et enrichir ces relations continues. Au fil des ans, l’ENSP a investi énormément dans les relations avec les répondants, notamment en constituant des groupes de discussion pour mettre à l’essai des lettres de présentation et des brochures ainsi que des cadeaux et des lettres de remerciement à l’intention des participants à l’enquête. Cet exposé aborde également l’équilibre recherché par l’ENSP lorsqu’il s’agit de décider de retirer des répondants de l’échantillon parce qu’ils sont impossibles à retracer ou qu’ils ont toujours refusé de participer.

Session 5 – Analyse des données d'enquête longitudinale

(A) Étude par simulation d’approches par calage pour l’estimation de flux bruts

Marcel de Toledo Vieira, Université Fédérale de Juiz de Fora, Brésil
Gad Nathan, Université Hébraïque de Jérusalem, Israël

Les méthodes utilisées habituellement pour l’analyse de données longitudinales, comme celles s’appuyant sur l’application de modèles linéaires généralisés ou de modèles multiniveaux aux mesures répétées et sur l’utilisation d’équations d’estimation généralisées, sont fondées principalement sur un modèle. Nous examinons l’application de méthodes de calage aux fins de l’estimation de flux bruts à partir de données longitudinales. On peut ensuite procéder au calage sur les totaux connus des variables transversales ou des variables auxiliaires longitudinales et le choix de fonctions de distance appropriées donne une large gamme d’estimateurs fondés sur le plan et fondés sur le modèle, comme les estimateurs GREG. L’étude de simulation s’appuie sur des données de la British Household Panel Survey et vise à comparer l’efficacité du calage sur les variables transversales et celle du calage sur les variables auxiliaires longitudinales ainsi que l’efficacité des estimateurs habituels des flux bruts.

(A) Suivis impossibles et modélisation des périodes de chômage de l’EDTR à l’aide du modèle de régression à risques proportionnels de Cox

Dagmar Mariaca Hajducek et Jerry Lawless, Université de Waterloo, Canada

Les enquêtes longitudinales recueillent des données sur l’éducation, l’emploi, la santé et d’autres processus de la vie. La durée des périodes vécues dans un état donné revêt souvent un grand intérêt, par exemple celle des périodes de chômage, de maladie ou de recours à l’assistance sociale. Malgré les nombreux progrès réalisés au cours des vingt dernières années dans l’analyse des processus de la vie, les données d’enquêtes longitudinales présentent toujours de nombreuses difficultés liées à des plans d’échantillonnage complexes, à la vérification intermittente des données au moyen d’interviews, à la fréquence des données manquantes et aux problèmes d’attrition de panel à cause de suivis impossibles. De plus, la durée des périodes successives vécues par une personne est habituellement corrélée, tout comme celle des périodes vécues par des personnes au sein d’une grappe. Cet exposé porte sur la modélisation et l’analyse de la durée des périodes vécues dans ces conditions. Nous abordons notamment l’utilisation de modèles marginaux de la durée ainsi que de modèles conditionnels aux antécédents d’une personne, le besoin de prendre en compte les suivis impossibles en fonction de l’état, la censure dépendante induite due à la corrélation de la durée des périodes vécues par une même personne, ainsi que les façons de compenser avec des données mal mesurées ou manquantes sur la durée ou sur d’autres variables. Ces enjeux sont illustrés par la modélisation et l’analyse des périodes sans travail d’après l’Enquête sur la dynamique du travail et du revenu de Statistique Canada.

(A) Les enjeux de l’utilisation de la modélisation par équations structurelles dans les fichiers de données longitudinales à grande diffusion

Laura Stapleton, Université du Maryland, É.-U.

Cet exposé décrit les enjeux auxquels fait face le spécialiste de la recherche appliquée qui analyse des données longitudinales à grande diffusion. Ces données permettent au chercheur de répondre à des questions portant sur l’ampleur et l’évolution d’une croissance et sur les écarts de croissance entre des groupes; toutefois, le spécialiste de la recherche appliquée doit d’abord déterminer comment composer avec le plan d’échantillonnage lorsqu’il mène une analyse. Un fichier de données à grande diffusion peut comporter des renseignements précis sur l’échantillonnage : un ou des indicateurs de strate, un indicateur d’unité primaire d’échantillonnage, un ou plusieurs poids de panel (selon le nombre de cycles de collecte de données) et des poids de rééchantillonnage. De plus, si l’on a communiqué avec plus d’un type de répondant à chaque cycle, il peut exister des poids de panel pour chaque type de répondant (par ex., parent et enfant). Le spécialiste de la recherche appliquée peut avoir du mal à utiliser convenablement ces renseignements. Cet exposé porte sur les enjeux de l’échantillonnage à plusieurs degrés (dont l’incidence sur les estimations de la variance d’échantillonnage) et des diverses méthodes (basé sur un modèle et basé sur le plan) de modélisation du plan d’échantillonnage, ainsi que sur l’utilisation de poids de panel sélectionnés parmi un ensemble de poids selon la stratégie d’analyse choisie pour tenir en compte les données manquantes. En outre, on calcule habituellement des poids pour refléter l’inverse de la probabilité de sélection d’une personne, mais la modélisation à plusieurs niveaux permet de choisir des poids de manière à refléter aussi la probabilité de sélection au niveau des grappes. Nous abordons ces enjeux dans le contexte de la modélisation de la croissance latente et nous présentons les solutions logicielles qui existent pour composer avec le plan d’échantillonnage dans les modèles par équations structurelles.

Session 6 – Enjeux méthodologiques dans les enquêtes économiques

(A) L’élaboration d’un prototype du programme LEED italien fondé sur des données administratives : principaux aspects méthodologiques

Carla Congia et Roberta Rizzi, ISTAT, Italie

Istituto Nazionale di Statistica

La construction par l’Institut italien de la statistique du premier prototype d’une base de données couplées employeurs-employés (BDCEE) italienne officielle suivait l’étude d’expériences antérieures de nombreux autres pays comme les États-Unis, le Canada, la France, le Danemark, la Nouvelle-Zélande.

L’archive administrative des déclarations que les employeurs doivent transmettre chaque année au Bureau des impôts italien pour communiquer les retenues fiscales sur les salaires, les cotisations de sécurité sociale et les prestations d’assurance versées pour chaque employé est la première source administrative de données sur laquelle repose l’élaboration d’une BDCEE couvrant toute la population des employeurs et des employés des secteurs tant privé que public. La BDCEE est le résultat d’un processus complexe d’intégration avec d’autres sources administratives pertinentes. En outre, le couplage aux données du registre statistique des entreprises italien, au moyen d’un code unique (le code fiscal de l’employeur), est un gage officiel de la pertinence statistique du projet.

Comme les entités dans la BDCEE sont liées longitudinalement, il est possible de suivre les travailleurs au fil du temps et de relier ce suivi à la dynamique longitudinale des entreprises. La BDCEE a ainsi l’occasion de répondre à de nombreux et différents besoins d’information. Actuellement, elle permet d’étudier certains aspects importants du marché du travail comme les travailleurs et les flux d’emplois, l’ancienneté dans l’emploi, le cumul d’emplois et la dynamique des salaires, etc.

Le présent article décrit les aspects méthodologiques pertinents de la construction du premier prototype de cette base de données italienne, notamment le processus de normalisation des données administratives qui doivent être vérifiées et traduites en variables statistiques. Nous analysons ensuite tous les aspects du problème de l’identification longitudinale des entreprises, selon les renseignements disponibles sur les fusions, les acquisitions et les fractionnements d’entreprises. Pour terminer, nous examinons les questions liées à l’identification longitudinale des emplois, particulièrement dans le cas de cumul d’emplois.

(A) Les plans de sondage des enquêtes sur les prix sont-ils suffisamment robustes au vieillissement des facteurs de pondération? Étude par simulation

Zdenek Patak, Statistique Canada
Daniele Toninelli, Université de Bergamo, Italie

L’étude des mouvements des prix a pris très rapidement de l’importance au cours des dernières années dans l’économie mondiale aux prises avec la crise financière généralisée. De nombreux organismes statistiques nationaux ont entrepris d’élaborer de nouveaux projets fondés sur des études longitudinales pour mesurer les mouvements des prix des produits et services; il s’agit dans ce dernier cas d’un domaine relativement nouveau mais dont l’importance croît rapidement. Dans ce contexte, Statistique Canada met en oeuvre actuellement de nouveaux projets dans le cadre des Indices des prix à la production pour les services (IPPS).

De nombreuses questions méthodologiques se rapportant à la collecte des données font l’objet de recherches intensives. Ces dernières visent principalement à améliorer la qualité de l’ensemble du processus de production des indices. Ces travaux ont pour objet notamment d’améliorer la qualité du processus de collecte des données. À cette fin, ils portent tout particulièrement sur la première étape de recherche et l’examen de l’évolution temporelle des données d’enquête, en utilisant la taille des unités sélectionnées comme facteur expérimental.

En nous penchant d’abord sur une population simulée générée à partir des données recueillies dans le cadre de l’enquête sur les prix de gros des services, nous visons à comparer les principales méthodes d’échantillonnage en soulignant leur efficacité relative en matière de précision des estimations. Nous comparons les résultats obtenus au moyen de différentes méthodes de probabilité proportionnelle à la taille à ceux obtenus au moyen de l’échantillonnage aléatoire simple et des méthodes d’échantillonnage discrétionnaire, et nous évaluons comment et dans quelle mesure l’évolution de la mesure de la taille au fil du temps influe sur les estimations et sur le biais des résultats.

(A) L’ajout d’une composante longitudinale au programme des données fiscales agricoles de Statistique Canada

Terri Blanchard et Peter Xiao, Statistique Canada

Le Programme des données fiscales des exploitations agricoles (PDF) à Statistique Canada vise principalement à produire des estimations transversales des variables financières comme les dépenses et les revenus d’exploitation moyens, le bénéfice net d’exploitation et le revenu hors ferme pour les exploitations agricoles, les exploitants agricoles et les familles agricoles au Canada. Les données administratives proviennent des formulaires fiscaux envoyés à l’Agence du revenu du Canada (ARC) par les exploitations agricoles non constituées en société (T1), constituées en société (T2) et collectives par voie électronique ou sur support papier.

Une composante longitudinale a été ajoutée au PDF à compter de l’année d’imposition 2001. La nouvelle composante vise à permettre de suivre diverses exploitations agricoles au fil du temps et de comprendre les caractéristiques de celles qui subissent divers types de changements. Le panel de l’année d’imposition 2001 a fait l’objet d’un suivi annuel. Des panels annuels de cohortes ont été créés à compter de l’année d’imposition 2006 et ont également fait l’objet d’un suivi annuel. Notre base de données longitudinales actuelle porte sur les unités du panel de 2001 pour lesquelles des données sont disponibles pour les années d’imposition 2001 à 2006.

Dans cet article, nous décrivons la composante longitudinale du PDF, les répercussions sur l’échantillon transversal du suivi de plus d’une cohorte, la stratégie d’imputation conçue tout particulièrement pour les unités longitudinales et la méthode de pondération.

(A) Les enquêtes longitudinales auprès de populations difficiles à retracer

E.J. Reedy, Kauffman Foundation, É.-U.

La Kauffman Foundation est la plus grande fondation mondiale qui s’intéresse à l’entreprenariat et elle travaille depuis dix ans avec des chercheurs pour mesurer ce processus. Le présent article portera sur ce que la fondation a appris des enquêtes longitudinales menées auprès d’entreprises jeunes et émergentes, notamment la Kauffman Firm Survey (KFS) et la Panel Study on Entrepreneurial Dynamics (PSED).

La KFS est la plus grande enquête longitudinale sur les nouvelles entreprises au monde – à sa date d’achèvement, elle aura pris huit ans. La KFS est une enquête par panel comprenant de nouvelles entreprises créées par une personne ou une équipe de personnes, par l’achat d’entreprises existantes par une nouvelle équipe de propriétaires et par l’achat de franchises. Les interviews initiales avec les dirigeants de 4 928 entreprises qui ont ouvert leurs portes en 2004 sont achevées. Les données ont été recueillies au moyen d’une enquête en ligne auto-administrée ainsi que d’interviews téléphoniques assistées par ordinateur (ITAO) et les répondants à la KFS ont été payés 50 $ pour achever l’interview. La KFS a maintenu une grande partie de son échantillon de base, obtenant des taux de réponse pondérés d’environ 80 % ou plus selon la définition normalisée RR1 de l’AAPOR.

La PSED fournit des données valides et fiables sur le processus de création d’entreprises fondées sur des échantillons représentatifs à l’échelle nationale de nouveaux entrepreneurs qui créent de nouvelles entreprises. La PSED I a commencé par une présélection en 1998-2000 avec trois interviews de suivi en vue de sélectionner une cohorte de 830 membres. La PSED II a commencé par une présélection en 2005-2006 avec deux interviews de suivi. Les renseignements obtenus comprennent des données sur la nature des nouveaux entrepreneurs, les activités entreprises durant le processus de démarrage et les caractéristiques des activités de démarrage de nouvelles entreprises.

Session 7 – Aborder la confidentialité à l'aide de données synthétiques

(A) La validité analytique et la protection de la confidentialité dans les systèmes de données statistiques à intégration longitudinale

John M. Abowd, Université Cornell, É.-U.

Cet exposé résume les résultats de six différents projets de données synthétiques menés avec le soutien de la National Science Foundation et utilisant des données statistiques à intégration longitudinale tirées de recensements, d’enquêtes et de dossiers administratifs. Tous ces systèmes ont été conçus pour produire des microdonnées statistiquement valides à diffusion autorisée, protégées par des techniques de données synthétiques. Les systèmes étudiés comprenaient des données longitudinales sur les établissements, des données administratives à intégration longitudinale sur les employeurs et les employés, des données géospatiales intégrées sur le lieu de résidence et le lieu de travail, ainsi que des enquêtes-ménages intégrées à des données administratives longitudinales. Nous analysons les résultats de ces projets en ce qui concerne la validité analytique et la protection de la confidentialité.

(A) Sommaire des méthodes et évaluation provisoire de l’ensemble de données SIPP Synthetic Beta, version 5.0

Gary Benedetto et Martha Stinson, U.S. Census Bureau, É.-U.
Melissa Bjelland, Université Cornell, É.-U.

Cet exposé résume la méthodologie et l’évaluation de la qualité de la plus récente version de SIPP Synthetic Beta (SSB v5.0), ensemble de données à grande diffusion qui combine des variables tirées de la Survey of Income and Program Participation (SIPP) menée par le Census Bureau, des données chronologiques sur les gains tirées des déclarations de revenus de l’Internal Revenue Service (IRS), ainsi que les données de la Social Security Administration (SSA) sur les prestations de retraite et d’invalidité. On a utilisé l’imputation multiple et la synthèse partielle des données pour compléter et perturber les données afin que le produit de données finales (plusieurs ensembles de données appelés implicats, qui ont la même structure que les données confidentielles sous-jacentes) ne compromette pas la confidentialité des données. L’avantage des méthodes utilisées dans le cadre de ce projet est que les utilisateurs de données peuvent analyser chaque implicat synthétique exactement comme ils le feraient s’ils avaient accès à l’ensemble initial de données confidentielles. Après avoir obtenu des résultats pour chaque implicat synthétique, on dispose de formules relativement simples pour combiner ces résultats de manière à obtenir des estimations ponctuelles et des mesures de la variance qui sont pertinentes et qui tiennent compte de l’incertitude inhérente à la modélisation. De plus, comme les valeurs de la vaste majorité des variables du fichier ont été remplacées par des tirages aléatoires provenant d’une distribution de probabilité, les données partiellement synthétiques offrent un niveau très élevé de protection de la confidentialité. Nous tentons également d’évaluer la validité analytique des données partiellement synthétiques et de quantifier le risque de divulgation que comporte la diffusion de ces données au public.

(A) La création de données synthétiques pour le Cross National Equivalent File

Jean-François Beaumont et Cynthia Bocci, Statistique Canada

Au cours des quinze dernières années, la création de données synthétiques s’est imposée comme méthode de prévention de la divulgation. Statistique Canada a récemment commencé à explorer des techniques de création de données synthétiques pour le volet canadien du Cross National Equivalent File (CNEF), qui combine des données de six pays sur le travail et le revenu. Le volet canadien du CNEF provient d’un sous-ensemble de variables de l’Enquête sur la dynamique du travail et du revenu (EDTR), une enquête longitudinale de Statistique Canada. En raison de contraintes liées à la confidentialité, toutefois, les données canadiennes ne sont accessibles que sous réserve de dispositions spéciales, contrairement à celles des autres pays qui sont recueillies par des universités ou des instituts privés. Par conséquent, les analyses font parfois abstraction des données canadiennes. La création de données synthétiques permettrait d’étendre l’accès à ces données à un plus grand nombre de chercheurs et, espère-t-on, d’en accroître l’utilisation.

Dans cet exposé, nous décrivons la méthode de création de données synthétiques longitudinales pour le volet canadien du CNEF et abordons la difficulté de créer des données cohérentes sur les ménages de manière à préserver autant que possible les relations visées par les données initiales tout en réduisant au minimum le risque de divulguer des renseignements confidentiels. Nous présentons certains résultats transversaux provisoires.

Session 8 – Discours du gagnant du Prix Waksberg

(A) Méthodes pour le suréchantillonnage des sous-populations rares dans les enquêtes sociales

Graham Kalton, Westat, É.-U.

On requiert de plus en plus des enquêtes sociales qu’elles permettent de produire des estimations pour des sous-populations, et souvent pour des sous-populations rares. De temps à autre, une enquête se concentre sur une seule sous-population, mais dans de nombreux cas, l’enquête doit produire des estimations pour plusieurs sous-populations de même que pour l’ensemble de la population. Lorsque l’appartenance à une sous-population rare peut être déterminée à partir de la base de sondage, il devient relativement simple de choisir un échantillon de la bonne taille. Dans ce cas, le problème principal consiste à déterminer l’ampleur du suréchantillonage à employer lorsque l’enquête vise à produire des estimations pour plusieurs sous-populations et l’ensemble de la population. Suréchantillonner une sous-population rare qui ne peut être identifiée à partir de la base de sondage s’avère un défi majeur. Les méthodes permettant de procéder à ce suréchantillonnage incluent l’échantillonnage stratifié disproportionné, l’échantillonnage à deux phases, l’utilisation de bases multiples, le sondage par réseaux, les enquêtes par panel, et l’emploi d’enquêtes polyvalentes. Cet article décrit ces méthodes et illustre leur application dans une gamme d’enquêtes.

Session 9 – Données longitudinales sur la santé : enjeux et défis

(A) Établissement d’une méthode longitudinale de recherche sur la santé communautaire : enjeux et difficultés

David Marshall, Université du Queensland, Australie

Les méthodes longitudinales sont extrêmement utiles pour mieux comprendre la santé et le bien-être au niveau communautaire. En particulier, des études longitudinales axées sur les localités permettraient d’améliorer grandement la connaissance des conditions sociales, économiques et environnementales au niveau local et leur influence sur le fardeau des maladies chroniques. À ce jour, toutefois, elles sont relativement sous-utilisées dans ce domaine.

Cet exposé décrit certains enjeux méthodologiques essentiels pris en compte dans l’établissement proposé de la « Ipswich Study », une étude locale de la santé et du bien-être communautaires d’une banlieue lointaine d’environ 150 000 personnes dans le sud-est du Queensland, en Australie. L’évolution rapide de la région et sa croissance prévue au cours des deux prochaines décennies créent une occasion unique d’analyser l’impact de cette évolution sur la santé communautaire. Nous présentons les enjeux et les difficultés liés au programme de recherche proposé, les options envisagées pour s’y attaquer et l’approche qui sera probablement adoptée pour les surmonter. Nous abordons en particulier les problèmes éventuels liés à l’étude d’une région qui subit d’énormes changements d’ordre social, économique et environnemental.

(F) Analyse de l’approche longitudinale de la santé mise en place en Belgique

Ann Ingenbleek, Yves Coppieters et Alain Levêque, Université Libre de Bruxelles, Belgique
Lies Lammens et Patrick Deboosere, Vrije Universiteit Brussel, Belgique
Florence Cols et William D’hoore, Université Catholique de Louvain, Belgique

La mise en place du "gouvernement électronique" a créé en Belgique l’occasion de moderniser le secteur de la santé. Plus spécifiquement, le flux de l’information sanitaire est réorganisé afin d’améliorer l’accès à la santé et la sécurité des patients.

Profitant de ce contexte, le système national d’information sanitaire sera complété par une composante capable de constituer, à partir des sources de données existantes, une vision longitudinale de la santé, cohérente et efficace.

Parmi les initiatives récemment développées en Belgique et qui sont particulièrement profitable à l’approche longitudinale, il y a : l’instauration des dossiers médicaux informatisés, qui permettent de consigner l’histoire de santé des patients ; la création de registres collectant à la fois des renseignements cliniques (à l’usage des professionnels) et des données administratives (utiles à la gestion du système de soins de santé) ce qui potentialise les ressources humaines, techniques et financières nécessaires pour générer en routine de l’information sanitaire ; enfin, outre les études de suivi, un Échantillon Permanent a été constitué sur base des données de consommation de soins relevées par l’assurance obligatoire de santé.

Au cours de cette communication, nous analysons, du point de vue fédéral, les circonstances propices et défavorables auxquelles l’implantation de cette approche longitudinale de la santé est confrontée.

Les révisions de la législation, l’usage commun du numéro personnel d’identification et la disponibilité de moyens substantiels sont des facteurs favorisants. Les défis correspondants impliquent des choix de société, la propagation d’une vision globale de santé publique et l’assentiment des professionnels aux changements induits.

(A) Les aspects éthiques de la collecte de données longitudinales aux niveaux individuel et sociétal

Lies Lammens et Patrick Deboosere, Vrije Universiteit Brussel, Belgique
Florence Cols et William D’hoore, Université Catholique de Louvain, Belgique
Ann Ingenbleek, Yves Coppieters et Alain Levêque, Université Libre de Bruxelles, Belgique

En raison de l’évolution technologique, les chercheurs des sociétés industrialisées font face au dilemme éthique fondamental qui oppose le savoir à la vie privée. Les données longitudinales, notamment, pourraient constituer une menace à la vie privée des particuliers, ou du moins être perçues comme telle, puisqu’elles renferment des renseignements détaillés sur leurs caractéristiques et leurs comportements et qu’elles reflètent des profiles qui pourraient révéler une identité personnelle. En outre, pour établir des données longitudinales, il faut souvent coupler des données individuelles à plusieurs reprises, ce qui accroît considérablement le risque de divulgation.

Dans une étude antérieure, nous avons élaboré un cadre conceptuel des répercussions éthiques de programmes de collecte de données (sur la santé). Nous avons abordé les objectifs des politiques en matière de santé dans le contexte d’une collecte toujours plus détaillée de données personnelles, qui risque de compromettre d’autres objectifs de société. Nous avons souligné les risques à court terme (menace pour la vie privée) et à long terme (menace pour la démocratie) de l’utilisation abusive des données recueillies.

Dans cet exposé, nous évaluons en fonction de notre cadre théorique deux pays qui ont organisé différemment leur système statistique. En l’occurrence, nous comparons le système statistique du Royaume-Uni, décentralisé, à celui du Danemark, reconnu internationalement pour son utilisation abondante de registres publics et sa production hautement centralisée de statistiques. Nous nous demandons dans quelle mesure l’organisation de ces systèmes statistiques protège la vie privée à court terme et dans quelle mesure elle garantit à long terme l’utilisation démocratique des données recueillies.

(F) L’apport des bases administratives et médico-administratives dans la cohorte Constances

Gueguen, R. Sitta, JL. Lanoe, M. Goldberg et M. Zins, INSERM, France
L. Bénézet et G. Santin, Institut de veille sanitaire, France

CONSTANCES (www.constances.fr) est une cohorte épidémiologique de 200 000 participants suivis sur plusieurs dizaines d’années qui permettra d’étudier les effets de facteurs de risque sur divers problèmes de santé notamment les inégalités sociales de santé, et de fournir des informations à visée de santé publique.

A l’inclusion, un échantillon aléatoire d’affiliés au Régime Général de la Sécurité Sociale (80% de la population française) sera invité dans les Centres d’examens de santé de la Sécurité Sociale de 17 départements, pour bénéficier d’un examen médical complet. Le suivi des participants s’effectuera annuellement par questionnaire et par appariement individuel à plusieurs bases de données d’origine administrative : données socioprofessionnelles de la Caisse nationale de retraite (activité, inactivité, profession), données de santé issues des bases de l’Assurance maladie (SNIIRAM : hospitalisations (PMSI), consommation de soins, acte médicaux), causes de décès.

L’inclusion dans un centre d’examens de santé mènera probablement à une faible participation induisant des effets de sélection. Classiquement, en épidémiologie analytique, ces derniers sont pris en compte en incluant les facteurs de participation potentiels dans la modélisation du lien exposition-maladie, mais cette démarche peut être insuffisante [Hernan et al. Epidemiology, 2004] et l’estimation des fréquences d’exposition ou de maladie nécessite une repondération corrigée pour la non-participation. C’est pourquoi la cohorte des participants sera jumelée à une cohorte de non-participants, lesquelles seront suivies de manière strictement identique dans les bases de données administratives ; ces bases permettront un recueil rétrospectif jusqu'à deux ans avant la date d’inclusion.

Session 10 – Enjeux liés à la collecte de données d'enquêtes longitudinales

(A) Maintenir le contact avec les familles mobiles de la Millenium Cohort Study du Royaume-Uni

Lisa Calderwood, Université de Londres, Royaume-Uni

Dans la réalisation d’études longitudinales, il est essentiel de réduire au minimum l’attrition, notamment parce que l’étude risque de devenir moins représentative de la population étudiée si les membres de l’échantillon qui sont perdus sont systématiquement différents de ceux qui restent. De récents travaux de recherche ont porté sur les différentes sources d’attrition : la localisation, la prise de contact et la coopération.

Cet exposé porte sur le problème de la localisation des familles mobiles dans le cadre de la Millennium Cohort Study (MCS) du Royaume-Uni. La MCS suit plus de 19 000 enfants nés au Royaume-Uni en 2000-2001. À ce jour, ces enfants ont fait l’objet de quatre cycles de l’étude aux âges de 9 mois, 3 ans, 5 ans et 7 ans.

Dans cet exposé, nous examinons quelle proportion des familles qui déménagent entre les cycles on réussit à localiser grâce aux méthodes de dépistage de l’étude. Nous examinons notamment l’efficacité des méthodes visant à prendre connaissance des changements d’adresse avant le début du travail d’enquête sur le terrain, par rapport au dépistage effectué sur le terrain par l’intervieweur. Nous nous penchons en particulier sur l’utilité, pour les besoins du dépistage, des données administratives tirées des dossiers de la sécurité sociale sur les prestations pour enfants. Nous examinons également certains facteurs liés au succès ou à l’échec de la localisation des familles mobiles.

(F) Organisation et monitoring du terrain d’enquête : impact sur la qualité des estimateurs pour un panel rotatif de ménages

Thomas Christin, Stéphane Fleury et Johan Pea, Office fédéral de la statistique, Suisse

En admettant que la non-réponse totale est non ignorable et imparfaitement modélisée, elle contribue à augmenter la variance de nos estimateurs et crée un biais malgré les ajustements apportés par la pondération. Alors que la probabilité de réponse est habituellement expliquée et corrigée par des caractéristiques individuelles inhérentes au répondant, nous proposons d’évaluer dans quelle mesure l’organisation et le monitoring du terrain d’enquête peuvent également significativement influencer les taux de réponse.

Considérant le terrain d’enquête comme une machinerie complexe de production d’interviews, on peut supposer qu’un tableau de bord adéquat, nous permettant de bien en connaître et en contrôler les rouages clefs, devrait nous permettre d’en améliorer la performance. Nous présenterons les outils de monitoring mis en place en Suisse pour l’enquête SILC (Statistics on Income and Living Conditions) ainsi qu’une évaluation critique de leur performance. L’enquête SILC est un panel rotatif de ménages sur quatre ans. Les données sont récoltées au travers d’interviews CATI réalisées par un institut privé de recherche sociale. L’échantillon brut de plus de 10'000 ménages est structuré en plusieurs paquets, activés successivement. De part le caractère 49 multilingue de la Suisse, les interviews sont réalisées en français, en allemand ou en italien dans deux centrales gérées de façon relativement indépendante.

Par ailleurs, de part sa composante longitudinale, SILC offre la possibilité, dès la deuxième vague, d’anticiper le degré de coopération d’un ménage face à la statistique. Différentes options pour estimer ce degré de coopération seront présentées ainsi qu’une évaluation de leur cohérence. Nous exposerons l’option mise en place pour l’enquête SILC en Suisse, ainsi que les mesures prises sur le terrain pour tenter d’augmenter la probabilité de réponse des ménages estimés peu coopératifs face à la statistique.

Pour conclure, nous évaluerons dans quelle mesure un bon monitoring d’enquête, optimisant la relation entre les caractéristiques des répondants et leur probabilité de réponse, n’entraîne pas le remplacement d’un problème par un autre. Ainsi, ce que l’on gagnerait en termes de qualité des estimateurs, en minimisant la non-réponse totale, pourrait en partie être reperdu du côté de la non-réponse partielle ou de l’erreur de réponse.

(A) Un plan de sondage réactif pour l’Enquête sur la dynamique du travail et du revenu

Owen Phillips et Tracy Tabuchi, Statistique Canada

L’Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui mesure les variations du bien-être économique des Canadiens et les facteurs qui pourraient influencer ces variations. Les interviews sont menées au moyen de l’interview téléphonique assistée par ordinateur (ITAO). Au fil des ans, on a lancé un certain nombre d’initiatives pour mieux gérer les ressources et les efforts en matière de collecte des données. L’EDTR a établi un groupe de gestion active de la collecte chargé de surveiller l’évolution de la collecte, de cerner les problèmes et de prendre des mesures correctives. De plus, avant et après la collecte, le groupe envisage des améliorations à mettre en oeuvre au cours de la prochaine collecte et veille à l’intégration et à la mise à l’essai des modifications proposées afin de réduire au minimum les problèmes éventuels. À partir de la collecte de données de 2007, l’EDTR a adopté un maximum de 40 tentatives d’appel par ménage afin de réduire le fardeau du répondant ainsi que les frais de collecte.

Malgré les efforts déployés pour mieux gérer la collecte, les taux de réponse à l’EDTR ont baissé régulièrement au cours des dernières années. En tant qu’enquête longitudinale, l’EDTR pourrait bénéficier de données chronologiques sur la prise de contact au cours des cycles antérieurs dans le but de mieux élaborer une stratégie de prise de contact pour le cycle en cours. Cet exposé présente une analyse en ce sens et l’application des résultats à l’élaboration d’une conception adaptée (Groves et Heeringa, 2006) en vue de la collecte des données de l’EDTR de 2010.

Session 11 – Pondération et estimation

(A) L’ajustement de la pondération à l’aide de scores de propension dans un plan à base de sondage double

C. Boudreau, M.E. Thompson et M. Iraniparast, Université de Waterloo, Canada

La International Tobacco Control Policy (ITC) Netherlands Survey est une enquête longitudinale permanente menée auprès de plus de 2 200 fumeurs depuis 2008. Elle vise à examiner les comportements d’usage du tabac et les répercussions des politiques antitabac au niveau national. Il s’agit de la première enquête menée dans le cadre du projet ITC (qui comprend maintenant des enquêtes réalisées dans plus de 18 pays) au moyen d’une base de sondage double en ligne et à composition aléatoire. La base de sondage en ligne est une base de données sur plus de 200 000 répondants hollandais qui ont convenu de participer régulièrement à des études de recherche menées par la firme de sondage internationale TNS NIPO. Malgré tous les soins pris par TNS NIPO pour assurer la représentation exacte de la population hollandaise dans sa base de données, certains groupes demeurent sous-représentés et d’autres, surreprésentés. Même si les poids d’échantillonnage ont été construits pour en tenir compte dans toute la mesure du possible, un certain biais de sélection demeure.

Dans cette communication, nous présentons une méthode qui utilise l’échantillon sélectionné par composition aléatoire, qui est plus petit, de l’ITC Netherlands Survey de concert avec un score de propension pour corriger les poids de l’échantillon en ligne, qui est plus grand. La méthode consiste à ajuster un modèle de score de propension dans lequel la réponse correspond au mode d’enquête, puis à procéder à un ajustement poststratification des poids de l’échantillon en ligne en utilisant les scores de propension estimés. Il est facile de modifier la méthode dans le cas de valeurs manquantes. Nous l’illustrons au moyen de données de la première vague de l’ITC Netherlands Survey, mais la méthode peut également être utilisée dans le cas d’autres enquêtes à deux bases de sondage dont l’une n’est pas entachée d’un biais.

(A) L’estimation longitudinale dans l’enquête européenne sur le revenu et les conditions de vie

Ralf Münnich et Stefan Zins, Université de Trier, Allemagne

En mars 2000, le Conseil européen de Lisbonne a demandé aux États membres de l’Union européenne de prendre des mesures pour améliorer la cohésion sociale et éliminer la pauvreté d’ici 2010. Afin de bien mesurer la pauvreté et la cohésion sociale, il a été convenu que les indicateurs de Laeken seraient mesurés et publiés chaque année par tous les États membres. Ces indicateurs comprennent surtout des mesures transversales comme le taux de risque de pauvreté ou le coefficient de Gini. Toutefois, certains indicateurs comprennent également des aspects longitudinaux qui permettent de surveiller les faits nouveaux en matière de pauvreté. La source des données est une enquête par panel rotatif, l’Enquête européenne sur le revenu et les conditions de vie (le European Survey of Income and Living Conditions – EU-SILC).

Cette communication vise à estimer certaines mesures de la pauvreté au fil du temps et à en évaluer l’exactitude. Les travaux de recherche portent principalement sur l’estimation des indicateurs fortement non linéaires et leur exactitude. L’accent est mis également sur le plan d’enquête en tant que plan de sondage avec renouvellement de panel. L’EU-SILC se compose de quatre panels rotatifs dont un est remplacé chaque année. Ainsi, seulement trois panels se chevauchent chaque année. On examine la possibilité d’utiliser l’information sur la durée des panels non chevauchants pour améliorer l’inférence. L’étude comprend une simulation Monte-Carlo dans un cadre proche de la réalité.

Les recherches s’inscrivent dans le cadre du projet AMELI appuyé par la Commission européenne et faisant partie du 7e programme-cadre (voir : http://ameli.surveystatstics.net).

(A) La pondération et l’estimation de la variance dans l’enquête par panel à base de sondage double menée auprès des ménages allemands (PASS)

Hans Kiesl, Institute for Employment Research (IAB), Allemagne

L’Institut allemand pour la recherche sur l’emploi vient d’achever la deuxième vague d’une nouvelle enquête par panel annuelle portant sur les ménages à faible revenu, qui est conçue comme enquête à deux bases de sondage. La première base est un registre des ménages qui touchent actuellement des prestations de chômage; la deuxième base se compose d’un registre des adresses de l’ensemble de la population. Au début, 6 000 ménages ont été sélectionnés dans chaque base de sondage (avec échantillonnage PPT des codes postaux à la première étape), d’où la forte variance des poids de sondage entre les deux échantillons. Les poids pour les ménages et pour les personnes sont fournis pour les deux sous-échantillons ainsi que pour l’échantillon combiné, ce qui donne six ensembles différents de poids transversaux pour chaque vague.

Dans cette communication, nous décrivons les défis que présentent la pondération et l’estimation de la variance pour les deux premières vagues de notre enquête, y compris l’élagage des poids extrêmes, la coordination des poids des ménages et de ceux des personnes, les stratégies de correction de la non-réponse pour les ménages et les personnes, une comparaison de différentes méthodes de partage des poids pouvant être utilisées pour tenir compte de la variation de la composition des ménages au fil du temps et l’utilisation d’une pondération convexe afin d’intégrer un échantillon de naissances de deuxième vague tiré de la base de sondage plus petite (c.-à-d. de nouveaux ménages ayant besoin de prestations).

Session 12 – Tenir compte des données manquantes dans l'analyse de données d'enquêtes longitudinales

(A) La modélisation et l’analyse des durées d’après les données d’enquêtes longitudinales

Jerry Lawless et Dagmar Mariaca Hajducek, Université de Waterloo, Canada

Les enquêtes longitudinales recueillent des données sur l’éducation, l’emploi, la santé et d’autres processus de la vie. La durée des périodes vécues dans un état donné revêt souvent un grand intérêt, par exemple celle des périodes de chômage, de maladie ou de recours à l’assistance sociale. Malgré les nombreux progrès réalisés au cours des vingt dernières années dans l’analyse des processus de la vie, les données d’enquêtes longitudinales présentent toujours de nombreuses difficultés liées à des plans d’échantillonnage complexes, à la vérification intermittente des données au moyen d’interviews, à la fréquence des données manquantes et aux problèmes d’attrition de panel à cause de suivis impossibles. De plus, la durée des périodes successives vécues par une personne est habituellement corrélée, tout comme celle des périodes vécues par des personnes au sein d’une grappe. Cet exposé porte sur la modélisation et l’analyse de la durée des périodes vécues dans ces conditions. Nous abordons notamment l’utilisation de modèles marginaux de la durée ainsi que de modèles conditionnels aux antécédents d’une personne, le besoin de prendre en compte les suivis impossibles en fonction de l’état, la censure dépendante induite due à la corrélation de la durée des périodes vécues par une même personne, ainsi que les façons de compenser avec des données mal mesurées ou manquantes sur la durée ou sur d’autres variables. Ces enjeux sont illustrés par la modélisation et l’analyse des périodes sans travail d’après l’Enquête sur la dynamique du travail et du revenu de Statistique Canada.

(A) L’analyse d’enquêtes longitudinales comportant des réponses manquantes

Changbao Wu, Université de Waterloo, Canada
Ivan Carrillo Garcia, Statistique Canada, Canada

Au cours des dernières années, les enquêtes longitudinales sont devenues un important outil de collecte de données dans les études démographiques axées principalement sur l’évolution des variations de population au niveau individuel. La méthode de l’équation d’estimation généralisée (EEG) est l’outil d’inférence statistique le plus utilisé dans les études longitudinales. Toutefois, la vaste majorité des études publiées sur la méthode EEG abordent cette méthode à d’autres fins que des enquêtes, sans tenir compte des enjeux liés aux plans d’échantillonnage complexes.

Nous proposons des méthodes pour analyser des enquêtes longitudinales lorsque la variable réponse comporte des valeurs manquantes. Nos méthodes reposent sur le cadre de l’EEG et sont fortement axées sur le recours à la méthode EEG lorsque les données manquantes sont traitées au moyen de l’imputation. Nous expliquons d’abord pourquoi, puis nous montrons comment on peut intégrer les poids de sondage à la méthode dite pseudo-EEG dans un cadre de randomisation conjointe où les réponses manquantes soit sont traitées par repondération ou par imputation. La cohérence des estimateurs EEG des coefficients de régression produits par cette méthode est établie dans certaines conditions de régularité. Nous calculons des estimateurs par linéarisation de la variance en supposant que la fraction d’échantillonnage de la population finie est minime ou négligeable; cette hypothèse est souvent retenue dans les vastes enquêtes auprès de la population. Nous examinons le rendement des estimateurs proposés à l’égard d’un échantillon fini au moyen d’une étude par simulation. Les résultats montrent que les estimateurs EEG proposés et les estimateurs par linéarisation de la variance s’avèrent efficaces selon plusieurs plans d’échantillonnage, tant pour des réponses continues que pour des réponses binaires.

(A) Les études longitudinales comportant des réponses et des covariables manquantes : application à l’étude ITC 4

Baojiang Chen, Université de Washington, É.-U.
Mary Thompson, Université de Waterloo, Canada

Les données des études longitudinales comportent souvent des données incomplètes sur la réponse et sur les covariables. L’incidence des données manquantes dépend souvent de leur fréquence et de l’étroitesse du lien entre les indicateurs de données manquantes et les variables réponses. Lorsque les données sur la réponse et sur les covariables sont incomplètes, il importe de tenir compte du lien entre les indicateurs de données manquantes pour ces deux processus au moyen de modèles conjoints. On formule des équations d’estimation généralisée pondérée par probabilité inverse pour compenser pour des données manquantes aléatoires. Des études empiriques montrent que les estimateurs convergents produits par les méthodes proposées présentent des biais empiriques infimes dans des échantillons de taille moyenne et qu’ils sont plus efficaces que d’autres méthodes qui font abstraction du lien entre les processus de données manquantes. Nous appliquons la méthode proposée à la International Tobacco Control (ITC) Four Country Survey pour en montrer l’utilité.

Session 13 – Facteurs et effets de la non-réponse

(A) Les facteurs liés aux différents profils de non-réponse dans la English Longitudinal Study of Ageing (ELSA)

Hayley Cheshire et David Hussey, National Centre for Social Research, Royaume-uni

Il est d’importance capitale pour les responsables d’études longitudinales de comprendre les facteurs associés à l’attrition. Si les analystes peuvent déterminer les groupes les plus susceptibles de continuer ou de cesser de participer à l’étude, le processus de conception de l’enquête peut être adapté (p. ex., au moyen des pratiques sur le terrain) de manière à maximiser la probabilité de réponse.

Une revue de la littérature actuelle portant sur les personnes de 55 ans et plus (Bhamra et coll., 2008) a permis de déterminer certains facteurs liés à l’attrition – par exemple, le fait d’être plus âgé, d’avoir une déficience cognitive, d’avoir un plus faible statut socioéconomique et d’être moins instruit.

Nous proposons d’étudier les facteurs associés à différents profils de participation de la vague 1 à la vague 3 de l’English Longitudinal Study of Ageing (ELSA). L’ELSA est une étude portant sur les personnes de 50 ans et plus et leurs partenaires plus jeunes. Au total, 12 100 personnes étaient incluses initialement et ont fait l’objet d’un suivi par la suite.

Nous utilisons les groupes de comparaison suivants:

  • ont achevé les interviews dans toutes les vagues
  • ont cessé de participer à la vague 2 mais sont revenus à la vague 3
  • ont cessé de participer à la vague 2
  • ont cessé de participer à la vague 3

Nos analyses élargissent l’accent mis actuellement sur les facteurs démographiques de manière à inclure les variables d’enquête qui peuvent être utiles pour donner une indication du niveau d’engagement à l’endroit de l’étude à la vague 1. Les facteurs d’intérêt clés sont ceux liés au comportement de réponse, par exemple l’utilisation de points extrêmes ou médians sur les échelles de réponse, la non-réponse partielle, la volonté de consulter des documents durant l’entrevue et le consentement au couplage de données administratives gouvernementales.

(A) Étude empirique du biais de non-réponse dû à l’érosion de l’échantillon de la National Survey of College Graduates (NSCG)

Donsig Jang, Mathematica Policy Research, É.-U.
John Finamore et David Hall, U.S. Census Bureau, É.-U.
Steve Cohen, Flora Lan et Fan Zhang, National Science Foundation, É.-U.

La NSCG est une enquête biennale dont le but principal est de produire des estimations représentant la population cible de scientifiques et d’ingénieurs des États-Unis à une date de référence fixe. Le questionnaire détaillé du recensement décennal est utilisé comme base de sondage de cette enquête. Comme la base de sondage complète est disponible seulement une fois tous les dix ans, la NSCG utilise les données pour plusieurs rondes de son enquête ainsi que des échantillons supplémentaires périodiques de nouveaux diplômés dans les domaines des sciences et du génie.

Dans le cas d’une enquête longitudinale comme la NSCG, les non-répondants devraient être inclus dans l’échantillon des enquêtes de suivi afin de minimiser le biais. Toutefois, la plupart des non-répondants initiaux deviennent des refus persistants et, par conséquent, il est difficile d’obtenir leur collaboration à la ronde suivante. Pour cette raison, l’échantillon de la NSCG a fait l’objet d’un suivi dans trois rondes subséquentes seulement si les personnes continuaient de participer à l’enquête. Toutefois, il est prévu que l’inclusion seulement des répondants dans la prochaine ronde de la NSCG entraînerait un biais de sondage assez important même si l’on apportait les corrections habituelles de pondération pour la non-réponse. Pour comprendre le biais dû à la non-réponse des non-répondants longitudinaux, nous avons comparé les estimations produites pour l’échantillon fondé sur les répondants ayant rempli le questionnaire détaillé décennal des années 1990, données recueillies en 2003, à celles produites pour un nouvel échantillon tiré du Recensement de 2000 initialement visé par l’enquête en 2003. Dans cette communication, nous présentons les résultats de cet examen qui fournissent des éclaircissements empiriques sur les effets de l’attrition sur le biais d’échantillonnage.

(F) Facteurs associés à la participation dans la cohorte GAZEL

Marie Zins, Jean François Chastang, Mireille Coeuret-Pellicer, Annette Leclerc, Sébastien Bonenfant, Alice Guéguen, Anna Ozguler et Marcel Goldberg, INSERM, France

Context: La cohorte GAZEL a été mise en place en 1989 parmi les employés d’Électricité de France-Gaz de France âgés de 35 à 50 ans. L’inclusion s’est faite par questionnaire postal, et 20 625 sujets (15 011 hommes et 5 614 femmes) ont accepté de participer. Le suivi comporte un questionnaire postal annuel, ainsi qu’une invitation à se rendre dans un centre d’examens de santé (CES) pour une investigation médicale. La participation initiale était de 44.5 % ; chaque année environ 75 % des sujets renvoient le questionnaire ; 44.7 % se sont rendus dans un CES.

Objectifs: Étudier les facteurs sociodémographiques, professionnels, de comportement et de santé associés respectivement aux effets de sélection à l’inclusion, lors du suivi annuel et lors de l’examen de santé, et quantifier leur rôle.

Méthodes: À l’inclusion, les volontaires ont été comparés aux non participants selon des variables recueillies systématiquement dans les bases médico-administratives de la compagnie (absentéisme, mortalité, expositions professionnelles) par des modèles de régression logistique ; des modèles mixtes ont permis d’étudier la probabilité de répondre aux questionnaires annuels durant le suivi ; des modèles de régression logistique ont été utilisés pour étudier la probabilité de participation à l’examen de santé.

Résultats: Ce ne sont pas toujours les mêmes facteurs qui jouent un rôle aux différentes étapes de l’inclusion, du suivi et de la venue dans un CES ; l’ampleur des effets de sélection varie selon l’étape concernée. Cette étude permet de caractériser les biais potentiels qui peuvent être ainsi induits.

(F) Stratégies pour étudier le biais de non-réponse dans les cohortes Coset (Cohorte santé et travail) et Constances (Cohorte des consultants des centres d’examens de santé)

Laetitia Bénézet, Gaëlle Santin, Stéphanie Gauvin, Hélène Sarter et Béatrice Geoffroy-Perez, Institut de veille sanitaire, France
Alice Guéguen, Rémi Sitta, Marie Zins et Marcel Goldberg, INSERM, France
Nicolas Razafindratsima, Institut National d’études démographiques, France

La non-réponse entraîne des problèmes récurrents dans les enquêtes longitudinales (estimations biaisées, inflation de la variance) qui se poseront dans le cadre des cohortes Coset (Cohorte pour la surveillance épidémiologique en milieu de travail) et Constances (Cohorte des consultants des centres d’examens de santé). L’un des objectifs de ces cohortes, actuellement en phase pilote, est de décrire et de suivre l’évolution de l’état de santé des populations couvertes en fonction, entre autre, de l’activité professionnelle. Le taux de participation attendu ne devrait pas excéder 20 à 30%. Pour corriger le biais dû à la non-réponse, une stratégie commune aux deux cohortes a été envisagée ; elle consiste à exploiter les bases de données administratives (BMA) sur les remboursements de soins et le parcours professionnel des participants et de non-participants. Afin d’évaluer l’intérêt de cette stratégie, une post-enquête téléphonique sera réalisée lors de la phase d'inclusion pilote. Un échantillon de non-participants sera enquêté à l’aide d’un questionnaire restreint, en visant un taux de réponse proche de 90%. A l’issue de cette enquête, les estimations obtenues par les deux méthodes seront confrontées.

Ces stratégies seront présentées en s’appuyant sur la phase pilote du volet "travailleurs agricoles" de la cohorte Coset qui débutera au second semestre 2009. A cette occasion, 10 000 actifs seront tirés au sort et interrogés par auto-questionnaire postal sur des aspects concernant leur santé et leur parcours professionnel.

Session 14 – Enjeux méthodologiques divers

(A) Répartition de l'échantillon de la 2010 Decade of the National Survey of College Graduates

John Finamore et David Hall, U.S. Census Bureau, É.-U.
Donsig Jang, Mathematica Policy Research, É.-U.
Stephen Cohen, Flora Lan et Fan Zhang, National Science Foundation, É.-U.

La National Survey of College Graduates (NSCG) est une enquête longitudinale biennale dont l’échantillon actuel a été établi à l’aide du questionnaire détaillé du Recensement de 2000. Étant donné que le questionnaire détaillé est en voie d’être remplacé par l’American Community Survey (ACS), nous prévoyons utiliser l’ACS comme base de sondage de la NSCG pour la décennie 2010. À l’étape de la planification, nous avons examiné les options en matière de conception de la NSCG pour la décennie 2010 et avons décidé d’adopter un plan de sondage avec renouvellement de panel. Au cours de la transition vers ce plan de sondage par panel rotatif, une partie de l’échantillon de la NSCG de 2010 sera sélectionnée à partir de la base de sondage de l’ACS et une autre partie provenant de l’échantillon de la NSCG pour la décennie 2000 sera reportée. Dans les cycles d’enquête ultérieurs, les cas de la décennie 2000 seront supprimés de l’échantillon par renouvellement et remplacés par les cas échantillonnés plus récemment pour l’ACS.

L’enquête NSCG pour la décennie 2010 sera conçue de manière à utiliser la base de sondage de l’ACS pour produire des estimations statistiquement fiables pour les principaux domaines d’analyse de la NSCG. Selon le financement consenti actuellement, environ 130 000 cas seront sélectionnés à partir de la base de sondage fondée sur l’ACS au cours de deux cycles de l’enquête NSCG pour la NSCG de 2010 et de 2012. Le présent article décrit nos recherches en vue de déterminer les principaux domaines d’analyse de la NSCG, d’établir les seuils de fiabilité pour ces domaines et d’élaborer un algorithme pour déterminer la répartition de l’échantillon sous les seuils de fiabilité. L’algorithme de répartition de l’échantillon portera initialement sur le plan de sondage de la NSCG de 2012 (le premier plan fondé intégralement sur l’ACS), mais permettra également d’examiner la répartition de l’échantillon de la NSCG en 2010, en 2014 et au delà.

(A) Life Pathways Project: conception et enjeux méthodologiques

Trivina Kang, Melvin Chan, Tan Teck Kiang et David Hogan, Nanyang Technological University, Singapour

Cet article porte sur le plan de recherche et les questions méthodologiques liées au Life Pathways Project mené de 2004 à 2008 au Center for Research in Pedagogy and Practice. Cette étude des résultats scolaires et non scolaires de 30 000 étudiants de trois cohortes (4e à 6e années primaires, 7e à 10e années secondaires et 1er à 3e années postsecondaires) est le plus gros projet du genre réalisé à Singapour. La gamme des résultats étudiés comprenait les compétences économiques nécessaires au XXIe siècle, le bien-être subjectif, la citoyenneté, les objectifs de vie et les aspirations. Les étudiants ont été choisis au moyen d’un échantillon aléatoire stratifié des écoles nationales et, dans chaque école choisie, l’entière cohorte des étudiants a participé à l’enquête en ligne. Au total, 38 écoles primaires et 37 écoles secondaires ainsi que 27 établissements d’enseignement postsecondaire ont participé à l’étude. En outre, les étudiants de la cohorte du secondaire ont également participé annuellement à une évaluation papier-crayon de leur connaissance de l’anglais et des mathématiques, et leurs scores cognitifs ont été fusionnés avec leurs données d’enquête autodéclarées.

Dans cet article, nous examinons non seulement l’élaboration du projet, de l’étape de la conception à celle de l’analyse, mais aussi les problèmes liés à la mise à l’essai et à la validation de nos instruments ainsi qu’au suivi de ce grand groupe d’étudiants au fil des ans, les mesures prises pour minimiser l’attrition et les difficultés présentées par le « nettoyage » des données et la nécessité de veiller à ce que notre ensemble de données soit prêt aux fins d’analyse des données. En outre, nous présentons certains résultats provisoires de notre première analyse longitudinale.

Même si le présent article ne comprend pas de données canadiennes, nous espérons qu’elle nous permettra d’échanger et d’apprendre d’études longitudinales menées dans différents contextes ainsi que d’examiner les possibilités de collaboration internationale à l’avenir.

(F) Utilisation de données fiscales et des assurances sociales pour la mesure des conditions de vie en Suisse

Philippe Wanner, Université de Genève, Suisse

Notre communication a pour but de présenter l’approche méthodologique ayant permis de construire une base de données longitudinales et de mener une série d’analyses portant sur le revenu, la fortune et la pauvreté en Suisse. L’approche adoptée, menée par l’office fédéral des assurances sociales, a pour but d’utiliser des données fiscales cantonales, en vue de décrire la situation économique de la population, de comprendre les conséquences financières de changements tels que le passage à la retraite ou l’invalidité, et d’établir des priorités dans le domaine de la prévoyance vieillesse.

Les données portent sur la période 2003-2007 et sont issues des registres fiscaux. Elles permettent de décrire l’évolution dans le temps du revenu professionnel, des autres sources de revenus et de la fortune des contribuables vivant dans 9 des 26 cantons suisses. Mises en relation à l’aide d’un appariement déterministe (reposant sur un numéro d’assuré) avec les registres des assurances sociales, ces données fournissent par ailleurs des indicateurs portant sur l’évolution du revenu soumis à cotisation sociale au cours de la décennie écoulée, les rentes versées, le statut de veuvage ou d’incapacité. Nous montrerons comment ces données fiscales exhaustives, d’excellente qualité puisque validées par l’agent taxateur et le contribuable, autorisent l’identification des groupes à risques de précarité et mettent en évidence les mécanismes financiers liés à la retraite.

Nous mettrons dans la communication en particulier en évidence les avantages de ces données administratives (comparativement aux autres sources de données sur les revenus, telles les enquêtes), leurs limites, ainsi que les précautions nécessaires au moment de leur utilisation.

(A) La conception et l’analyse de données longitudinales à Statistique Nouvelle-Zélande

Deborah Brunning, Statistics New Zealand, Nouvelle-Zélande

Avant le tournant du siècle, Statistics New Zealand avait peu d’expérience de la conception et de l’analyse de données longitudinales. Au cours des dix dernières années, toutefois, les décideurs en Nouvelle-Zélande, comme leurs homologues dans bon nombre d’autres pays, ont déterminé qu’ils avaient besoin de plus de renseignements pour pouvoir étudier des profils et des dynamiques mieux que ne le permettent les données transversales ponctuelles recueillies périodiquement. Pour répondre à ce besoin, au cours des dix dernières années, Statistics New Zealand a conçu et exécuté sept vagues d’une enquête à huit vagues visant à mesurer la dynamique du revenu et de l’emploi (connue sous le nom de SoFIE); réalisé, de concert avec le ministère du Travail, deux vagues d’une enquête longitudinale à trois vagues visant à mesurer l’expérience d’établissement des migrants en Nouvelle-Zélande (LISNZ); élaboré une base de données longitudinales sur les entreprises en combinant des données provenant de plusieurs sources; et élaboré un ensemble de données qui lui permet d’examiner la dynamique et les profils longitudinaux des employeurs et des employés à partir des données administratives du système d’imposition (LEED).

Le présent article porte sur notre participation à ces travaux. Nous exposons les réalisations ainsi que les importants défis qu’il a fallu relever dans des domaines comme la conception et la mise en oeuvre de méthodes de collecte, l’utilisation de méthodes assistées par ordinateur ainsi que la confidentialité et l’accès aux données. Nous examinons comment ces expériences influeront sur notre approche de la collecte de données longitudinales à l’avenir à Statistics New Zealand.

Session 15 – Remaniement d'enquêtes longitudinales de grande envergure

(A) La continuité et l’innovation dans la conception de Understanding Society: The UK Household Longitudinal Study

Heather Laurie, Université de Essex, Royaume-Uni

La British Household Panel Study (BHPS) est une enquête par panel menée auprès d’environ 8 000 ménages du Royaume-Uni, qui a fait l’objet de 18 cycles annuels de collecte de données. Principale source de données de panel au Royaume-Uni depuis 1991, la BHPS est largement utilisée par les universitaires et les chercheurs en politiques. À la suite d’une vaste consultation auprès des utilisateurs, l’équipe de recherche chargée de la BHPS a reçu le mandat d’établir une nouvelle enquête par panel auprès de 40 000 ménages, appelée Understanding Society: the UK Household Longitudinal Study (UKHLS). Le cycle 1 de la UKHLS a commencé en janvier 2009; le cycle 2 commencera en janvier 2010. La conception de la UKHLS comprend l’intégration des membres de l’échantillon existant de la BHPS à partir du cycle 2 de la nouvelle étude. Cet exposé décrit la conception de la UKHLS et explique comment l’expérience tirée de la BHPS a éclairé les décisions de conception et de mise en oeuvre dans l’établissement de la nouvelle étude. Il aborde les facteurs qui ont motivé la décision d’intégrer la BHPS à la nouvelle étude, soit la conciliation des exigences concurrentes de continuité et d’innovation, l’échéancier des interviews au cours de l’année, le contenu des questionnaires et la fidélisation du panel malgré le fait que le travail sur le terrain soit confié à une autre organisation.

(A) La survie et la reprise de la Survey of Income and Program Participation

S. Johnson, U.S. Census Bureau, É.-U.

Depuis deux décennies, la Survey of Income and Program Participation (SIPP) constitue la principale source de données sur le bien-être économique des Américains. De nombreux établissements d’enseignement et organismes aux niveaux fédéral, des États et des municipalités, ainsi que des organismes privés de recherche et d’étude de politiques, utilisent la SIPP pour évaluer l’efficacité des programmes gouvernementaux. Récemment, le Census Bureau des États-Unis a entrepris de remanier la SIPP afin de fournir des renseignements essentiels et ponctuels à coût réduit en remaniant le plan d’enquête, en améliorant l’efficacité du traitement et en ciblant davantage le contenu. La SIPP vise avant tout à produire un échantillon représentatif à l’échelle nationale afin d’évaluer la dynamique annuelle et infra-annuelle du revenu, le recours occasionnel aux programmes de transferts gouvernementaux et leur incidence sur le contexte familial et social des particuliers et des ménages. Les principales activités de ce processus de remaniement sont les suivantes : 1) amélioration de l’instrument de collecte et du système de traitement; 2) intégration d’un calendrier rétrospectif à l’instrument d’enquête; 3) utilisation des données de dossiers administratifs pour compléter et évaluer les données d’enquête; 4) développement du contenu de l’enquête et ajout de suppléments remboursables par le biais d’interactions avec les parties intéressées.

La consultation et l’intervention des parties intéressées au sujet du contenu et de la conception des améliorations proposées a constitué une activité importante dans le processus de remaniement de la SIPP. De plus, le Bureau a commencé en septembre 2008 à mener sur le terrain la nouvelle collecte de données de la SIPP. Plus récemment, les activités suivantes se sont ajoutées au processus de remaniement:

  • Évaluation d’une version papier provisoire d’un questionnaire à calendrier rétrospectif.
  • Planification d’un essai à grande échelle d’un questionnaire à calendrier rétrospectif automatisé au début de 2010.
  • Reconstitution d’un sous-comité consultatif de l’American Statistical Association sur la méthodologie de recherche statistique de la SIPP.
  • Assemblées publiques portant sur les renseignements nécessaires pour obtenir des recommandations d’un panel de la National Academy of Sciences et du Committee on National Statistics chargé de conseiller le Bureau sur la planification de l’utilisation de dossiers administratifs dans le cadre de la SIPP remaniée et sur les recherches connexes.
  • Acquisition de dossiers administratifs et recours à des services de consultation sur des données nationales et certaines données au niveau des États concernant les programmes gouvernementaux pour évaluer la qualité des données papier et des données d’essai automatisées.
  • Planification d’une consultation approfondie sur la formation des représentants sur le terrain en ce qui concerne la méthode d’interview liée au calendrier rétrospectif.

(A) Les résultats de l’Enquête pilote par panel auprès des ménages canadiens

Andrew Heisz, Statistique Canada

En janvier 2006, un congrès sur les enquêtes longitudinales organisé par Statistique Canada, le Conseil de recherches en sciences humaines du Canada (CRSH) et les Instituts de recherche en santé du Canada (IRSC) a permis de conclure que le Canada n’a pas d’enquête longitudinale lui permettant de recueillir des renseignements sur de multiples sujets tels que la famille, le capital humain, la santé de la main-d’oeuvre et le suivi des répondants pour une longue période dans le temps. Suite à ce congrès, du financement provenant du Fonds du Groupe de données pour la recherche sur les politiques (GDRP) a été accordé afin de soutenir l’enquête pilote pour la nouvelle Enquête par panel auprès des ménages canadiens (EPMC-Pilote). Des consultations concernant le plan et le contenu ont eu lieu avec des experts universitaires et politiques en 2007 et 2008, et une enquête pilote a été menée à l’automne 2008. Les objectifs de l’enquête pilote étaient 1) de soumettre un questionnaire à un test, évaluer la longueur de l’interview et examiner la qualité des données; 2) d’évaluer plusieurs caractéristiques du plan; et 3) de vérifier la réaction des répondants et des interviewers sur le terrain à propos de l’enquête. L’enquête pilote a été menée avec un taux de réponse de 76 %, et un temps d’entrevue moyen de 64 minutes par ménages. Plusieurs innovations dans les caractéristiques du plan ont été évaluées, et se sont avérées viables. La réponse à l’enquête provenant des répondants ou des interviewers a été positive. Cet article met en évidence ces résultats ainsi que d’autres résultats tirés de l’EPMC-Pilote.

Instituto Superior de Ciências do Trabalho e da Empresa

Session 16 – Modélisation de variables latentes et estimation bayésienne

(A) Évolution de la satisfaction de vivre dans la British Household Panel Survey : modélisation de la courbe de croissance latente

Maria de Fátima Salgueiro, ISCTE Business School, Portugal
Marcel de Toledo Vieira, Université Fédérale de Juiz de Fora, Brésil
Peter W. F. Smith, Université de Southampton, Royaume-Uni

Au cours des dernières années, les spécialistes en sciences sociales manifestent un intérêt croissant pour le bien-être subjectif. Plusieurs mesures ont été proposées, le choix de l’instrument de mesure influant sur l’évaluation du bien-être subjectif et ses déterminants (Peasgood, 2007). La British Household Panel Survey (BHPS) est une enquête nationale représentative réalisée annuellement depuis 1991. Plusieurs mesures du bien-être subjectif sont disponibles dans la BHPS. Depuis la sixième vague, outre une question portant sur la satisfaction globale à l’égard de la vie, on demande aux répondants d’indiquer leur niveau de satisfaction à l’égard de huit dimensions du domaine d’intérêt (la santé, le revenu, la maison/l’appartement, le conjoint/le partenaire, l’emploi, la vie sociale et la quantité de loisirs ainsi que leur emploi). Les approches statistiques adoptées dans les ouvrages publiés pour modéliser le bien-être subjectif comprennent souvent des modèles probit ordonnés et des modèles à effets fixes. On a également proposé des modèles à effets aléatoires et des modèles d’équations structurelles avec décalage pour modéliser les données d’enquête longitudinale (p. ex., voir Berrington et coll., 2008).

Dans cette communication, nous modélisons les trajectoires de satisfaction à l’égard de la vie en utilisant les données de la BHPS. Notre étude porte sur les employés qui ont été interviewés à toutes les vagues de 1 à 15 et qui ont donné des réponses complètes à toutes les variables de satisfaction à l’égard de la vie à toutes les vagues. Nous utilisons la modélisation des courbes de croissance latentes pour modéliser la variation aux niveaux intra-individu et inter-individus dans les deux facteurs latents de la satisfaction à l’égard de la vie étudiés. Les déterminants éventuels de la satisfaction à l’égard de la vie comprennent l’âge, le sexe, le fait d’avoir des enfants, le revenu de la famille, le niveau de scolarité et le nombre d’heures de travail. Nous soulignons les avantages de l’approche statistique proposée par rapport aux approches plus classiques de modélisation par régression longitudinale. Nous examinons les avantages qui découlent du fait de tenir compte du plan de sondage complexe.

(A) Une méthode d’analyse de transition latente pour modéliser l’évolution de l’hétérogénéité non observée d’une population

Andy Ross, National Centre for Social Research, Royaume-Uni

Cette communication porte sur l’utilité de l’analyse des transitions latentes aux fins de modélisation de l’hétérogénéité non observée de la population au fil du temps. Plus précisément, nous utilisons un cadre de classes latentes pour saisir des sous-groupes de jeunes à engagement/désengagement scolaire de 14 à 16 ans et nous modélisons les transitions dans ces divers groupes au fil du temps. Les recherches quantitatives précédentes dans ce domaine ont souvent utilisé des définitions réductrices et unidimensionnelles du désengagement scolaire, comme le décrochage ou les résultats scolaires décevants. Nous allons au-delà de ces limites dans notre étude, adoptant une approche statistique qui saisit la nature multidimensionnelle du désengagement en utilisant des renseignements tirés de toute une gamme de mesures. Les sous-groupes de jeunes engagés ou désengagés sont définis selon leurs réponses combinées aux questions mesurant les aspirations, les attitudes et les comportements.

Nous procédons à notre analyse par étapes. Dans un premier temps, nous estimons les sous-groupes latents pour trois cycles de données. Nous analysons ensuite les transitions latentes pour tester la stabilité de ces sous-groupes et mesurer les transitions au fil du temps. En dernier lieu, nous ajoutons les covariables (fixes ainsi que variant en fonction du temps) pour mesurer les caractéristiques des personnes et leurs expériences à la maison et à l’école afin de déterminer le moment et la raison du désengagement scolaire de certains jeunes. Les données de l’étude proviennent de la Longitudinal Study of Young People in England (LSYPE), une étude par panel récente de 15 000 jeunes de 9 à 11 ans et au cours des premières années suivant la fin de la fréquentation obligatoire de l’école.

(A) Les modèles d’appartenances mixtes longitudinaux des données d’enquête sur l’invalidité

Daniel Manrique-Vallier et Stephen E. Fienberg, Université Carnegie Mellon, É.-U.

Au moment d’analyser des données longitudinales, il faut établir l’équilibre voulu entre ce que nous savons de la variabilité au niveau individuel et la production de résumés utiles et intelligibles des tendances globales de la population. Cela est particulièrement vrai lorsque l’on sait que les membres de la population cible progressent de façon hétérogène au fil du temps en raison de caractéristiques individuelles non observées. D’autres complications surgissent lorsque les données sont discrètes et multivariées, de sorte que les tableaux de contingence qui en résultent sont très peu remplis.

Nous proposons une nouvelle famille de modèles pour analyser pareilles données en combinant des caractéristiques d’une version du modèle transversal de catégories d’appartenance (Grade of Membership Model, Erosheva et coll., 2007) et du modèle longitudinal de trajectoires latentes multivariées (Multivariate Latent Trajectory Model, Connor, 2006). Ces modèles sont fondés sur l’hypothèse d’un petit nombre de catégories de personnes « typiques » ou « extrêmes » et modélisent leur évolution au fil du temps. Nous considérons les personnes comme représentant des combinaisons pondérées convexes de ces catégories et donc comme appartenant à toutes ces catégories à différents degrés. Nous pouvons ainsi décrire des tendances générales distinctes (les cas extrêmes) tout en tenant compte de la variabilité au niveau individuel. Nous proposons une spécification bayésienne complète et des méthodes d’estimation fondées sur l’échantillonnage Monte Carlo par chaînes de Markov.

Nous appliquons notre méthode aux données de la National Long Term Care Survey (NLTCS), une enquête longitudinale dont six vagues sont achevées et qui vise à évaluer l’état et les caractéristiques des incapacités chez les citoyens américains de 65 ans et plus. Une simple extension de nos méthodes nous permet de répondre à certaines questions pertinentes au sujet des changements en matière d’incapacités d’une génération à l’autre.

(A) L’analyse de résultats catégoriques mixtes longitudinaux pouvant comporter des données manquantes à l’aide d’une méthode bayésienne

Z. Rezaei Ghahroodi et S. Eftekhari, Statistical Research and Training Center, Iran
M. Ganjali, Université Shahid Beheshti, Iran

Dans les études par panel, des mesures des résultats catégoriques mixtes ainsi que des données de variables explicatives stationnaires ou variant au fil du temps sont souvent recueillies au fil du temps sur la même personne pour examiner les effets des variables explicatives sur les réponses. Une analyse par régression de ces types de données doit permettre de tenir compte de la corrélation entre les variables dans le temps ainsi que de la corrélation entre les réponses mixtes pour chaque personne à un instant spécifique. Dans cette communication, nous utilisons un modèle markovien de transition avec effets aléatoires servant à l’analyse de réponses longitudinales mixtes ordinales et nominales avec valeurs manquantes dans les deux réponses pour examiner les changements inter et intra au fil du temps. Étant donné que les données manquantes sont inévitables dans le cas de telles études, nous proposons une méthode qui permet d’examiner en même temps ces variables longitudinales et leurs éventuelles valeurs manquantes au moyen de l’algorithme d’augmentation des données. Par conséquent, nous utilisons une approche bayésienne de l’estimation des paramètres des modèles, la méthode d’échantillonnage de Gibbs pour procéder à l’estimation des paramètres et l’augmentation des données. Nous comparons les résultats de l’utilisation d’un modèle complet de transition à effets aléatoires et ceux de trois autres modèles qui excluent les effets aléatoires et/ou de transition. L’approche est appliquée aux données de la British Household Panel Survey (BHPS) où deux variables réponse d’intérêt corrélées sont la satisfaction à l’égard de la vie comme réponse ordinale et l’activité économique actuelle comme réponse nominale. Nous montrons que le modèle complet est plus facile à interpréter parce qu’il permet de tenir compte de tous les aspects des données recueillies.

Session 17 – Erreurs de mesure

(A) La non-réponse et l’erreur de mesure dans la recherche sur l’emploi

Frauke Kreuter, JPSM Université du Maryland, É.-U.
Gerrit Mueller et Mark Trappmann, IAB Institute for Employment Research, Allemagne

Les méthodologistes d’enquête se préoccupent de plus en plus de l’interaction de plusieurs sources d’erreur, notamment de la non-réponse et de l’erreur de mesure. Selon une hypothèse souvent formulée, les membres de l’échantillon qui ne répondent à l’enquête qu’après le recours à des tentatives répétées et à d’autres stratégies de recrutement sont plus susceptibles de fournir des données de faible qualité (voir Groves et Couper, 1998). On évalue souvent la qualité des données à l’interne d’après les proportions de réponses manquantes, de « ne sait pas », etc. (voir Fricker, 2007). Dans ces études, on dispose rarement de données externes pour évaluer la qualité des réponses des répondants (voir Cannell et Fowler, 1963; Olsen, 2006).

L’étude par panel PASS (Trappmann et coll., 2009) est un ensemble de données de recherche original sur le marché du travail, l’État-providence et la pauvreté en Allemagne. Menée auprès de quelque 19 000 personnes interviewées dans plus de 12 500 ménages, la PASS est à l’heure actuelle l’une des enquêtes par panel les plus exhaustives réalisées en Allemagne. Le premier cycle de collecte de données a commencé en 2006. Les données d’enquête de la PASS sur les antécédents d’emploi et de chômage, le revenu et la scolarité des participants peuvent être couplées aux données correspondantes tirées des dossiers administratifs des répondants.

En nous fondant sur cette étude, nous évaluons la qualité des données en fonction de la possibilité de prendre contact et de la propension à répondre. Dans le cas de certaines variables seulement, l’erreur de mesure (variance ou biais) évaluée au moyen des dossiers administratifs est inversement proportionnelle à la possibilité de prendre contact et à la propension des personnes cibles à répondre. On le constate en particulier dans le cas des questions rétrospectives. Ici, l’écart de durée entre la date de l’interview et celle de l’événement explique en grande partie l’écart dans l’erreur de mesure selon que la propension des répondants à répondre est élevée ou faible.

(A) Incohérences dans les caractéristiques d’emploi déclarées par les salariés qui conservent leur emploi : données tirées d’une série de panels à deux cycles de l’enquête italienne sur la population active, 1993-2003

Francesca Bassi et Ugo Trivellato, Université de Padova, Italie
Alessandra Padoan, ISTAT, Italie

Dans cet exposé, nous abordons l’erreur de mesure et la distorsion qu’elle risque d’entraîner dans les renseignements sur le statut des personnes à l’égard de la branche d’activité et de la profession. Notre étude de cas porte sur des panels à deux cycles de données recueillies à intervalles d’un an par l’enquête trimestrielle italienne sur la population active pendant la période d’avril 1993 à avril 2003. Nous analysons l’incohérence des renseignements sur les caractéristiques de l’emploi (statut à l’égard de la branche d’activité et de la profession) tirés des matrices de transition annuelles des travailleurs ayant déclaré qu’ils avaient été occupés pendant toute l’année et qu’ils n’avaient pas changé d’emploi.

Nous commençons par calculer et commenter des indicateurs habituels de disparité. Nous constatons qu’il existe manifestement une erreur de mesure appréciable en ce qui concerne le statut à l’égard de la branche d’activité et de la profession. Puis, nous tentons de déterminer si la répétition des renseignements accroît la cohérence de façon significative lorsqu’on agrège le nombre de catégories. L’agrégation des catégories améliore la concordance. Dans le cas du statut professionnel, le meilleur niveau d’agrégation est le niveau binaire (salarié ou travailleur indépendant); dans le cas de la branche d’activité, deux classifications comportant cinq ou six catégories réduisent les incohérences au minimum. Nous approfondissons notre étude des profils d’incohérence entre les catégories de variables en mettant à l’essai plusieurs spécifications du modèle de quasi-indépendance de Goodman. Le modèle est presque toujours rejeté, ce qui prouve que même des renseignements transversaux risquent d’être faussés par l’erreur de mesure non aléatoire. Enfin, nous considérons et comparons d’autres classifications à quatre catégories obtenues en agrégeant le statut professionnel et la branche d’activité en une seule variable. Dans ce cas, le meilleur niveau d’agrégation est donné par une classification non standard à quatre catégories qui distingue, d’une part, les employés des services marchands et, d’autre part, ceux du secteur industriel et des services privés.

(A) Le chevauchement des lisières dans l’enquête HILDA : problèmes et observations

Nicole Watson, Université de Melbourne, Australie

Les effets de lisière constituent un aspect propre aux enquêtes longitudinales. Ils se produisent lorsque, d’une interview à l’autre, les variations des données ont tendance à se concentrer inhabituellement dans des périodes voisines. L’une des composantes de l’enquête Household, Income and Labour Dynamics in Australia (HILDA) est sujette aux effets de lisière : le calendrier de l’activité sur le marché du travail. Dans ce calendrier, on demande aux répondants de se rappeler les divers emplois qu’ils ont occupés sur une période de 14 à 18 mois, ainsi que leurs périodes de chômage et d’inactivité. Le calendrier étant administré à chaque cycle, il en résulte un chevauchement de deux à six mois, selon le moment où le répondant est interviewé.

Dans cet exposé, nous modélisons séparément la probabilité de faire trois types d’erreur dans le calendrier d’activité : i) le répondant déclare une période dans la première version des événements et non dans la deuxième; ii) le répondant déclare une période dans la deuxième version et non dans la première; et iii) le répondant situe différemment une période dans les première et deuxième versions. Les caractéristiques prises en compte dans le modèle comprennent les diverses causes d’erreurs dans la datation des événements, comme le type et la durée de la période, la durée du chevauchement des lisières, la mémoire du répondant et les caractéristiques de l’interview qui peuvent influencer la mémoire du répondant. Le chevauchement des lisières permet également d’étudier l’erreur de mesure au fil du temps pour déterminer si les mêmes personnes font régulièrement les mêmes erreurs.

Session 18 – Imputation

(A) L’utilité de l’imputation dans les enquêtes longitudinales

Roberto Gismondi, ISTAT, Italie

L’évaluation du traitement de la non-réponse est un problème bien connu dans le cas des enquêtes-entreprises. Bon nombre des dernières méthodes proposées, fondées principalement sur des comparaisons et des simulations empiriques, soulignent de façon générale qu’il y a lieu de privilégier la pondération par rapport à l’imputation. Toutefois, il est facile de vérifier que chaque imputation correspond implicitement à un processus de pondération et vice versa : le véritable problème consiste à déterminer la meilleure façon d’utiliser l’information auxiliaire aux fins de correction de la non-réponse, en tant que bases de données historiques souvent disponibles dans le cas d’enquêtes longitudinales.

Le problème de la non-réponse est particulièrement crucial dans les recensements ou les enquêtes comportant des seuils (p. ex., les indices mensuels de la production industrielle et du roulement en Italie et dans de nombreux pays de l’EU) où l’attrition peut avoir un effet négatif sur la qualité de l’enquête, entraînant le recours à l’imputation massive ou à la repondération des données des répondants. Il convient de souligner à cet égard le cas courant de la déclaration en retard des données des entreprises, alors qu’elles doivent être disponibles peu après la fin de la période de référence pour être véritablement utiles aux utilisateurs ainsi qu’aux décideurs.

Dans ce contexte, nous adoptons une approche fondée sur un modèle pour évaluer la variance sous le modèle des estimateurs du total de la population selon les données réelles ainsi qu’imputées. Nous examinons plus particulièrement les questions suivantes : 1) les liens entre l’imputation et la pondération; 2) la comparaison entre les variances des estimateurs fondées sur l’expansion simple des données des répondants, l’imputation pour les non-répondants fondée sur un modèle et les techniques d’imputation par donneur; 3) les conditions théoriques dans lesquelles chaque stratégie d’estimation peut être privilégiée par rapport aux autres. Nous exposons également une tentative empirique d’estimation du roulement dans le secteur du commerce de gros en Italie, à partir des données-échantillon trimestrielles recueillies par ISTAT portant sur la période de référence 2003-2007. Nous comparons différentes techniques d’estimation dans un cadre dans lequel l’ensemble de la population et l’échantillon de répondants sont donnés, respectivement, par l’échantillon de répondants qui ont répondu finalement (réponses après 180 jours à compter de la fin du trimestre de référence) et l’échantillon de répondants qui ont répondu rapidement (réponses après 60 jours).

(A) L’imputation aléatoire équilibrée dans les enquêtes

David Haziza, Université de Montréal, Canada
Guillaume Chauvet et Jean-Claude Deville, Laboratoire de Statistique d’Enquête (CREST/ENSAI), France

Les méthodes d’imputation aléatoire sont souvent utilisées dans la pratique parce qu’elles ont tendance à préserver la répartition de la variable imputée, caractéristique importante lorsqu’il s’agit d’estimer des quantiles. Une méthode d’imputation aléatoire particulière, l’imputation hot deck aléatoire, est souvent utilisée dans la pratique si la variable imputée est catégorique parce qu’elle élimine la possibilité de valeurs impossibles. Elle est utilisée également lorsqu’on souhaite imputer plus d’une variable à un moment donné parce que le même donneur peut être utilisé pour imputer toutes les valeurs manquantes, ce qui aide à préserver les relations entre variables. Toutefois, les méthodes d’imputation aléatoire introduisent une certaine variabilité supplémentaire, appelée variance d’imputation, en raison de la sélection aléatoire des résidus. Dans cet article, nous adaptons la méthode du cube (Deville et Tillé, 2004) qui permet de sélectionner des échantillons équilibrés et nous proposons une catégorie de méthodes d’imputation équilibrée aléatoire qui réduisent ou éliminent la variance due à l’imputation tout en préservant la répartition de la variable imputée. La catégorie proposée de méthodes d’imputation peut être appliquée aux variables tant catégoriques que continues. En outre, elle peut être utilisée dans tout plan d’échantillonnage. Nous présentons également les résultats d’une étude par simulation limitée.

(A) La mise à l’essai de nouvelles méthodes d’imputation des gains dans la Survey of Income and Program Participation

Martha Stinson et Gary Benedetto, U.S. Census Bureau, É.-U.

Cet article porte sur la faisabilité et l’efficacité de trois modifications importantes apportées aux méthodes standard utilisées par le Census Bureau pour imputer les gains dans la Survey of Income and Program Participation (SIPP). Actuellement, l’imputation est effectuée par stratification des données en fonction d’un ensemble de caractéristiques choisies par l’analyste, avec tri aléatoire dans chaque sous-groupe, et choix de l’enregistrement donneur qui est le plus proche voisin. Nous examinons la possibilité d’utiliser une approche fondée sur un modèle, en ajoutant des données administratives sur les gains aux données d’enquête sur l’emploi et les caractéristiques démographiques et en utilisant l’imputation multiple proposée par Rubin. Nous modélisons les gains mensuels du 2 janvier 2004 au 6 décembre 2005 en utilisant le panel de la SIPP de 2004 lié aux enregistrements fiscaux (W-2) tirés du Social Security Master Earnings File. Nous utilisons des techniques de régression linéaire pour estimer une loi prédictive a posteriori qui est la répartition des gains sachant toutes les caractéristiques observées (y compris les données administratives sur les gains). À partir de cette répartition, nous procédons à quatre tirages de manière à créer quatre valeurs imputées par cas pour lequel les gains sont manquants. Après avoir ainsi « complété » les données manquantes, nous comparons les résultats en utilisant les valeurs initiales par rapport aux nouvelles valeurs imputées de plusieurs analyses types afin d’évaluer l’impact de notre nouvelle méthode. Plus particulièrement, nous examinons les coefficients dans une régression classique des gains, les tendances de la variation des gains au fil du temps, les moments de la répartition transversale des gains au cours d’un mois donné et les niveaux de pauvreté selon le revenu de la famille, dont les gains sont une composante importante. Les quatre valeurs imputées nous permettent de calculer les estimations de la variance au moyen des formules de Rubin de la variance par imputation multiple ainsi que d’évaluer l’effet de l’imputation sur la signification des coefficients de régression, la forme de la répartition des gains et la marge d’erreur dans les estimations de la pauvreté.

Session 19 – Vérification et Imputation

(A) Le point sur le projet EU-SILC en Slovénie

Rudi Seljak, Statistical Office of the Republic of Slovenia, Slovénie

L’Enquête sur le revenu et les conditions de vie (Survey on Income and Living Conditions, SILC) est une enquête européenne harmonisée qui vise à fournir des données sur les conditions de vie des membres des ménages et de certaines personnes, et sur la façon dont ils s’intègrent à la société. Il s’agit d’une enquête par panel, c’est-à-dire que chaque ménage sélectionné est suivi pendant quatre années consécutives. Étant donné que les résultats de l’enquête sont harmonisés, les variables de résultats sont celles prescrites par le règlement européen prévu par la loi, tandis que les modalités de collecte des microdonnées d’entrée sont essentiellement déterminées par chaque pays.

En Slovénie, les microdonnées pour l’enquête EU-SILC sont recueillies par l’entremise de deux sources. La première partie des données est recueillie au moyen de l’enquête « classique », tandis que la deuxième partie provient de registres et de sources administratives. L’utilisation exhaustive des sources administratives a l’avantage de réduire le fardeau de réponse et les coûts de l’enquête. En outre, étant donné l’utilisation du questionnaire abrégé, les taux de non-réponse totale et de non-réponse partielle sont plus faibles, ce qui peut influer sensiblement sur l’amélioration de la qualité. Toutefois, l’utilisation du questionnaire abrégé peut également présenter des inconvénients, notamment l’augmentation du travail de vérification des données.

Dans cet article, nous résumons « l’expérience de l’EU-SILC », échelonnée sur quatre ans, de la fusion de données provenant de différentes sources et nous soulignons les principaux avantages et inconvénients de cette approche. Une grande partie de cet article est consacrée à la nouvelle application de vérification des données, qui devrait améliorer l’efficacité de notre processus de vérification et, par conséquent, réduire les délais de production des résultats finals.

(A) La vérification des données longitudinales de l’enquête italienne sur la population active

Simona Rosati et Barbara Boschetto, ISTAT, Italie

L’Enquête italienne sur la population active (EPA) est une enquête avec renouvellement de panel qui est menée au moyen de différentes techniques d’interview assistée par ordinateur (IAO). La technique IPAO est utilisée pour la première interview et la technique ITAO, pour les interviews suivantes. Plus précisément, l’ITAO est une méthode d’interview avec rétroinformation, selon laquelle les réponses de la vague précédente sont utilisées dans la formulation de la question afin de rappeler aux répondants les réponses données précédemment.

Même si l’objectif principal de l’enquête vise à produire des estimations trimestrielles et annuelles, l’analyse longitudinale est évidemment un objectif de grande importance. La dimension longitudinale permet d’effectuer une analyse plus approfondie de la structure du marché du travail en termes de ses composantes dynamiques. Néanmoins, la dimension temporelle rend plus difficile l’élaboration d’une stratégie pour traiter la non-réponse partielle ainsi que la non-réponse totale. Le présent article porte principalement sur la méthode d’imputation longitudinale appliquée pour corriger la non-réponse partielle à des questions uniques dans l’EPA. Nous présentons les deux approches principales de la vérification et exposons la procédure d’imputation. Nous accordons une attention spéciale aux problèmes liés aux incohérences dans les données et aux difficultés que présente l’utilisation de données longitudinales. Pour terminer, nous examinons les principaux résultats ainsi que certains problèmes liés à la vérification des données dans les enquêtes par IAO. Nous présentons également une brève description de la stratégie de couplage d’enregistrements. Par souci de concision, tous les résultats présentés dans la communication portent sur la période 2007(1)-2008(1).

(A) Imputation de registres longitudinaux : le cas des ménages

D.J. (Jan) van der Laan et Léander Kuijvenhoven, Statistics Netherlands, Pays-Bas

Les registres peuvent être une riche source de données aux fins d’analyses longitudinales. Toutefois, bon nombre des stratégies de vérification et d’imputation sont axées sur les analyses transversales, créant des incohérences longitudinales au microniveau. Pour que les données puissent être utilisées aux fins d’analyses longitudinales, il est nécessaire de prendre en compte des renseignements portant sur d’autres périodes dans la dérivation et l’imputation des variables.

À Statistics Netherlands, les ménages sont dérivés à partir des registres municipaux de la population depuis 2000. Les relations (familiales) dans ces registres permettent de déterminer de façon particulière les adresses d’environ 93 % des ménages. Les 7 % restants des adresses sont imputées au moyen d’un modèle d’imputation stochastique qui tient compte des caractéristiques de base des personnes habitant aux adresses en question. Toutefois, comme la procédure de dérivation et d’imputation ne tient compte que des renseignements portant sur la période actuelle, les ménages ne se prêtent pas aux analyses longitudinales. Nous proposons des modifications à la méthodologie actuelle qui permettront d’utiliser les données sur les ménages aux fins d’analyses longitudinales. Nous veillons tout particulièrement à ce que les estimations transversales ainsi que les estimations de la variation soient exactes.

Un problème particulier tient au fait que les bureaux statistiques reçoivent périodiquement de nouvelles données alors qu’ils sont tenus de respecter un échéancier de publication. Ces nouvelles données peuvent contenir de meilleurs renseignements que les données dérivées précédemment. Pour obtenir des données longitudinales uniformes, il est généralement nécessaire de corriger les données dérivées précédemment. Nous présentons les mesures à prendre à cet égard prévues à Statistics Netherlands.

Session 20 – Application: Analyse longitudinale de données sur la santé et sur les entreprises

(A) Les enfants des femmes plus âgées qui sont mères pour la première fois au Canada : une analyse longitudinale de leur santé et de leur développement

Tracey Bushnik et Rochelle Garner, Statistique Canada

En s’appuyant sur un échantillon national de nouveaux-nés tiré de l’Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), l’étude examine la relation entre la maternité tardive et trois aspects du développement de l’enfant : i) la santé physique et le développement, ii) le comportement et iii) le développement cognitif. La maternité tardive est définie comme le fait d’avoir un premier enfant à 35 ans ou plus et le groupe de référence se compose d’enfants nés de mères âgées de 25 à 29 ans. Les enfants sélectionnés pour participer à l’étude avaient entre 0 et 1 an et ont fait l’objet d’un suivi de 2 à 3 ans et de 4 à 5 ans. On mesure les résultats des enfants lorsqu’âgés entre 0 et 5 ans. Étant donné la nature longitudinale des données, plusieurs questions méthodologiques sont soulevées, y compris la nécessité de regrouper les données, le choix à faire entre les divers poids d’enquête et la nécessité d’évaluer l’éventuel biais dû à la non-réponse. La communication porte sur les résultats de l’étude ainsi que sur la façon dont les diverses questions méthodologiques ont été réglées.

(A) L’évolution de l’IMC et de la taille au cours du cycle de vie : comparaison de deux cohortes de naissances britanniques

Leah Li, Rebecca Hardy, Diana Kuh et Chris Power, Collège Universitaire de Londres, Royaume-Uni

L’obésité ne cesse de croître dans le monde entier. Les trajectoires d’IMC ont peut-être évolué chez les générations récentes touchées par l’épidémie d’obésité à différentes étapes de la vie. D’autres composantes du développement physique ont peut-être évolué également. Nous comparons les trajectoires de croissance de l’enfance à l’âge adulte dans deux cohortes de naissance britanniques, soit de personnes nées en 1946 (n=5 300) et en 1958 (n=17 000), qui font l’objet d’un suivi jusqu’à l’âge de 53 ans et de 45 ans, respectivement.

Les personnes nées en 1958 n’avaient pas un poids plus élevé à la naissance que les membres de la cohorte de 1946, mais elles avaient un centimètre de plus de taille au début de l’enfance, elles ont grandi plus rapidement et, adolescentes, elles avaient entre trois et quatre centimètres de plus de taille. Les membres de la cohorte de 1958 ont atteint leur taille adulte plus tôt et ils mesuraient un centimètre de plus, augmentation entièrement attribuable à leurs jambes plus longues. Nous avons appliqué des modèles splines linéaires à des mesures de l’IMC répétées (à 7, 11, 15, 20, 26, 36, 43 et 53 ans pour la cohorte de 1946 et à 7, 11, 16, 23, 33 et 45 ans pour la cohorte de 1958) correspondant à des trajectoires d’IMC distinctes pour « l’enfance » et « l’âge adulte ». Les trajectoires d’IMC divergent à partir du début de l’âge adulte, la cohorte de 1958 affichant un taux de croissance plus rapide que la cohorte de 1946, même si l’IMC moyen à sept ans et le taux d’accroissement durant l’enfance n’a pas augmenté dans une cohorte par rapport à l’autre. Au milieu de l’âge adulte, la cohorte de 1958 a un IMC plus élevé (1-2 kg/m2), un plus grand tour de taille (7-8 cm), un plus grand tour de hanches (5 cm) et une prévalence plus élevée de l’obésité (24 % par rapport à 12 %). Ces changements survenus au cours d’une période relativement courte de 12 ans donnent à penser qu’il est probable que des tendances opposées influent sur les risques de maladie plus tard dans la vie dans ces populations.

(F) L’impact de la formation sur la productivité des entreprises canadiennes dans un contexte longitudinal : la comparaison d’un modèle additif et d’un modèle interactif

Amélie Bernier et Jean-Michel Cousineau, Université de Montréal, Canada

Cette communication examine les effets de la formation sur la productivité des entreprises canadiennes à partir des données des employeurs de l’Enquête sur les milieux de travail et les employés (EMTE) de 1999 à 2005. Parmi l’ensemble des travaux consultés traitant de l’impact possible de la formation sur la productivité, de plus en plus traitent du caractère longitudinal des données, mais peu estiment les effets retardés de la formation. Dans le cadre de notre travail de recherche, nous avons cherché à exploiter les avantages des données longitudinales en estimant deux types de modèles : un modèle additif et un autre, interactif. Le premier modèle estime l’impact possible sur la productivité des entreprises, des effets retardés des investissements en formation en les additionnant aux investissements en capital physique. Le second modèle considère plutôt l’interaction entre ces deux types d’investissements. Nos résultats montrent dans les deux cas, que les investissements en formation réalisés avec trois années de retards ont des effets positifs et significatifs sur la productivité. Toutefois, à la différence du modèle additif, l’interaction entre les investissements en capital physique et en formation permet de tenir compte de l’hétérogénéité des firmes en matière d’utilisation des facteurs de production et de ce fait, de distinguer les entreprises selon le rendement de leurs investissements. Par ailleurs, nos résultats ne permettent pas de conclure à la supériorité d’un modèle plutôt qu’un autre. Ces conclusions peuvent avoir des implications importantes lors de l'évaluation ou encore lors de la prise de décision en matière d'investissement en formation de la part des entreprises.

(A) Mobilité des travailleurs : sommaire et nouveaux résultats de l’Enquête sur le milieu de travail et les employés

Yves Decady, Statistique Canada

Dans cette communication, nous utilisons des données longitudinales de l’Enquête sur le milieu de travail et les employés (EMTE) pour calculer une large gamme d’indicateurs de la mobilité de la main-d’oeuvre. Les données des trois panels de l’EMTE servent d’abord à décrire l’incidence de la mobilité de l’emploi et de la mobilité professionnelle ainsi que leur direction. Nous tâchons ensuite d’expliquer la mobilité professionnelle et de l’emploi au moyen d’un petit nombre de modèles conçus aux fins d’analyse de données longitudinales.

Nous adoptons l’approche du Bureau international du travail (BIT) dans la publication « Les indicateurs clés du marché du travail » (ICMT) pour examiner, comme première question de recherche, l’ampleur des flux sur le marché du travail. Nous examinons les flux d’entrée dans des emplois rémunérés et les flux de sortie d’emplois rémunérés.

Parallèlement à la mobilité professionnelle, nous examinons l’immobilité professionnelle ou la stabilité de l’emploi. D’après un examen des ouvrages publiés, l’immobilité professionnelle et la stabilité de l’emploi pourraient accentuer les inégalités en matière de gains lorsque les travailleurs demeurent « prisonniers » d’emplois faiblement rémunérés. Les ouvrages publiés montrent également que la mobilité professionnelle ascendante des travailleurs à faible salaire peut atténuer les inégalités de salaire transversales chez les travailleurs. Ainsi, la deuxième question de recherche sur laquelle porte la présente communication est celle de savoir si une récompense ou un rendement est associé à la mobilité professionnelle et de l’emploi.

Les résultats des recherches préliminaires fondées sur les données des panels d’employés de l’EMTE montrent que la mobilité professionnelle, après avoir diminué dans le deuxième panel par rapport au premier, a augmenté légèrement dans le troisième panel. Ainsi, la capacité de la mobilité professionnelle et de l’emploi de s’adapter aux chocs économiques conjoncturels constitue notre troisième question de recherche.

Session 21 – Techniques d'analyse de données longitudinales

(A) L’utilisation de techniques d’analyse exploratoire et confirmative de données longitudinales

Marcel de Toledo Vieira, Ronaldo Rocha Bastos et Henrique Steinherz Hippert, Université Fédérale de Juiz de Fora, Brésil
Augusto Carvalho Souza, Université Fédérale de Minas Gerais, Brésil

Cette communication porte sur l’utilisation de diverses approches de l’analyse des données d’enquête longitudinale, y compris des techniques alternative d’analyse exploratoire des données et différentes stratégies de modélisation par régression aux fins d’analyses longitudinales des données de la British Household Panel Survey sur les attitudes à l’égard des rôles de l’homme et de la femme ainsi que leur relation avec les variables démographiques et économiques. La question générale posée dans la présente communication est la suivante : tirerait-on des conclusions et des inférences différentes, selon l’approche choisie? On procède à des analyses exploratoires ainsi que confirmatoires des données longitudinales au moyen de techniques d’analyse des correspondances et de modélisation par régression aux fins de l’analyse des relations adaptatives. Les résultats de l’analyse des correspondances sont confirmés de façon générale par les estimations des paramètres pour les modèles de régression, qui portent souvent le même signe que les relations qui s’affichent sur les cartes d’analyse des correspondances. Les preuves empiriques montrent que le choix de l’approche analytique et de la stratégie de modélisation est une question importante dans le contexte de l’analyse de données longitudinales. Par conséquent, nous recommandons de faire ce choix en fonction des objectifs de l’analyse longitudinale.

(A) Mesures de la qualité de l’ajustement pour les modèles fondés sur une approche des équations d’estimation généralisées

Punam Pahwa, Université de Saskatchewan, Canada

L’évaluation de la mesure dans laquelle le modèle est bien ajusté aux données (la qualité de l’ajustement) est une partie importante de tout processus de choix d’un modèle. Même si de nombreuses méthodes d’analyse de données longitudinales ont été élaborées au cours des vingt dernières années, il n’existe toujours pas de mesures standard raisonnables de la qualité de l’ajustement applicables à ces modèles. Pour les données longitudinales, nous avons besoin de statistiques d’évaluation de la qualité de l’ajustement pour choisir non seulement une fonction de réponse correcte mais une structure de corrélation/de covariance intra-sujet appropriée. Les statistiques de la qualité de l’ajustement fondées sur des méthodes de vraisemblance comme le test de rapport de vraisemblance et les critères d’information d’Akaike (i) requièrent des ajustements répétés des données à une famille de modèles emboîtés, (ii) exigent une spécification complète de la fonction de vraisemblance et (iii) ne peuvent être utilisées pour évaluer le caractère adéquat des modèles ajustés au moyen de l’approche fondée sur les équations d’estimation généralisées (EEG). Vonesh et coll. ont élaboré trois statistiques de la qualité de l’ajustement : (i) rc – coefficient de concordance servant à mesurer la concordance entre les réponses ajustées et les réponses observées; (ii) r(ωˆ) – une mesure de la concordance entre les structures de covariance hypothétique et réelle; et (iii) - pour tester l’égalité entre les structures de covariance hypothétique et réelle (indirectement, en testant l’égalité entre les structures de covariance « sandwich » et hypothétique). Ces trois mesures sont fondées exclusivement sur le modèle dont il est question. Nous proposons d’utiliser ces mesures pour évaluer la qualité de l’ajustement des modèles ajustés au moyen de l’approche EEG aux fins de l’analyse des données longitudinales recueillies (sans plan de sondage) sur la santé respiratoire des travailleurs dans les silos-élévateurs canadiens. Nous tâcherons de modifier ces mesures pour évaluer l’adéquation des modèles aux données d’enquête complexe longitudinales.

(A) L’ajustement d’un modèle linéaire général pour des données d’enquêtes longitudinales selon un plan d’échantillonnage informatif

Abdulhakeem A.H. Eideh, Université Al-Quds, Palestine

Les données recueillies dans le cadre d’enquêtes par sondage, notamment d’enquêtes longitudinales, sont largement utilisées pour faire des inférences sur des modèles de population hypothétiques. Souvent, il est fait abstraction de certaines caractéristiques du plan d’enquête (mise en grappes, stratification, probabilités inégales de sélection, etc.) et les données-échantillon longitudinales sont ensuite analysées au moyen de méthodes classiques fondées sur l’échantillonnage aléatoire simple. Toutefois, cette approche peut aboutir à des inférences erronées en raison du biais de sélection implicite lié à l’échantillonnage informatif. Pour surmonter les difficultés associées à l’utilisation de méthodes d’inférence classiques pour les données d’enquête transversale, Pfeffermann, Krieger et Rinott (1998) ont proposé d’utiliser la distribution échantillon induite par les modèles de population hypothétiques, sous l’échantillonnage informatif, et ont élaboré des expressions pour la calculer. De même, Eideh et Nathan (2006) ont ajusté des modèles de séries chronologiques pour les données d’enquête longitudinale sous échantillonnage informatif.

Dans cette communication, nous ajustons le modèle linéaire général aux données d’enquête longitudinale sous échantillonnage informatif au moyen de différentes structures de covariance : le modèle de corrélation exponentielle, le modèle de corrélation uniforme (voir Diggle, Liang et Zeger, 1994) et le modèle à effets aléatoires (voir Skinner et Holmes, 2003).

Session 22 – Ajustements pour la non-réponse et l'érosion

(A) L’érosion de l’échantillon dans les études de cohorte : tendances, caractéristiques et ajustements

Ian Plewis, Université de Manchester, Royaume-Uni
Lisa Calderwood, Sosthenes Ketende et Rebecca Taylor, Institute of Education, Royaume-Uni

Les recherches sur l’érosion d’échantillon dans les études longitudinales sont motivées par deux préoccupations particulières : (1) la réaffectation de ressources sur le terrain à des répondants éventuellement « fragiles » et (2) l’apport d’ajustements statistiques dans le cas de données manquantes. Les renseignements sur les caractéristiques des participants perdus de vue au fil du temps dans ces types d’études ont augmenté au cours des dernières années et il est reconnu qu’aux fins d’analyse, séparer les non-répondants des cas d’attrition et séparer les raisons de la perte de vue (non localisé, non contacté et refus) permet de mieux comprendre l’érosion d’échantillon. En outre, il est clair que, même si les cas perdus de vue au cours d’une étude sont systématiquement différents de ceux qui restent, la capacité de distinguer entre différents profils de réponse est généralement faible. La présente communication est fondée sur un projet intitulé « Predicting and Preventing Non-response in Cohort Studies » financé par le UK Economic and Social Research Council dans le cadre de sa Survey Design and Measurement Initiative. Nous y présentons des données sur les profils et les caractéristiques de différents types d’érosion d’échantillon des quatre premières vagues de la Millennium Cohort Study, quatrième d’une série d’études de cohortes de naissances du Royaume-Uni. Nous évaluons la force des relations observée en matière de prédiction de l’érosion d’échantillon, puis nous nous penchons sur la question de savoir comment ces données pourraient être utilisées efficacement aux fins d’ajustement statistique soit par pondération, soit par imputation multiple.

(F) Analyse de l’érosion de l’Étude Longitudinale sur le Développement des Enfants du Québec (ÉLDEQ) de 1998 À 2008

Catherine Fontaine et Robert Courtemanche, Institut de la statistique du Québec, Canada

L’ÉLDEQ, débutée en 1998, vise à identifier les facteurs qui, mis en place pendant la petite enfance, contribuent à l’adaptation sociale et à la réussite scolaire des petits Québécois. L’échantillon se veut représentatif des enfants nés au Québec en 1997-98 (naissances simples). 34% des répondants de la première collecte (1998) n’ont pas répondu à la dixième collecte de données (2008).

Il y a présentement une volonté à poursuivre l’enquête pour la période où les enfants seraient au secondaire, soit de 2011 à 2015. Une question qui se pose dans ce cas est de savoir si la taille d’échantillon actuelle (1402 répondants en 2008), affectée par l’érosion, permettra des analyses de bonne qualité à la fin de ces années supplémentaires de collecte. Il a donc été décidé de déterminer comment la perte des unités depuis le début de l’ÉLDEQ affecte la qualité des estimations issues de cette enquête, et de proposer des pistes de solutions pour le futur.

Les différentes étapes de l’analyse de l’érosion effectuée, à savoir le choix des caractéristiques étudiées, les méthodes utilisées et les constats qui émanent de cette analyse, seront décrites. Par la suite, on présentera une méthode alternative de pondération utilisée pour diminuer certains effets de l’érosion. Finalement, on discutera de différentes autres propositions pour les prochaines collectes de l’ÉLDEQ.

(A) Modélisation de la non-réponse pour une enquête longitudinale à l’aide de paradonnées : Application à l’enquête sur la dynamique du travail et du revenu

Beatrice Baribeau et Wisner Jocelyn, Statistique Canada

L’accumulation de plus en plus importante de données sur le processus de collecte (Les données recueillies sur le processus de collecte de données lui-même, sont connues sous le vocable de paradonnées) dans le cadre d’une enquête longitudinale dont une partie des non-répondants pour une vague donnée est envoyée à la collecte à la vague suivante, combinées aux limites des données utilisées jusqu’à présent (données obtenues pour tous les individus de l’échantillon au début du panel dont la pertinence décroît avec le vieillissement du panel) pour l’ajustement de la non-réponse, nous suggèrent qu’il serait opportun de réévaluer la méthodologie courante de l’ajustement de non-réponse. C’est dans cette perspective que nous avons entrepris une étude comparative entre la méthodologie actuelle utilisée pour l’enquête sur la dynamique du travail et du revenu et une nouvelle méthodologie qui serait basée sur les paradonnées collectées pour la même enquête.

L’étude consiste donc à dériver le meilleur ensemble de variables provenant des paradonnées pour l’ajustement, d’implanter dans un contexte de production simulée la nouvelle méthodologie de non-réponse basée sur les paradonnées et d’utiliser finalement diverses mesures statistiques et graphiques pour comparer l’ajustement actuel au nouvel ajustement proposé. Les principaux résultats de l’étude ainsi que les solutions adoptées au cours de la simulation de l’implantation en contexte de production seront rapportés et commentés.