1 Introduction

Iván A. Carrillo et Alan F. Karr

Précédent | Suivant

L'enquête Survey of Doctorate Recipients (SDR) est une enquête longitudinale menée par la National Science Foundation (NSF) dont le plan de sondage comprend des caractéristiques des panels répétés ainsi que des panels rotatifs. L'objectif de l'enquête est d'étudier les titulaires d'un doctorat en sciences, en génie ou en sciences de la santé aux États-Unis. Elle est réalisée tous les deux ans environ. Une description détaillée de la SDR peut être consultée dans NSF (2012). Dans le présent article, nous nous concentrons sur les données recueillies de 1995 à 2008 (7 vagues).

Une nouvelle cohorte est sélectionnée à l'occasion de chacune des vagues de l'enquête. La nouvelle cohorte est composée d'un échantillon de personnes récemment diplômées (au cours des deux années précédentes) tiré du Doctorate Records File, une base de données construite principalement d'après les données de l'enquête Survey of Earned Doctorates (http://www.nsf.gov/statistics/srvydoctorates/). Les personnes sélectionnées sont gardées dans l'échantillon, c'est-à-dire interviewées tous les deux ans, jusqu'à l'âge de 75 ans, à condition qu'elles vivent aux États-Unis durant la semaine de référence de l'enquête et qu'elles ne soient pas placées en établissement. Cependant, les diplômés échantillonnés qui satisfont à ces critères ne sont pas tous gardés indéfiniment. Certaines personnes, plutôt que des cohortes entières, sont supprimées de l'échantillon afin a) d'inclure les nouveaux diplômés dans de nouvelles cohortes et b) de maintenir une taille d'échantillon relativement constante d'une vague à l'autre. À la section 2.2, nous décrivons comment sont sélectionnées les personnes qui sont supprimées de l'échantillon.

Des poids de sondage existent déjà pour les analyses transversales des données de la SDR, mais non pour les analyses longitudinales. Au lieu de nécessiter un nouveau poids longitudinal pour toutes les données, la méthode proposée ici permet d'utiliser les poids transversaux existants pour les analyses longitudinales en n'ignorant aucune donnée. Nous nous concentrons sur l'estimation des paramètres des modèles statistiques de l'effet des covariables sur une réponse d'intérêt, mais la méthode peut également être utilisée pour estimer des quantités de population finie (Carrillo et Karr 2012). Notre analyse est axée sur la SDR, mais notre méthode est applicable à n'importe quelle enquête à panel fixe, à panel fixe plus « nouvelles unités », à panel répété, à panel rotatif, à panel divisé ou à renouvellement de l'échantillon, à condition qu'il existe pour chaque vague un poids transversal pour représenter la population d'intérêt de la vague en question. Voir Smith, Lynn et Elliot (2009), Hirano, Imbens, Ridder et Rubin (2001), et Nevo (2003) pour les définitions de tous ces types de plans de sondage longitudinaux.

La SDR est un hybride de plan à panel répété et de plan à panel rotatif. Il ne s'agit pas purement d'un plan à panel répété, à cause de la suppression de certains sujets à chaque vague. Il ne s'agit pas purement d'un plan à panel rotatif, parce que l'on supprime des personnes et non des panels (ou cohortes) complets; en outre, la composition de la population finie d'intérêt évolue au cours du temps, ce qui n'est pas le cas d'une enquête à panel rotatif.

Diggle, Heagerty, Liang et Zeger (2002) et Hedeker et Gibbons (2006) font remarquer que dans les enquêtes longitudinales, contrairement aux études transversales, il est possible d'isoler l'effet de l'âge (changement réel chez les sujets au cours du temps) et l'effet de cohorte (différences entre les unités au début de la période d'étude).

Hedeker et Gibbons (2006) laissent aussi entendre que, puisque les études longitudinales permettent de mesurer des variables explicatives (covariables) variant au cours du temps, les inférences statistiques au sujet de la relation dynamique entre le résultat d'intérêt (réponse) et ses covariables sont beaucoup plus puissantes que celles fondées sur des études transversales.

Si nous nous intéressons à la moyenne marginale d'une variable, éventuellement en conditionnant sur certaines covariables, plutôt qu'à la mesure du changement, une étude longitudinale n'est pas nécessaire; une étude transversale suffit. Cependant, même dans ce cas, une étude longitudinale a tendance à être plus puissante, parce que chaque sujet peut être utilisé comme son propre contrôle pour toute caractéristique non mesurée (Diggle et coll. 2002).

Notre approche diffère des solutions décrites dans la littérature, lesquelles présentent certaines limites pour l'analyse de ce genre de données, et en particulier pour l'application à la SDR. Par exemple, dans Berger (2004a) et Berger (2004b), l'estimation du changement est examinée en détail en utilisant des échantillons rotatifs, mais en posant que la composition de la population finie ne varie pas au cours du temps, ce qui n'est pas le cas de la SDR. Cette hypothèse ne tient pas non plus dans de nombreuses autres enquêtes à grande échelle. En outre, la méthodologie proposée par Berger n'est pas facilement généralisable à plus de deux vagues d'enquête. Similairement, Qualité et Tillé (2008) supposent que la population finie est fixe au cours du temps. Hirano et coll. (2001) et Nevo (2003) présentent diverses méthodes d'estimation en supposant que le plan est à panel fixe avec rafraîchissement pour tenir compte de l'attrition, mais émettent aussi l'hypothèse que la composition de la population finie est fixe au cours du temps.

McLaren et Steel (2000), et Steel et McLaren (2007) utilisent une approche fondée sur des séries chronologiques pour estimer la variation et la tendance dans les données d'enquête. Bien que leur approche permette d'intégrer l'association intrasujet dans les estimations ponctuelles, ils ne considèrent pas de covariables dans leur modèle (sauf les covariables temporelles implicites). En outre, ils discutent uniquement de l'estimation du changement pour les variables continues.

Une autre option pour analyser des données longitudinales consiste à considérer la population finie d'intérêt comme étant fixe, sauf peut-être en ce qui concerne les décès, qui pourraient être permis. Les études de ce genre sont celles pour lesquelles des données n'existent que pour une seule cohorte. Par exemple, Vieira et Skinner (2008), Carrillo, Chen et Wu (2010), et Carrillo, Chen et Wu (2011) illustrent certaines options de modélisation en se basant sur des données d'enquête recueillies auprès d'une seule cohorte. Cependant, pour procéder à ce genre d'analyse sur les données d'enquête à plusieurs cohortes, on doit ignorer certaines (ou de nombreuses) données existantes, par exemple celles recueillies auprès des sujets qui ne sont pas présents à toutes les vagues. Un exemple de procédure de pondération de ce genre est décrit dans Ardilly et Lavallée (2007).

Enfin, l'approche de Larsen, Qing, Zhou et Foulkes (2011) est séduisante en principe, parce qu'il s'agit de la façon dont procèdent généralement les praticiens des sondages. Un poids initial est ajusté, entre autres par calage sur des totaux connus, ici sur des totaux par vague d'enquête. Néanmoins, pour les panels rotatifs, cette méthode en est encore à ses balbutiements; la manière d'exécuter certains de ses éléments n'est pas entièrement claire. Ainsi, le choix du poids initial n'est pas évident : un poids constant ?, le premier poids disponible ?, la moyenne des poids disponibles pour chaque cas ?, ou le dernier poids disponible ? En outre, en cas de décrochages, comme il en existe dans la SDR, les auteurs ne précisent pas comment procéder à un ajustement pour la non-réponse. De surcroît, on s'explique mal pourquoi un ajustement pour la non-réponse des décrocheurs, disons, à la vague 4 devrait avoir une influence sur les observations à la vague 3, comme le permet cette méthode, puisqu'elle comporte un poids unique pour chaque sujet. De plus, les auteurs mentionnent qu'ils ont estimé les erreurs-types, mais ils n'indiquent pas comment tenir compte de toutes les caractéristiques du plan de sondage, telles que les modifications apportées au cours du temps à la stratification et aux classes pour l'ajustement des pondérations de la SDR. En revanche, notre méthode utilise uniquement des pondérations et des méthodes d'estimation de variance transversales, qui ont été étudiées en profondeur dans la documentation et auxquelles on a facilement accès pour la SDR.

La présentation du reste de l'article est la suivante. À la section 2, nous décrivons le plan de sondage de la SDR. À la section 3, nous proposons une nouvelle approche pour l'analyse longitudinale des modèles de moyenne marginale dans le cas d'enquêtes à plusieurs cohortes. À la section 4, nous présentons l'application de la méthode à la SDR. Enfin, à la section 5, nous offrons quelques points de discussion.

Précédent | Suivant

Date de modification :