Analyser les microdonnées du recensement dans un CDR : quelle pondération utiliser?

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

par Georgia Roberts1

Résumé

En général, il est recommandé de recourir à l'estimation pondérée au moment d'analyser les données d'un fichier de microdonnées issues du questionnaire complet du recensement. Puisque de tels fichiers de données sont maintenant disponibles dans les centres de données de recherche (CDR), il est nécessaire de donner aux chercheurs de l'information sur la façon de procéder à une estimation pondérée avec ces fichiers. Ce document a pour objectif de fournir cette information, plus particulièrement la façon avec laquelle les variables de pondération ont été dérivées pour les fichiers de microdonnées du recensement et la pondération qui devrait être utilisée pour différentes unités d'analyse. Dans le cas des recensements de 1996, 2001 et 2006, la même variable de pondération est appropriée peu importe si ce sont des personnes, des familles ou des ménages qui sont étudiés. Dans le cas du Recensement de 1991, les recommandations sont plus complexes : une variable de pondération différente de celle des personnes et des familles est requise pour les ménages, et d'autres restrictions s'appliquent pour obtenir la bonne valeur de pondération pour les familles.

Introduction

 «Le recensement brosse un portrait statistique du pays et de sa population. La plupart des pays dans le monde mènent régulièrement un recensement pour recueillir des renseignements importants sur la situation socio-économique des personnes vivant dans toutes les régions du pays. Au Canada, le recensement constitue la seule source fiable de données détaillées sur de petits groupes, notamment les familles monoparentales, les groupes ethniques, l'industrie, les catégories professionnelles et les immigrants. Le recensement permet aussi d'avoir accès aux données sur des régions aussi petites que des quartiers ou sur le pays lui-même.»2.

« Le recensement s'adresse à tous les hommes, femmes et enfants qui vivent au Canada le jour du recensement ainsi qu'aux citoyens canadiens temporairement à l'étranger, soit sur une base militaire, en mission diplomatique, en mer ou à quai à bord d'un navire marchand enregistré au Canada. Les personnes au Canada qui détiennent le statut de résident non permanent, un permis de séjour pour étudiant ou un permis de travail, ainsi que les personnes à leur charge, font également partie du recensement»2. Toutefois, seule une quantité limitée de renseignements de base est recueillie auprès de tous les participants, tandis que les données détaillées sont seulement recueillies auprès d'un échantillon des ménages et des personnes dénombrés lors du recensement intégral. En 2001, par exemple, le questionnaire abrégé du recensement comprenait seulement sept questions tandis que chaque questionnaire complet comprenait les sept questions du questionnaire abrégé et 52 autres questions comportant des sous-questions.

Les techniques d'estimation pondérée doivent être utilisées pour produire des estimations des données issues d'un fichier de questionnaire complet. Comme nous l'expliquerons plus en détail ultérieurement, les résultats peuvent être biaisés si les pondérations adéquates ne sont pas utilisées. Ce document a pour objectif de donner un contexte et une justification quant aux variables de pondération incluses dans les fichiers de microdonnées des recensements de 1991 à 2006, lesquelles, au moment de la rédaction, sont disponibles dans les CDR. À la section 2, on décrit brièvement les enregistrements qui font partie des fichiers de microdonnées du recensement et ce que les enregistrements contiennent. Ensuite, à la section 3, on explique les probabilités d'inclusion des différentes unités dans l'échantillon. Suit ensuite un examen du processus dans lequel on passe de ces probabilités aux variables de pondération spécifiques que l'on retrouve dans les fichiers de données utilisés par les chercheurs dans les centres de données de recherche. À la section 4, on explique la raison pour laquelle les fichiers de recensement des CDR comptent un moins grand nombre de variables de pondération comparativement aux bases de données du recensement utilisées au bureau central de Statistique Canada. Le tout est suivi d'une brève conclusion.

Que contiennent les fichiers de microdonnées du recensement des CDR?

Bien que la désignation des personnes qui devraient répondre au questionnaire complet du recensement ait légèrement changé au fil du temps (et devrait être vérifiée par le chercheur au moyen de la documentation fournie pour chaque recensement), pour les recensements de 1991 à 2006, les participants étaient généralement les suivants :

  1. tous les particuliers de l'échantillon constitué d'un logement privé occupé sur cinq dans les secteurs de dénombrement (SD) (en 2006, les SD étaient appelés unités de collecte ou UC)3;
  2. tous les particuliers4 habitant des logements collectifs non institutionnels5;
  3. tous les non-pensionnaires d'établissements institutionnels qui habitent dans des logements collectifs institutionnels;
  4. tous les particuliers qui habitent dans des ménages privés occupés dans les SD du secteur de recensement par interview – lesquels sont principalement des secteurs nordiques et éloignés et des réserves indiennes;
  5. tous les Canadiens en poste à l'étranger, comme les fonctionnaires fédéraux et provinciaux et les membres des Forces armées, ainsi que les citoyens canadiens à l'extérieur du Canada qui demandent à être inclus dans le recensement.

Le contenu des questionnaires complets remis à ces différents groupes de personnes étaient très similaires. Parmi les principales différences, il y avait notamment l'omission des questions sur le logement pour certains groupes et une adaptation des exemples des questions figurant sur les questionnaires distribués dans les régions nordiques et dans les réserves indiennes.

Les fichiers de microdonnées du questionnaire complet contenant des enregistrements au niveau de la personne ont été créés pour les CDR à partir des données de chacun des recensements de 1991 à 2006, et des fichiers d'autres recensements pourraient s'ajouter. Chaque enregistrement au niveau de la personne comprend des identifiants (comme les identifiants du ménage et de la famille), des variables géographiques et des variables directes et dérivées tirées du questionnaire. Chaque enregistrement contient des données provenant des questions que l'on retrouve autant dans le questionnaire abrégé que dans le questionnaire complet, ainsi que des données tirées des questions supplémentaires incluses seulement dans les questionnaires complets. De plus, pour chaque enregistrement au niveau de la personne, on retrouve une ou plusieurs variables de poids de sondage utilisés pour l'estimation des paramètres qui intéressent le chercheur.

La population ciblée par l'ensemble de l'échantillon des questionnaires complets de chacun des quatre recensements examinés ici peut être décrite comme suit : tous les résidents « habituels » du Canada qui ne vivent pas dans un établissement institutionnel (à l'intérieur ou à l'extérieur du Canada), les immigrants reçus et les résidents non permanents au moment du recensement. Les Canadiens vivant en institution ne peuvent pas être étudiés à l'aide de ces fichiers de microdonnées des questionnaires complets puisque les Canadiens vivant en institution ont reçu seulement les questionnaires abrégés et que les enregistrements contenant les renseignements de base recueillis à leur propos ne sont pas inclus dans ces fichiers. (Les résidents des institutions, anciennement appelés détenus, comprennent les résidents des prisons, des hôpitaux, des établissements de soins infirmiers, etc., qui ne font pas partie du personnel.) Un chercheur peut vouloir estimer les quantités descriptives de l'ensemble de la population cible ou les statistiques descriptives d'une sous-population, ou encore des statistiques plus complexes comme les coefficients de modèle.

Comment les variables du poids de sondage sont-elles élaborées pour un fichier de microdonnées du recensement?

Pour l'établissement d'une variable de poids de sondage dans le cas d'un fichier de microdonnées du questionnaire complet du recensement, la première chose que l'on doit déterminer est la probabilité d'inclusion dans l'échantillon de chaque unité en particulier. Étant donné, comme nous l'avons précédemment mentionné, qu'un plan simple a été utilisé pour choisir les personnes qui fourniraient des données détaillées, il est relativement aisé de déterminer la probabilité que n'importe quel ménage en particulier soit choisi afin d'être inclus dans l'échantillon des questionnaires complets. En résumé, cette probabilité d'inclusion serait de 1 sur 5, soit 0,20, pour tout ménage faisant partie du groupe 1 décrit plus haut et serait de 1 pour tout ménage faisant partie des groupes 2 à 5 (puisque chaque ménage faisant partie de ces groupes devait être choisi).

Toutefois, les unités d'analyse d'intérêt pour un chercheur utilisant les données du recensement peuvent être autre chose que les ménages. Le chercheur pourrait plutôt vouloir étudier les familles économiques, les familles de recensement6 ou les personnes. Cela signifie que les probabilités d'inclusion de l'une ou l'autre de ces autres unités doivent également être calculées de sorte que des poids de sondage appropriés puissent être élaborés. Dans le cas du recensement, ces calculs sont également simples parce que ces autres types d'unités d'analyse sont contenues dans les ménages et parce qu'il n'y a pas eu de sous-échantillonnage dans les ménages (c.-à-d. toutes les personnes dans un ménage devaient fournir des données si le ménage était choisi pour l'échantillon). Par conséquent, la probabilité d'inclusion de l'une ou l'autre de ces autres unités est la même que celle du ménage auquel elles sont associées. L'inverse de ces probabilités d'inclusion porte le nom de pondération probabiliste, et dans le recensement, ces poids ont une valeur de 5 (pour la plus grande partie de la population) ou de 1 (pour les quatre derniers groupes énumérés à la section 2 plus haut).

Comme dans le cas de la plupart des enquêtes, Statistique Canada ne recommande pas que cette variable de pondération probabiliste soit utilisée pour fins d'analyse avec les fichiers de microdonnées des questionnaires complets. En fait, Statistique Canada ne donne pas habituellement la variable du poids de probabilité dans un fichier de données d'analyse. Son utilisation pourrait entraîner des estimations biaisées des paramètres d'intérêt. Cela s'explique par le fait que la collecte des données du recensement, comme tout autre processus de collecte des données, ne se passe pas entièrement sans accroc. À titre d'exemple, parfois, il n'est pas évident de savoir si un logement est occupé ou non et, par conséquent, si un questionnaire devrait y être laissé. Il se peut aussi qu'un ménage qui reçoit un questionnaire complet ne réponde pas aux questions posées après les questions de base communes aux deux questionnaires. Il est aussi possible qu'un ménage ne soit pas en mesure de fournir des réponses aux questions posées. Enfin, il peut arriver que les réponses concernant les différents membres d'un même ménage ne soient pas cohérentes. En raison de ces situations et d'autres problèmes, on procède à un processus complexe de révision et d'imputation incluant toutes les données du recensement avant que les fichiers de microdonnées des questionnaires complets du recensement soient produits pour ce recensement. Les règles de décision qui précisent le type de révision et d'imputation varient d'un recensement à l'autre et déterminent les unités qui doivent être incluses dans le fichier de microdonnées du questionnaire complet. Les pondérations probabilistes de ces unités sont ensuite calées (ou ajustées) afin de produire des poids de sondage qui, lorsqu'ils sont utilisés à des fins d'estimation, réduiront ou élimineront les écarts entre les estimations issues de l'échantillon pondéré (à l'aide des variables du poids de sondage) et les chiffres de population.

Depuis 1991, les poids de probabilité ont été ajustés pour tenir compte de plus de 30 contraintes (obtenues à partir des questions communes au questionnaire abrégé et au questionnaire complet) dans chaque secteur de pondération (SP)7. Certaines contraintes sont appliquées au niveau du ménage tandis que d'autres concernent celui de la personne8. Ces calages permettent d'ajuster les pondérations probabilistes pour les types de personnes et de ménages qui sont surreprésentés ou sous-représentés parmi les enregistrements dans le fichier de données du questionnaire complet. Par exemple, les ménages ne comportant qu'une seule personne et les jeunes hommes ont tendance à être sous-représentés dans le fichier du questionnaire complet et leurs probabilités probabilistes auront tendance à être ajustées à la hausse avec la création des poids de sondage. Par ailleurs, les personnes mariées ont tendance à être surreprésentées dans le fichier du questionnaire complet et par conséquent verront leurs pondérations probabilistes ajustées à la baisse. Les méthodes utilisées pour caler les poids ont également quelque peu changé d'un recensement à l'autre puisque des approches améliorées ont été mises au point; les descriptions des méthodes se trouvent dans les rapports techniques disponibles dans les documents de référence présentés pour chaque recensement9.

Dans les trois derniers recensements (1996, 2001 et 2006), le processus d'ajustement de la pondération a été tel que la variable de poids de sondage à utiliser pour l'analyse au niveau de la personne est le même pour toutes les personnes faisant partie du même ménage. Cela signifie que la même variable de pondération peut être utilisée pour l'analyse de tout type d'unité imbriquée dans les ménages, pour l'analyse des ménages, l'analyse des familles ou l'analyse des particuliers. Par conséquent, une seule variable de pondération doit être fournie dans les fichiers de microdonnées des CDR pour les recensements de 1996, 2001 et 200610. Pour les fichiers de microdonnées de 1996, 2001 et 2006, comme on peut le voir au tableau 1, le nom de cette variable est COMPW211. Il s'agit de la variable du poids de sondage qui a été utilisée par Statistique Canada pour les totalisations publiées fondées sur les données tirées de l'échantillon du questionnaire complet du recensement de ces années12.

Dans le cas du Recensement de 1991, le processus d'ajustement des poids a été tel que la variable du poids de sondage utilisée par Statistique Canada pour les totalisations publiées au niveau de la personne et de la famille (appelée COMPW5 dans le fichier de données du CDR) n'est pas constante pour toutes les personnes habitant le même ménage. Par conséquent, une variable de pondération différente de celle utilisée pour l'estimation au niveau de la famille et de la personne (appelée COMPW1 dans le fichier de données du CDR) devrait être utilisée pour l'estimation au niveau du ménage plutôt que pour l'estimation au niveau de la personne ou de la famille, dans le cas où l'on souhaite reproduire les totalisations publiées. De plus, pour l'estimation au niveau de la famille, la valeur de COMPW5 pour un membre de la famille en particulier devrait être utilisée; plus particulièrement pour l'estimation au niveau de la famille de recensement, la valeur de COMPW5 pour le membre de la famille de recensement pour qui la variable de l'indicateur de la famille de recensement CFPtr=0 devrait être le poids pour la famille de recensement; dans le même ordre d'idées, pour l'estimation au niveau de la famille économique, la valeur de COMPW5 pour le membre de la famille économique pour qui la variable de l'indicateur de la famille économique EFPtr=0 devrait être le poids pour la famille économique.

Ce ne sont pas toutes les unités qui ont un poids de sondage différent de leur poids de probabilité. Tous les particuliers faisant partie des groupes 2 à 5 décrits à la section 2, où il a été déterminé que tous les ménages recevraient un questionnaire complet, ont un poids de sondage de 1, ce qui indique qu'ils ont été sélectionnés avec certitude. On a remédié à la non-réponse dans ces groupes par des approches autres que l'ajustement et le calage des pondérations probabilistes. Pour déterminer de quelle façon la non-réponse dans ces groupes a été gérée, la documentation pour chaque recensement devrait être consultée.

Tableau 1 Variables de pondération recommandées pour différentes unités d'analyse*Tableau 1 Variables de pondération recommandées pour différentes unités d'analyse*

Qu'en est-il des analyses au niveau du logement?

Bien que la majorité des questions du questionnaire complet du recensement s'appliquent à tous, il y at certaines questions pour lesquelles ce n'est pas le cas, comme les questions sur les logements. À titre d'exemple, les questions sur les logements ne s'appliquent pas aux personnes qui vivent dans des ménages situés hors du pays ou dans des logements collectifs, entre autres. Par conséquent, si une analyse au niveau du logement doit être effectuée, il faut identifier les ménages pour lesquels les variables d'intérêt relatives au logement sont recueillies, ce qui est souvent possible grâce à l'utilisation de la variable DocTp et à la connaissance du contenu des différents types de questionnaires. La variable de pondération du ménage peut alors être utilisée  en tant que poids de sondage adéquat pour les logements à inclure dans les analyses.

Pour 2006, deux options de pondération sont possibles dans le cas de l'analyse au niveau du logement. D'une part, la variable de pondération COMPW2 peut être utilisée, après avoir cerné les ménages pour lesquels les variables d'intérêt relatives au logement sont recueillies. D'autre part, la variable de pondération COMPW1 est également une option puisqu'elle a la même valeur que COMPW2, à l'exception des enregistrements où DocTp est égale à 4 (ménage d'outre-mer 2C), 13 (logements de personnes âgées occupés 2B) ou 14 (logements de personnes âgées occupés 2D), pour lesquels COMPW1 a une valeur « manquante ». Les ménages ayant ces trois valeurs de DocTp comptent parmi les ménages pour lesquels les variables du logement n'étaient pas applicables. Toutefois, des mises en garde ont été émises à propos de la qualité des données de la variable DocTp. Les analystes devraient se référer au manuel des codes du Recensement de 2006 (Statistique Canada, 2008) pour obtenir de plus amples renseignements.

Pour quels recensements une seule variable de pondération sera-t-elle suffisante?

Comme nous l'avons mentionné plus haut, une seule variable du poids de sondage devrait répondre aux besoins des analystes des CDR qui font des recherches au moyen des fichiers de données du recensement pour 1996, 2001 et 2006. Toutefois, cela ne sera pas le cas de l'analyse des recensements précédents. Pour le Recensement de 1991, comme il est indiqué plus haut, et pour les recensements antérieurs à 1991, différents poids de sondage sont nécessaires pour les estimations au niveau de la personne et au niveau du ménage étant donné que les ajustements des poids ont été calculés de façon indépendante pour les personnes et pour les ménages.

Certains chercheurs des CDR ont déjà effectué des analyses au moyen des bases de données des recensements de 1996, 2001 ou 2006 plus complètes au bureau central de Statistique Canada au lieu d'utiliser les fichiers fournis pas les CDR. Ils ont remarqué que ces bases de données contiennent plusieurs variables de pondération, même s'il est mentionné plus haut qu'une seule variable de pondération devrait suffire à leur travail. Si un chercheur examinait ces variables de pondération, il constaterait que plusieurs d'entre elles sont identiques et équivalentes à la variable disponible dans le fichier de données du CDR et que les autres ont une valeur constante de 1. L'inclusion de toutes ces variables est une tendance qui remonte à l'époque où ces variables avaient différentes valeurs. Cela permet à un chercheur qui mène une analyse avec des recensements plus anciens de répéter sa procédure d'estimation pour les recensements plus récents, y compris l'utilisation des mêmes noms pour les variables de poids de sondage.

Résumé

Les fichiers de microdonnées des questionnaires complets des recensements de 1991, 1996, 2001 et 2006 sont accessibles aux chercheurs dans les CDR. Ces fichiers, bien qu'ils contiennent des enregistrements au niveau de la personne, peuvent également être utilisés pour étudier les familles, les ménages et les logements. Peu importe l'unité d'analyse, il est recommandé que les techniques pondérées soient utilisées afin de générer les estimations des paramètres d'intérêt.

Étant donné le plan d'échantillonnage pour la sélection de ceux qui devaient remplir un questionnaire complet et étant donné les approches utilisées pour produire les poids de sondage pour l'analyse, la même variable de pondération peut être utilisée pour produire des estimations au niveau de la personne, de la famille, du ménage ou du logement dans le cas des recensements de 1996, 2001 et 2006. Cela signifie que la valeur de la variable de pondération attribuée à une personne en particulier dans le fichier au niveau de la personne est appropriée pour les analyses concernant la famille, le ménage ou le logement de cette personne. Par ailleurs, pour le Recensement de 1991, afin de produire des estimations au niveau de la personne et de la famille, une variable de pondération différente de celle utilisée pour produire des estimations au niveau du ménage et du logement devrait être utilisée. Le tableau 1 indique les variables de pondération à utiliser de sorte que les valeurs des totalisations publiées de Statistique Canada soient reproduites pour chacun des quatre recensements.

Habituellement, l'analyse ne s'arrête pas avec la production d'estimations pondérées des quantités d'intérêt. Les chercheurs souhaitent en général fournir des mesures de la variabilité telles que les erreurs-types ou les intervalles de confiance ou procéder à des tests statistiques. Pour y arriver de façon adéquate, le regroupement des particuliers au sein des ménages et la stratification des échantillons devraient être envisagés. Un document à venir traitera de ces questions.

Remerciements

L'auteur souhaite remercier Mike Bankier pour ses nombreuses contributions au contenu de cet article.

Bibliographie

Statistique Canada. 1999, Rapport technique du Recensement de 1996 : Échantillonnage et pondération, no 92-371-XIF au catalogue de Statistique Canada, Ottawa (Ontario), 7 décembre. (consulté le 26 juillet 2011)

Statistique Canada. 2004, Rapport technique du Recensement de 2001 : Échantillonnage et pondération, no 92-395-XIF au catalogue de Statistique Canada, Ottawa (Ontario), 15 décembre. (consulté le 26 juillet 2011)

Statistique Canada. 2008.  Centres de données de recherche (CDR): recensement de 2006, manuel des codes.  Division des opérations du recensement, Statistique Canada, Ottawa. Octobre 2008. (consulté le 5 mars 2012)

Statistique Canada. 2009. Rapport technique du Recensement de 2006 : Échantillonnage et pondération, no 92-568-X au catalogue de Statistique Canada, Ottawa, août. (consulté le 26 juillet 2011)


Notes

  1. Georgia.Roberts@statcan.gc.ca, Centre de ressources en analyse de données, Statistique Canada.
  2. Extrait de http://www12.statcan.ca/census-recensement/2006/ref/about-apropos/faq-fra.cfm
  3. La fraction d'échantillonnage d'un sur cinq est en place depuis 1951, à l'exception de 1971 et de 1976, où elle était d'un sur trois. Le Recensement de 1941 est le premier recensement dans le cadre duquel des données détaillées ont été recueillies auprès d'un échantillon de ménages et, pour ce recensement, une fraction d'un sur dix a été échantillonnée.
  4. Un « particulier » est un citoyen canadien, un immigrant reçu ou un résident non permanent.
  5. Le Recensement de 2006 était légèrement différent des trois autres recensements. Plus particulièrement, 2006, les personnes habitant dans des refuges (c'est-à-dire des logements collectifs non institutionnels) ont reçu des questionnaires abrégés seulement. De plus, les « logements de personnes âgées » ont été introduits dans l'échantillon des questionnaires complets en 2006, comme le décrit le Rapport technique du Recensement de 2006 : Échantillonnage et pondération (Statistique Canada, 2009).
  6. Étant donné que les définitions de familles de recensement et de familles économiques ont légèrement changé au fil du temps, on devrait se reporter à la documentation pour le recensement en particulier qui est étudié.
  7. Pour les recensements de 2001 et 2006, un SP est composé, en moyenne, de huit aires de diffusion (AD) contiguës. La définition du SP est un peu différente dans les recensements précédents.
  8. À titre d'exemple de contrainte au niveau de la personne, l'estimation pondérée du nombre de personnes mariées dans chaque SP, à l'aide de l'échantillon de questionnaires complets, devait être équivalente au nombre de personnes mariées dans le SP obtenu de tous les questionnaires du recensement, qu'il s'agisse du questionnaire abrégé ou du questionnaire complet.
  9. Voir, par exemple : Recensement du Canada de 2006. Échantillonnage et pondération. Ce rapport ainsi que d'autres rapports similaires pour les recensements de 2001 et de 2006 sont disponibles sur le site Web de Statistique Canada dans la section Référence.
  10. Lorsque des fichiers des recensements antérieurs sont diffusés dans les CDR, certains peuvent contenir plus d'un poids, différents poids étant recommandés pour différentes unités d'analyse.
  11. Le fichier de microdonnées du CDR pour le Recensement de 2006 contient en fait deux variables de pondération, COMPW2 et COMPW1, mais les deux ont la même valeur pour les enregistrements dont DocTp est égale à des valeurs autres que 4, 13 ou 14. Pour les enregistrements ayant ces valeurs de DocTp, COMPW1 a une valeur « manquante ». (DocTp est une variable qui donne une classification des ménages selon le type de questionnaire du recensement qui a été utilisé.)
  12. Statistique Canada produit également ce que l'on appelle des estimations de population ajustées en fonction du sous-dénombrement net, lesquelles sont utilisés par le gouvernement fédéral pour les paiements de transferts et de péréquation aux provinces. Ces estimations sont préparées une fois que d'autres études de couverture ont été effectuées après que les poids de sondage définitifs ont été calculés et, par conséquent, un chercheur ne peut obtenir ces estimations par le biais de procédures de pondération habituelles utilisant les fichiers de microdonnées.
Date de modification :