Documents démographiques
Utilisation des variables relatives à la famille obtenues des fichiers de microdonnées du Recensement de la population et de l’Enquête nationale auprès des ménages Documents démographiques
Utilisation des variables relatives à la famille obtenues des fichiers de microdonnées du Recensement de la population et de l’Enquête nationale auprès des ménages

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Date de diffusion : Le 22 decembre 2016

Renseignements supplémentaires Version PDF

par Heather Lathe, Anne Milan et Nadine Laflamme

Résumé

Les variables sur la famille sont une importante composante des données du Recensement de la population. Afin de bien les utiliser à des fins de recherche, il est toutefois important de bien les comprendre. Le présent article renferme de l’information pertinente à l’utilisation des variables relatives à la famille dans les fichiers de microdonnées du Recensement de 2011 et des années antérieures, ainsi que de l’Enquête nationale auprès des ménages de 2011 (ENM). Ces fichiers de microdonnées ont des attributs variables selon qu’ils se trouvent à Statistique Canada même, dans les centres de données de recherche (CDR) ou qu’ils soient des fichiers de microdonnées à grande diffusion (FMGD). L’article compare ces trois versions des fichiers de microdonnées et dégage leurs similitudes et leurs différences. Il explique les aspects techniques de l’utilisation des variables relatives à la famille, comme la façon dont des variables supplémentaires sur la famille (au moyen des concepts des familles de recensement ou des familles économiques) peuvent être créées à des fins analytiques, y compris la création de variables multiniveau. Cet article est donc un complément d’information utile à la documentation technique existante et associée au fichier de microdonnées du Recensement de 2011 et des recensements précédents.

Introduction

Le Recensement de la population, ainsi que l’Enquête nationale auprès des ménages (ENM) qui a été menée en 2011, fournit un portrait statistique de la population et représente une source importante de données détaillées pour les petits groupes de population, à bien des niveaux géographiques. Ces données peuvent être utilisées pour aider le gouvernement, les entreprises, les médias, les universitaires, le grand public et quiconque s’intéresse aux données sociales, démographiques et économiques à planifier et à prendre des décisions.

Les variables sur la famille sont une importante composante des données du recensement et de l’ENM. Elles peuvent cependant être difficiles à comprendre et à utiliser dans les analyses. En association avec d’autres documents de référence^Note 1, le présent article offre une source d’information aux chercheurs qui aimeraient réaliser des recherches sur la famille au moyen des fichiers de microdonnées.

La Section 1 commence par une introduction à l’analyse multiniveau avant de donner un aperçu des concepts liés à la famille.

La Section 2 présente ensuite les similitudes et les différences entre la Base de données de diffusion du Programme du recensement (disponible aux employés de Statistique Canada seulement), les fichiers de microdonnées des centres de données de recherche (CDR) et les fichiers de microdonnées à grande diffusion (FMGD)^Note 2. Les chercheurs peuvent utiliser les fichiers à grande diffusion pour effectuer des analyses exploratoires avant de soumettre une proposition nécessitant l’accès aux fichiers des CDR. Le caractère hiérarchique ou « multi-niveau » des fichiers est présenté dans cette section en raison de son importance à l’égard des variables familles.

La section 3 présente une vue générale des variables liées aux familles dans le Recensement de 2011 et l’ENM, en particulier celles qui sont centrales aux concepts de familles de recensement et de familles économiques. Cette section fait aussi état des variables identifiantes, compte tenu du fait que ces identificateurs sont importants lors de l’usage des fichiers de microdonnées pour effectuer des analyses relatives aux familles.

La Section 4 explique comment les analystes peuvent créer des variables supplémentaires liées à la famille à des fins analytiques, en particulier des variables multiniveau. Les variables multiniveau sont celles qui chevauchent plusieurs « niveaux » de données, par exemple lorsqu’une caractéristique à un niveau plus élevé comme le revenu du ménage est appliquée à un enregistrement sur les personnes^Note 3. La création de variables additionnelles est possible en raison du contenu hiérarchique des fichiers de microdonnées du recensement et de l’ENM.

La Section 5 traite des aspects techniques généraux des bases de données du recensement et de l’ENM : la sélection de la population ou de l’univers appropriés pour l’analyse, l’application de poids et l’utilisation de variables identifiantes.

1. Concepts liés à l’analyse de la famille

1.1 Analyse multiniveau

Les logements représentent l’unité de collecte pour le recensement et l’ENM. Toutes les personnes vivant dans un logement comme lieu de résidence habituel composent le ménage de ce logement. Les familles sont ensuite identifiées parmi les membres du ménage à la question 6 du questionnaire du recensement, « lien avec la Personne 1 », où l’on demande le lien de chaque membre du ménage avec une seule personne repère dans le ménage. Cette information est utilisée en association avec les réponses de chaque personne aux questions sur le sexe, la date de naissance et l’état matrimonial pour déterminer indirectement les variables liées à la famille.

Même si un sujet de recherche donné est largement associé aux familles, l’unité d’analyse peut être les personnes, les familles ou les ménages. La décision d’utiliser les personnes, les familles, les ménages ou une combinaison de ces concepts relève de la question de recherche d’intérêt.

À titre d’exemple, le sujet des familles monoparentales peut être analysé au niveau des personnes, des familles ou des ménages (figure 1). Dans le premier cas, afin de compter les parents seuls, les données seraient examinées au niveau de la personne. Dans le deuxième cas, afin d’examiner les familles monoparentales, les données au niveau de la famille sont appropriées, puisque les variables liées à la famille ont déjà été créées dans la base de données pour établir les liens entre les membres du ménage selon le concept de famille. Dans le troisième cas, lorsque les données d’intérêt sont les ménages composés d’une famille monoparentale, l’information au niveau de la famille doit être « élevée » au niveau du ménage.

Figure 1 : Possibilités d’analyse multiniveau dans le cas des familles monoparentales

Figure 1 : Possibilités d’analyse multiniveau dans le cas des familles monoparentales

Description de la figure 1

Le titre de la figure est « Figure 1, Possibilités d’analyse multiniveau dans le cas des familles monoparentales ». La figure montre les trois niveaux possibles pour analyser les familles monoparentales. Le premier niveau comprend les personnes, soit les parents et (ou) les enfants dans une famille monoparentale. Le deuxième niveau comprend les familles, celles qui contiennent des parents seuls et leurs enfants. Le troisième niveau comprend les ménages, ceux ayant au moins une famille monoparentale.

Soulignons qu’il n’est pas nécessaire de limiter aux familles l’analyse au niveau de la famille, à l’exclusion des personnes hors famille. À titre d’exemple, la taille de la famille peut prendre une valeur de 1 pour les personnes hors famille. Le « revenu de la famille » peut être équivalent au revenu de la personne si cette dernière ne fait pas partie d’une famille.

1.2 Concepts de famille de recensement et de famille économique

Dans les définitions normalisées de Statistique Canada pour les familles, il existe deux concepts complémentaires: les familles de recensement et les familles économiques. La plupart des analyses effectuées par Statistique Canada sur les caractéristiques des familles au moyen des données du recensement ou de l’ENM seront basées sur au moins un de ces deux concepts.

Les familles de recensement constituent le concept le plus restreint. Elles correspondent au concept de noyau familial que les Nations Unies (2015) recommandent comme base de la composition des ménages à considérer lors d’un recensement. Elles sont définies comme étant composées d’un couple avec ou sans enfants, ou d’un parent seul vivant avec ses enfants, du moment que chaque enfant n’habite ni avec son propre conjoint ou partenaire en union libre, ni avec son enfant.

Les familles économiques englobent toute famille où au moins deux personnes qui sont apparentées par le sang, par alliance, par union libre, par adoption ou par une relation de famille d’accueil vivent ensemble. Le concept de l’« enfant » dans la famille économique inclut généralement un plus grand nombre de fils et de filles plus âgés que dans le cas des familles de recensement, puisque les enfants dans une famille économique peuvent être eux-mêmes des membres d’un couple ou des parents seuls, même s’ils habitent avec un de leurs parents ou les deux^Note 4.

Aussi bien les définitions de la composition d’une famille de recensement ou d’une famille économique que le rôle ou la situation de chaque personne dans la famille sont importants pour comprendre le concept à utiliser pour une question de recherche en particulier. De plus, les besoins de la recherche détermineront si les personnes qui ne font pas partie d’une famille de recensement ou d’une famille économique devraient être incluses dans la population à l’étude.

À titre d’exemple de différences liées à l’angle d’analyse, les concepts de familles de recensement et de familles économiques pourraient être utilisés pour étudier les revenus des familles, ceci afin de faire la distinction entre les ressources familiales de la famille de recensement et celles de la famille économique plus large à laquelle appartient la famille de recensement, dans des situations où une famille de recensement cohabite avec d’autres personnes apparentées. Le concept de la famille de recensement est semblable à celui de la famille aux fins de la fiscalité lorsqu’une limite d’âge est appliquée aux enfants, par exemple de 0 à 17 ans.

Toutefois, le concept de la famille économique est souvent utilisé pour l’analyse relative aux revenus, puisque l’on suppose que toutes les personnes apparentées vivant dans le même logement partagent de nombreuses ressources financières et matérielles. Dans ce cas, « les personnes hors famille économique » peuvent être dénombrées comme des unités économiques de la même façon que les familles économiques, afin de brosser le portrait des revenus de la population totale.

Le concept de ménage est également utile pour étudier les familles et la situation des particuliers dans le ménage. Dans l’exemple des sujets liés aux revenus, la situation économique des ménages d’une personne pourrait représenter un intérêt analytique en comparaison des autres types de ménages.

La hiérarchie des ménages, des familles économiques, des familles de recensement et des particuliers est présentée à la figure 18 du Dictionnaire du recensement de 2011, et peut être exprimée selon les énoncés suivants :

une famille de recensement : 2 personnes ou plus.
une famille économique : 2 personnes ou plus.
une famille économique : 0, 1 ou plusieurs familles de recensement. Des personnes qui ne font pas partie d’une famille de recensement peuvent également être présentes.
un ménage : 1 personne ou plus.
un ménage : 0, 1 ou plusieurs familles de recensement. Des personnes qui ne font pas partie d’une famille de recensement peuvent également être présentes.
un ménage : 0, 1 ou plusieurs familles économiques. Des personnes ne faisant pas partie d’une famille économique peuvent également être présentes.

ENCADRÉ 1 : Les données sur les familles au fil du temps – aide-mémoire

Les concepts de la famille de recensement, la situation des particuliers dans la famille de recensement et la structure de la famille de recensement sont demeurés les mêmes depuis 2001. Avant 2001, les concepts de la famille de recensement sont demeurés inchangés de 1976 à 1996. Les changements effectués aux concepts de la famille de recensement lors du Recensement de 2001 sont décrits sous « famille de recensement » du Dictionnaire du Recensement de 2011, et sous « Comparabilité historique » du Guide de référence pour les familles, Recensement de 2011.

Plus de renseignements au sujet de l’évolution au fil du temps des concepts relatifs à la famille sont offerts dans l’annexe de l’article « Une diversité qui perdure : le mode de vie des enfants au Canada selon les recensements des 100 dernières années », n^o 11, Documents démographiques (n^o 91F0015M au catalogue de Statistique Canada).

Caractéristique familiale
Sommaire du tableau
Le tableau montre les résultats de Caractéristique familiale . Les données sont présentées selon Caractéristique familiale (titres de rangée) et Première année de disponibilité des données(figurant comme en-tête de colonne).
Caractéristique familiale	Première année de disponibilité des données
Partenaires ou couples en union libre de même sexe	2001
Conjoints mariés ou couples mariés de même sexe	2006
Enfants en famille d’accueil comme membre d’une famille économique	2011
Familles recomposées, familles intactes et membres de ces familles	2011

2. Comparaison entre la Base de données de diffusion de Statistique Canada, les fichiers de microdonnées des centres de données de recherche et les fichiers de microdonnées à grande diffusion

2.1 Fichiers de microdonnées complètes

La Base de données de diffusion du Programme du recensement, qui est une base de données interne à Statistique Canada, contient les fichiers de microdonnées de tous les enregistrements du questionnaire abrégé et du questionnaire long, appelés données intégrales (100% de la population) et données-échantillon, des neuf recensements de 1971 à 2011. Les données-échantillon contiennent à la fois les variables du questionnaire long et du questionnaire abrégé, tandis que les données intégrales contiennent seulement les variables du questionnaire abrégé. Les données-échantillon de 2011 sont les enregistrements de l’ENM liés à leurs caractéristiques du recensement.

Au fil du temps, des fichiers de microdonnées des centres de données de recherche (CDR) ont été créés pour les mêmes années, afin de répondre aux besoins des chercheurs externes à Statistique Canada. Les fichiers des CDR ont les mêmes enregistrements et le même contenu que ceux de la Base de données de diffusion pour les données-échantillon^Note 5.

Alors que l’accès à la Base de données de diffusion de Statistique Canada est réservé aux analystes de l’organisme, l’accès aux fichiers des CDR se fait par le biais d’un processus de proposition en ligne^Note 6.

Il existe une différence technique entre les fichiers des CDR et la Base de données de diffusion. Quoique celle-ci affecte la façon d’extraire les données dans une certaine mesure, elle n’a aucun impact sur les analyses qui peuvent être effectuées. La Base de données de diffusion stocke les variables dans cinq fichiers ou « tableaux » distincts pour chaque unité d’analyse : logement, ménage, personne, famille de recensement et famille économique. Des variables identifiantes, ou « clés », permettent aux unités d’un fichier, comme les personnes, d’être couplées aux unités correspondantes d’un autre fichier, comme les familles. Par conséquent, on dit que la Base de données de diffusion a une structure « relationnelle ».

Par contre, dans le fichier des CDR, les différents tableaux ont été fusionnés en un seul fichier bidimensionnel renfermant seulement des enregistrements sur les personnes. Les caractéristiques de chaque famille sont associées aux enregistrements des personnes de cette famille, et de même pour les caractéristiques du ménage. Les variables identifiantes pour les familles et les ménages n’ont pas été supprimées pour chaque enregistrement individuel, c’est pourquoi on parle encore de « fichiers hiérarchiques » en terme de leur contenu^Note 7.

Un avantage pour les utilisateurs de données d’avoir le fichier des CDR et le FMGD hiérarchique comme fichiers au niveau de la personne est que toutes les variables sont regroupées, et qu’il est donc possible d’effectuer certaines analyses familiales sans fusionner les fichiers distincts. Il est possible d’utiliser toutes les variables des familles et des ménages au niveau de la personne telles quelles, ou de sélectionner une personne par famille ou une personne par ménage, afin de les utiliser au niveau de la famille ou du ménage. Ceci suppose, par contre, que l’analyste n’a pas à dériver de nouvelles variables liant des caractéristiques individuelles et familiales.

L’inconvénient d’un fichier au niveau de la personne est que, pour bien interpréter les données, les utilisateurs de données doivent savoir si une variable en particulier représente une caractéristique au niveau de la personne ou une caractéristique au niveau de la famille ou du ménage associée à chaque enregistrement de personne. Les descriptions des variables indiquent à quelle unité d’analyse s’applique la caractéristique.

En raison des différences entre l’Enquête nationale auprès des ménages et le Recensement de 2011 (un questionnaire abrégé cette année-là), le fichier CDR du Recensement de 2011, qui renferme seulement les caractéristiques du questionnaire abrégé, a été rendu disponible dans les CDR en novembre 2014. Il a été élaboré sur la base d’un échantillon 20 %, ceci afin de réduire sa taille (une variable de pondération est incluse pour compenser). Pour fins de simplicité, le fichier CDR du Recensement de 2011 n’est pas mentionné dans la suite de cet article. Hormis le fait que c’est un échantillon, toutes les autres caractéristiques de ce fichier sont les mêmes que pour celui de la Base de données de diffusion du Recensement de 2011.

2.2 Fichiers de microdonnées à grande diffusion

Des fichiers de microdonnées à grande diffusion (FMGD) sont disponibles pour l’ENM de 2011 et les questionnaires complets du recensement remontant jusqu’à 1971. Les fichiers de microdonnées à grande diffusion sont plus limités que les fichiers intégraux, tant au niveau du contenu que de la taille. Les FMGD se composent d’un échantillon relativement petit d’enregistrements des fichiers originaux (comportant des poids plus importants pour compenser), et ils ont moins de détails géographiques et de variables sur d’autres caractéristiques également.

De plus, les catégories des variables ont été réduites (par exemple, l’âge est seulement disponible en tant que groupes d’âge) ou les microdonnées ont été modifiées pour veiller à ce qu’il soit impossible d’identifier les répondants. L’accès aux FMGD se fait par le biais de l’Initiative de démocratisation des données des établissements postsecondaires participants^Note 8. Selon le projet de recherche, les analystes externes pourraient trouver suffisant d’utiliser les FMGD, ou encore, ils pourraient les utiliser dans une analyse exploratoire avant de présenter une proposition pour utiliser les fichiers de microdonnées des CDR.

Avant 2006, tous les fichiers de microdonnées à grande diffusion existaient en tant que fichiers distincts sur les ménages, les familles et les personnes, et il n’y avait pas de façon de coupler les enregistrements entre eux, ce qui limitait les types d’analyses pouvant être effectuées. Cependant, depuis 2006, un fichier hiérarchique et un fichier sur les particuliers sont fournis en remplacement de ce qui était fourni avant 2006.

Le Fichier hiérarchique de microdonnées à grande diffusion est structuré de la même manière que le fichier des CDR, de manière à ce que toutes les caractéristiques relatives aux variables de niveau famille et ménage soient adjacentes aux enregistrements individuels. Il présente un petit nombre de variables associées aux caractéristiques des ménages et des familles (et les caractéristiques au niveau de la personne), mais il contient aussi les identificateurs de familles et de ménages.

En revanche, le FMGD sur les particuliers possède plus de variables que le FMGD hiérarchique. Cela le rend plus adapté à des analyses au niveau des individus lorsque les caractéristiques de la famille ou du ménage ne sont pas nécessaires. Ce fichier présente également une taille plus grande, incluant environ 2,7% des enregistrements des ménages présents sur le fichier original, contre 1% pour le fichier hiérarchique FMGD. Cependant, aucune information multiniveau supplémentaire ne peut être obtenue du FMGD sur les particuliers, puisque les identificateurs qui permettraient les couplages entre personnes ne sont pas fournis.

3. Variables pour l’analyse des familles dans le recensement et l’ENM

La Section 3.1 décrit les variables principales liées aux familles et fournit une description partielle du traitement des données, ce qui pourrait aider lors de la programmation de nouvelles variables. La Section 3.2 explique les variables « identifiantes », qui sont importantes pour combiner les diverses unités d’analyse^Note 9.

3.1 Variables relatives à la famille et traitement

Une liste de toutes les variables démographiques et liées aux familles pour 2011 se trouve dans l’annexe. Les variables sont présentées selon l’unité d’analyse à laquelle elles s’appliquent : les individus, les familles ou les ménages. Seules quelques-unes des variables représentent des réponses directes du questionnaire. La plupart d’entre elles sont obtenues d’une combinaison de réponses de chaque personne aux questions démographiques (âge, sexe et état matrimonial) et à la question sur les liens de famille entre les membres du ménage^Note 10.

La quasi-totalité des analyses et des tableaux produits par Statistique Canada pour la diffusion officielle des données du Recensement de 2011 sur les familles, les ménages et l’état matrimonial^Note 11 peuvent être produits au moyen de cet ensemble de variables. Les chercheurs peuvent également déterminer indirectement leurs propres variables pour répondre à leurs besoins analytiques (des renseignements concernant la dérivation de variables sont fournis à la section 4).

La variable de base au niveau de la personne en ce qui a trait aux caractéristiques de la famille de recensement est la situation des particuliers dans la famille de recensement (CFAMST). La variable sur la situation des particuliers dans le ménage (CFSTAT) précise si chaque personne ne faisant pas partie d’une famille de recensement cohabite avec d’autres personnes apparentées, avec des personnes non apparentées seulement ou vit seule. La variable sur la situation des particuliers dans la famille économique (EFAMST) est l’équivalent de CFAMST, mais pour la famille économique.

La variable de base au niveau de la famille en ce qui a trait aux familles de recensement est la structure de la famille de recensement (CFSTRUCT). La structure de la famille économique (EFSTRUCT) est la variable équivalente pour le concept de la famille économique.

Les cinq variables CFAMST, EFAMST, CFSTAT, CFSTRUCT et EFSTRUCT ont toutes de vastes ensembles de catégories, puisque les concepts de base liés aux familles qu’elles représentent ont été croisés selon le sexe et l’état matrimonial pour obtenir des détails indiquant entre autres si les couples sont mariés ou en union libre, s’il s’agit de deux personnes de sexe opposé ou de même sexe, et si les parents seuls sont des hommes ou des femmes. En 2011, de nouvelles versions simplifiées de ces variables ont été ajoutées à la base de données (et aux fichiers des CDR) pour représenter uniquement les concepts de base liés à la famille sans d’autres détails. Les noms des variables sont les mêmes, mais ils se terminent par « SIMPLE », comme CFAMSTSIMPLE.

La variable de base au niveau du ménage en ce qui a trait aux familles de recensement est le genre de ménage (HHTYPE). Elle répartit les ménages en ménages familiaux, qui se composent d’au moins une famille de recensement, et en ménages non familiaux. De plus, elle contient certains renseignements sur la structure de la famille de recensement et précise si des personnes qui ne font pas partie d’une famille de recensement sont présentes. HHTYPE se retrouve seulement dans le FMGD sur les particuliers; cependant, elle peut être dérivée dans les autres fichiers (voir l’exemple 4.3.2 à la section 4.3).

L’état matrimonial (MARSTH) est la principale variable sur l’état matrimonial et elle est calculée indirectement à partir de l’état matrimonial légal (MARST) et de la situation vis-à-vis l’union libre (COMLAW). La variable HWCLPR indique les cas où une personne est mariée, mais son conjoint n’est pas un résident habituel du même ménage (pour des raisons qui excluent la séparation conjugale, comme la maladie, le travail ou les études). Cette provision dans les variables sur l’état matrimonial stipulant qu’un conjoint marié peut être absent diverge des variables liées à la famille. Dans les variables liées à la famille, un « couple » exige que les deux personnes qui le composent soient présentes dans le ménage. Par conséquent, les chiffres pour les conjoints mariés divergeront lorsque des variables liées à la famille sont utilisées, comme CFAMST/CFSTAT, au lieu MARST/MARSTH. (Ils peuvent également diverger s’ils ont été publiés pour un univers différent : voir la section 5.1.)

La variable R2P1, qui résulte de la question sur le « lien avec la Personne 1 » des membres du ménage, montre tous les types de liens après la saisie des données et le codage de la catégorie de réponse « autre, précisez » dans la question. Elle figure seulement dans les fichiers destinés aux CDR, en conséquence de son inclusion dans la Base de données de diffusion, où elle était requise à diverses fins techniques. L’utilisation de la variable R2P1 n’est pas recommandée pour différentes raisons, notamment que certaines catégories de réponses ont été traitées pour la diffusion uniquement sous forme de valeurs réduites et, surtout, parce que cette variable ne tient pas compte de l’ensemble complet de corrections qui sont apportées pendant le processus d’identification des familles.

Des caractéristiques familiales pour les personnes vivant dans les résidences pour personnes âgées, un type de logement collectif non institutionnel, font partie de la Base de données de diffusion pour les données intégrales et le fichier des CDR du Recensement de 2011, lequel a été mentionné à la section 2. Consulter le manuel des codes de ce fichier pour plus d’information.

Certaines corrections ont été apportées aux données pour faire en sorte qu’elles semblent raisonnables pour tous les membres d’un ménage. Pour ces fins, un « adulte » est défini dans le recensement comme une personne de 15 ans ou plus.

Une différence d’âge minimum de 15 ans est permise entre un parent et un enfant, ainsi qu’une différence d’âge maximum de 50 ans entre une mère et un enfant. Cependant, depuis 2011, ces corrections ne sont pas nécessairement appliquées aux deux parents dans un couple en conséquence de l’introduction de nouvelles catégories fils/filles, qui permettent l’identification des enfants du conjoint. De plus, dans l’environnement de traitement actuel, un plus petit nombre de corrections de ce genre sont appliquées aux ménages privés composés d’au moins neuf personnes comparativement aux ménages composés de huit personnes ou moins.
Tous les ménages privés ont au moins un adulte.
Toute personne doit avoir au moins 15 ans pour pouvoir se marier ou vivre en union libre ou avoir son propre enfant dans le ménage.
Une famille de recensement se compose toujours d’au moins un adulte, conformément au concept du point précédent.
Une famille économique se compose toujours d’au moins un adulte, et la personne repère de la famille économique est toujours un adulte.

3.2 Variables identifiantes

Les personnes dans le même ménage, les personnes dans la même famille ou les familles dans le même ménage peuvent être déterminées au moyen des variables identifiantes fournies dans le fichier. Cette démarche s’applique peu importe si le fichier est d’une structure relationnelle (la Base de données de diffusion) ou fusionné comme fichier bidimensionnel unique (le fichier des CDR et le FMGD hiérarchique), quoique la façon dont les identificateurs sont utilisés dans la programmation est légèrement différente.

L’identifiant du ménage s’appelle ID, HH_ID ou FRAME_ID, dépendant du fichier. Les identifiants pour la personne, la famille de recensement et la famille économique sont respectivement PP_ID, CF_ID et EF_ID. Elles sont uniques dans tous les enregistrements de ce type d’unité, p. ex., chaque ménage au Canada prend une valeur différente de HH_ID, etc. D’ailleurs, chaque personne hors famille de recensement prend une valeur unique de CF_ID et chaque personne hors famille économique prend une valeur unique de EF_ID, afin de les inclure comme unités familiales d’une personne (si cette démarche est pertinente pour l’analyse), mais aussi pour éviter que toutes ces personnes semblent appartenir à la même famille.

Les variables PP_ID, CF_ID et EF_ID n’existent pas dans les fichiers CDR des recensements avant 2011 ni dans la Base de données de diffusion avant 2006. Les utilisateurs doivent dériver des variables équivalentes au moyen des identificateurs qui sont disponibles pour ces années-là, soit PERSNO, C_FAM et E_FAM^Note 12. Ces variables sont uniques au sein d’un ménage. Pour rendre les personnes ou les familles uniques dans l’ensemble du fichier, il est nécessaire de précéder leur valeur d’identifiant par celle du ménage auquel elles appartiennent. On peut soit enchaîner les valeurs soit utiliser les formules suivantes.

Le nouvel identifiant pour les personnes (appelons-le PP_ID) se fait en multipliant HH_ID par 10 000 afin d’y ajouter quatre chiffres pour PERSNO : PP_ID = HH_ID * 10 000 + PERSNO.
Le nouvel identifiant pour les familles peut être créé de la même manière. Il est présenté ici pour les familles de recensement (et appelé CF_ID), mais le principe serait le même pour les familles économiques. Il devrait également identifier de façon unique les personnes hors famille.

CF_ID = HH_ID * 10 000 + C_FAM, où C_FAM prend une valeur entre 1 et 99 pour une famille; et
CF_ID = HH_ID * 10 000 + C_FAM + PERSNO, où C_FAM prend une valeur de 0 pour une personne hors famille, ce qui revient à :
CF_ID = HH_ID * 10 000 + PERSNO.

En fait, la formule qui a été utilisée comme valeur de CF_ID et EF_ID dans les fichiers de microdonnées les plus récents possède trois chiffres de plus afin d’inclure les personnes vivant dans les collectivités, pour lesquelles C_FAM et E_FAM ont la valeur 999 (voir la section 5.1 pour plus de renseignements sur les logements collectifs) :

CF_ID = HH_ID * 10 000 000 + C_FAM * 10 000 + PERSNO, où C_FAM prend une valeur entre 1 et 99;
CF_ID = HH_ID * 10 000 000 + C_FAM * 10 000 + PERSNO, où C_FAM = 0 ou 999.

4. Exemples d’analyse multiniveau

4.1 Exemples d’extractions uniniveau

Le premier exemple ci-bas montre comment les caractéristiques des familles peuvent être extraites des variables au niveau des individus, tout en demeurant au niveau de l’individu comme unité d’analyse. Cela peut se faire au moyen du tableau « individu » de la Base de données de diffusion ou cela peut se faire au moyen du fichier CDR ou du FMGD hiérarchique étant donné que, dans les deux fichiers, toutes les variables sont enregistrées au niveau des personnes.

Exemple 4.1.1 : extraction de données uniniveau au niveau de la personne

Objectif : Le nombre d’enfants de moins de 15 ans vivant avec deux parents.

Il s’agit du même nombre que la population de moins de 15 ans vivant dans des familles de recensement de deux parents (y compris les petits-enfants ne vivant pas avec leurs parents, mais avec deux grands-parents). La variable CFSTATSIMPLE, représentant la situation dans la famille de recensement et qui est une caractéristique au niveau de la personne, contient une catégorie pour cette extraction de données : « enfant d’un couple » dans une famille de recensement. Elle peut être croisée en fonction des variables AGE (ou AGEGR5) pour appliquer le critère de l’âge. (À noter, cependant, que pour exclure les cas où les deux parents sont en fait des grands-parents, il serait aussi nécessaire de croiser la variable CFAMST pour exclure les enfants avec CFAMST = « Petits-enfants en famille de recensement, sans parent du petit-enfant présent ». La variable CFAMST n’est pas disponible dans le fichier FMGD des individus et dans le fichier FMGD hiérarchique de 2011.)

Le deuxième exemple est également une extraction uniniveau, mais au niveau de la famille. Il peut se faire au moyen de la table famille de la Base de données de diffusion. Il peut également se faire au moyen du fichier CDR, mais dans ce cas il faut d’abord sélectionner une personne par famille servant comme enregistrement d’une famille. Les critères de sélection sont fournis à la Section 4.3.

Exemple 4.1.2 : extraction uniniveau au niveau de la famille

Objectif : Le nombre de couples où les deux personnes dans le couple ont 65 ans ou plus.

Tout d’abord, chaque couple correspond à une famille de recensement comptant un couple, avec ou sans enfant. Les familles comptant un couple peuvent être identifiées par CFSTRUCTSIMPLE. La limite d’âge de chaque personne dans le couple peut être appliquée en croisant cette variable avec CFAGE1STPRSN et CFAGE2NDPRSN, qui indiquent le groupe d’âge de cinq ans de la première et de la deuxième personne, respectivement. Comme les trois variables sont au niveau de la famille, il s’agit encore d’une extraction à un niveau, même s’il y a des caractéristiques au niveau de la personne (groupe d’âge) et au niveau de la famille (structure de la famille de recensement). Si les variables CFAGE1STPRSN et CFAGE2NDPRSN n’existent pas déjà, ce qui est le cas dans le fichier FMGD hiérarchique, il faut faire une extraction multiniveau afin de croiser CFSTRUCTSIMPLE avec AGE ou AGEGR5 (non présenté).

4.2 Exemples d’extractions multiniveau

Les exemples 4.2.1 et 4.2.2 illustrent des extractions multiniveau. Ces exemples supposent que les variables liées aux personnes, aux ménages et aux familles se trouvent dans des fichiers distincts, comme dans le cas de la Base de données de diffusion. Dans le cas du fichier CDR et le FMGD hiérarchique, l’analyste peut d’abord faire un fichier au niveau familial et un fichier au niveau du ménage en sélectionnant une personne par famille ou par ménage, en appliquant les critères énoncés à la section 4.2. Une illustration de la création de ces fichiers de plus haut niveau est fournie à la section 5.3 (exemple 5.3.1). De plus, chaque variable utilisée dans ces exemples mais qui ne sont pas incluses dans le fichier FMGD hiérarchique doit préalablement avoir été définie.

Exemple 4.2.1 : extraction multiniveau au niveau de la famille

Objectif : Le nombre de familles monoparentales ayant une femme à leur tête croisé selon l’appartenance à la population active rémunérée (personne occupée ou en chômage) de la mère dans ces familles, l’âge de la mère (selon des groupes d’âge de cinq ans) et la présence d’enfants de moins de six ans.

Les familles monoparentales ayant une femme à leur tête peuvent être identifiées au moyen de CFSTRUCT. La variable CFAGE1STPRSN peut être utilisée pour obtenir le groupe d’âge (de cinq ans) de la mère. On peut déterminer l’âge du plus jeune enfant vivant avec elle, ou plus précisément, si l’enfant a moins de six ans, au moyen des catégories pertinentes de la variable CFKIDAGEMINGR. Ensuite, les caractéristiques liées à l’activité sur le marché du travail, telles que représentées par les variables au niveau de la personne sous la rubrique du travail, doivent être associées à chaque mère dans la famille monoparentale. Pour ce faire, on fusionne le tableau au niveau de la famille et le tableau au niveau de la personne. La mère dans la famille est identifiée au niveau de la personne avec la variable CFAMST, où CFAMST=mère seule. Ses caractéristiques liées à l’activité sur le marché du travail sont croisées avec cette valeur de CFAMST au niveau de la personne. Ensuite, elles sont associées à chaque famille au moyen d’un couplage entre les personnes et les familles en fonction de la variable identifiante du recensement CF_ID. Le couplage devrait conserver l’enregistrement pour chaque famille, tout en éliminant l’enregistrement pour chaque personne.

Exemple 4.2.2 : une extraction multiniveau au niveau du ménage

Objectif : La création d’une variable sur le genre de ménage avec des valeurs indiquant : a) si le ménage comporte une seule famille de recensement et la structure de base de cette famille, ainsi que si d’autres personnes sont présentes dans le ménage; b) s’il s’agit d’un ménage multifamilial; et c) s’il n’y a pas de famille de recensement et si c’est le cas, s’il s’agit d’un ménage d’une personne ou de deux personnes ou plus.

Le ménage sera l’unité d’analyse pour cette variable. Une fusion multiniveau au moyen de l’identificateur du ménage HH_ID (ou ID, selon le fichier) est requise pour coupler les niveaux du ménage et de la famille. Seuls les ménages devraient être conservés comme enregistrements dans le fichier de sortie créé. Certaines caractéristiques des familles doivent être conservées (CFSTRUCTSIMPLE pour la structure de la famille de recensement et CFCNT pour la taille de la famille de recensement), mais il importe peu de savoir à quelle famille de recensement dans le ménage elles appartiennent, puisque les caractéristiques seront utilisées uniquement s’il n’y a qu’une seule famille dans le ménage; alors on sélectionnera la première famille dans le ménage par souci de simplicité. Un compteur doit être inclus dans le processus de couplage, ceci afin d’enregistrer le nombre de familles dans chaque ménage, ou plus précisément le nombre de valeurs distinctes de l’identificateur de famille CF_ID pour chacune des valeurs de HH_ID. Une fois le fichier de sortie terminé, les valeurs de la nouvelle variable « genre de ménage » peuvent être obtenues dans les énoncés « si, alors » comme suit :

si le compteur équivaut à 2 ou plus, la valeur du nouveau genre de ménage est « ménage multifamilial »;
si le compteur équivaut à 1, la valeur dépend de la valeur CFSTRUCTSIMPLE de la famille conservée. Toutefois, tout dépend aussi si d’autres personnes ont été relevées dans ce ménage unifamilial. Ainsi, si la taille du ménage, NUNITS, est supérieure à la taille de la famille de recensement, CFCNT, alors d’autres personnes sont présentes; autrement, ce n’est pas le cas;
si le compteur équivaut à 0 et que NUNITS équivaut à 1, alors il s’agit d’une personne vivant seule; si le compteur équivaut à 0 et que NUNITS est supérieur à 1, alors il s’agit d’un ménage non familial de deux personnes ou plus.

4.3 Sélection d’une personne par famille ou par ménage

Certains des manuels des codes des fichiers des CDR et des FMGD hiérarchiques recommandent les valeurs de variables à utiliser comme critères de sélection afin de choisir un enregistrement-personne pour représenter le ménage ou la famille. Toute variable ayant une valeur qui s’applique toujours à une seule personne par famille ou par ménage peut être utilisée. Ainsi, dans les fichiers des CDR de 2006 et de 2011 ou dans la Base de données de diffusion, une personne par ménage peut être sélectionnée au moyen de PERSNO=1 ou HMAIN=1 (HMAIN=3 en 2006). Dans le FMGD hiérarchique, utilisez PRIHM=1. Pour les années 1996 et 2001, utilisez PERSNO=1 ou HHPTR=0 dans les fichiers CDR. Pour la famille, les variables CF_RP et EF_RP peuvent être utilisés pour sélectionner une personne repère par famille de recensement ou famille économique, respectivement, et ce, jusqu’en 1996. Par ailleurs, des variables identifiantes peuvent être utilisées si elles sont uniques pour toutes les observations du fichier (voir la section 5.3 pour plus d’information).

Il est possible d’appliquer les critères de sélection (certaines unités) de manière à avoir un enregistrement pour chaque famille économique et chaque personne hors famille économique, ou pour chaque famille de recensement et chaque personne ne faisant pas partie d’une famille de recensement. Les variables à utiliser demeurent CF_RP et EF_RP. De plus, les variables pour la situation des particuliers dans la famille de recensement ou la situation des particuliers dans la famille économique ont toujours une catégorie pour les personnes hors famille, ce qui fait qu’elles peuvent être utilisées pour identifier cette population.

5. Autres aspects techniques des microdonnées du recensement et de l’ENM

Les utilisateurs des fichiers de microdonnées du recensement et de l’ENM doivent décider quelle population s’applique à leurs variables, quel poids devrait être appliqué et si les données doivent être manipulées au moyen de variables identifiantes. La présente section contient d’autres détails sur ces aspects.

5.1 Sélection de la population pour l’analyse de la famille (« l’univers »)

Dans le recensement, la population pertinente, ou « univers », pour les caractéristiques démographiques de base—soit l’âge, le sexe et l’état matrimonial—est la « population totale ». Il s’agit de la population cible totale du recensement. Cependant, depuis le Recensement de 1976, les caractéristiques liées aux familles ne sont pas publiées pour les personnes vivant dans des logements collectifs^Note 13. Lorsque celles-ci sont exclues, l’univers résultant est celui de la population dans les ménages privés^Note 14.

Les utilisateurs du fichier CDR de l’Enquête nationale auprès des ménages n’ont pas besoin de limiter leur population d’étude à celle des ménages privés, puisque l’ENM n’avait que des ménages privés dans sa population cible. De même, les fichiers de microdonnées à grande diffusion de 1976 à 2006 excluent tous les logements collectifs par souci de simplicité.

Les utilisateurs de la Base de données de diffusion du programme du recensement (données intégrales ou échantillon) ou du fichier CDR de 1976 à 2006 (données-échantillon) doivent limiter leur analyse aux ménages privés ou aux personnes dans les ménages privés s’ils incluent des variables liées à la famille ou au logement dans leur étude. Ceci est nécessaire puisque, dans le cas des fichiers de données intégrales, il y a des enregistrements pour la population totale – les personnes dans les ménages privés ainsi que les personnes dans les logements collectifs – alors que dans le cas des fichiers de données-échantillon de 1976 à 2006, il y a des enregistrements uniquement pour la population non institutionnelle, c’est-à-dire les personnes dans les ménages privés et dans les logements collectifs non institutionnels.

La variable DOCTP sert à sélectionner l’univers des ménages privés ou des personnes dans les ménages privés^Note 15. Pour 2011, utiliser DOCTP=1. Pour l’ENM, les valeurs 2 et 9 de DOCTP identifient la population privée, et il n’y a pas d’autres observations dans ces fichiers. Pour la période de 1991 à 2006, utiliser DOCTP=7 et 8. Pour les données intégrales de ces années-là (la Base de données de diffusion seulement), inclure également DOCTP=6.

Les analystes peuvent se référer aux tableaux publiés du recensement et de l’ENM pour valider leurs tableaux produits au moyen de la Base de données de diffusion de Statistique Canada ou des fichiers de microdonnées des CDR, à condition que les résultats s’appliquent au même univers—c’est-à-dire, selon qu’il s’agit de la population totale, la population non institutionnelle ou encore la population vivant dans les ménages privés. De plus, si les caractéristiques totalisées ont été recueillies dans le questionnaire abrégé et le questionnaire détaillé, il faut préciser laquelle des deux sources possibles (données intégrales ou données-échantillon) a été utilisée pour produire le tableau en particulier. Les caractéristiques du questionnaire abrégé sont l’âge, le sexe, l’état matrimonial, les caractéristiques de la famille^Note 16 et certaines caractéristiques linguistiques. En règle générale, les tableaux sur ces caractéristiques sont publiés au moyen des données intégrales, à moins que certaines caractéristiques des questionnaires complets apparaissent également dans le même tableau (ou le même ensemble de tableaux). Les données intégrales et les données-échantillon pondérées ne donnent pas toujours des chiffres identiques, même pour le même univers, comme l’explique la section 5.2 qui traite de la pondération. Il est toutefois important de souligner que la quasi-totalité des conclusions analytiques tirées de ces données seraient les mêmes.

5.2 Application de poids aux fichiers de microdonnées de l’échantillon

Cette section contient un résumé des variables du poids final que les analystes doivent utiliser dans les tableaux de données de 1996 à 2011, que ce soit pour les comptes de ménages, de personnes ou de familles. Pour plus d’information sur la pondération, voir un des guides d’utilisation des FMGD de 2011, soit le chapitre 3 du FMGD des particuliers ou le chapitre 4 du FMGD hiérarchique^Note 17.

Les bases de données du questionnaire complet du recensement et la Base de données de l’ENM de 2011 sont des fichiers-échantillon. Pour les extractions de données au moyen de ces fichiers, il faut appliquer une variable de pondération aux enregistrements, pour qu’ils représentent la population cible de laquelle ils ont été sélectionnés au départ. Par conséquent, pour 2006 et les années antérieures, le questionnaire complet du recensement est pondéré de manière à correspondre aux chiffres du questionnaire abrégé du recensement (appelé données intégrales), à l’exclusion des résidents institutionnels. L’ENM de 2011 est pondérée de manière à correspondre aux chiffres du Recensement de 2011 (données intégrales) pour l’univers des ménages privés.

Bien que la pondération de l’échantillon peut normalement la faire correspondre à la population cible au niveau total pour le Canada, quelques différences mineures subsisteront entre le compte de toute sous-population basée sur des données-échantillons et celui de la même sous-population au moyen du fichier contrôle, et ce, même après le calage des poids en fonction de variables de caractéristiques et de régions géographiques communes^Note 18.

Dans les FMGD hiérarchiques (2006 ou 2011) ou les FMGD sur les particuliers (n’importe quelle année), il n’y a qu’une seule variable de pondération d’enquête, appelée WEIGHT. Cette variable s’applique aux tableaux à n’importe quel niveau, qu’il s’agisse de personnes, de ménages ou de familles. Sélectionnez une personne par ménage ou une personne par famille et appliquez WEIGHT à ces enregistrements afin d’obtenir des chiffres pondérés pour les ménages ou les familles.

Dans les bases de données de diffusion ou les fichiers CDR de 1996 à 2011, les variables du poids sont COMPW1 pour le ménage et COMPW2 pour la personne. En fait, ces deux variables ont presque toujours la même valeur, ce qui veut dire que la valeur pour le ménage, COMPW2, est équivalente à la valeur de COMPW1 pour chaque personne dans le même ménage. Autrement dit, l’une ou l’autre des variables peut être utilisée pour pondérer les ménages ou les personnes. L’une ou l’autre des variables de pondération peut également être utilisée pour pondérer les familles^Note 19.

Plusieurs variables « poids de rééchantillonnage » ont été fournies dans les fichiers à grande diffusion depuis 2006. Elles ont un objectif différent de celui des variables des poids d’enquête. Les analystes peuvent les utiliser pour estimer la variabilité d’échantillonnage de leurs estimations, par exemple en calculant le coefficient de variation et en produisant des intervalles de confiance. Pour plus d’information au sujet des poids de rééchantillonnage et de la façon de les utiliser, voir les guides d’utilisation des FMGD.

5.3 Manipulation des données multiniveau au moyen des variables identifiantes

On a expliqué à la section 4.4 qu’une personne par ménage ou par famille peut être sélectionnée dans un fichier hiérarchique au niveau de la personne au moyen des critères de sélection appropriés. Des identificateurs uniques pour toutes les unités dans le fichier, ce qui est le cas de HH_ID, PP_ID, CF_ID et EF_ID, peuvent être utilisés à cette fin. L’utilisateur peut classer le fichier des personnes selon l’identificateur de ménage (ou d’identificateur de la famille) et ne conserver que la première personne associée à chaque nouvelle valeur de cet identificateur.

Les exemples de programmation qui suivent illustrent comment les identificateurs peuvent être utilisés pour créer un fichier au niveau de la famille ou du ménage à partir du fichier hiérarchique (l’exemple 5.3.1), pour créer de nouvelles variables multiniveau (l’exemple 5.3.2) ou même pour créer un seul fichier hiérarchique à partir d’une base de données relationnelle comportant plusieurs fichiers (l’exemple 5.3.3). Le code SAS est affiché parce qu’il est souvent utilisé à Statistique Canada. Cependant, même si la syntaxe de programmation n’est pas familière (ou complète), les explications devraient donner une idée de l’utilisation d’identificateurs pour la manipulation de données multiniveau. Soulignons que les noms fictifs de fichiers et de variables apparaissent en italiques. Les options telles que les variables à conserver ou à éliminer du fichier original ne sont pas indiquées, par souci de simplicité.

Exemple 5.3.1 : Créer un fichier « famille de recensement » à partir du fichier hiérarchique (au niveau de la personne).

Le fichier doit faire l’objet d’un tri initial selon l’ordre de la variable identifiante de la famille de recensement, CF_ID.

PROC SORT DATA=PPFILE; BY CF_ID; RUN;

Ensuite, une personne par famille de recensement peut être sélectionnée au moyen d’un énoncé « SI » dans un énoncé de manipulation des données.

DATA NEWFILE; SET PPFILE; BY CF_ID; IF FIRST.CF_ID; RUN;

À mesure que le programme examine tous les enregistrements de personnes selon l’ordre de leurs valeurs CF_ID, il conservera chaque enregistrement comportant une « nouvelle » valeur de CF_ID comparativement à tous les enregistrements précédents examinés. Soulignons que les enregistrements des personnes hors famille seront conservés dans le nouveau fichier, ainsi qu’une personne par famille, parce que chaque personne hors famille de recensement a une valeur différente de CF_ID (qui est également différente de toutes les personnes appartenant à une famille). Pour exclure les personnes hors famille au besoin, ajouter une deuxième condition qui utilise toute variable nous permettant de les identifier, comme C_FAM=0 ou CFAMST=(la valeur pour une personne hors famille de recensement).

DATA NEWFILE; SET PPFILE; BY CF_ID; IF FIRST.CF_ID AND CFAMST NE (valeur pour la personne hors famille de recensement); RUN;

où « NE » signifie « ne correspond pas à ».

Pour réutiliser cet exemple pour les familles économiques, remplacer CF_ID et CFAMST par EF_ID et EFAMST.

Pour créer un fichier de tous les ménages, sélectionner une personne par ménage : IF FIRST.HH_ID.

Exemple 5.3.2 : Tout en créant un fichier « famille économique », créer un compteur du nombre d’enfants en famille d’accueil par famille.

Exclure d’abord les personnes ne faisant pas partie d’une famille économique. Les enfants en famille d’accueil font tous partie d’une famille économique.

DATA NEWFILE1; SET PPFILE; IF EFAMST NE (valeur pour la personne hors famille économique); RUN;

Ensuite, le fichier doit être trié en fonction de l’identificateur de famille, dans ce cas-ci EF_ID (non montré). La dernière personne ayant une valeur donnée pour l’identificateur (famille ou ménage) doit être utilisée pour calculer une variable de dénombrement, comme le nombre d’enfants en famille d’accueil, ou une variable indicatrice, comme oui/non ou vrai/faux pour toute caractéristique. Dans l’exemple SAS ci-après, le nom de la nouvelle variable est NUMFOSTER. Il faut l’initialiser à 0 au début de chaque nouvelle famille tel qu’indiqué par une nouvelle valeur de EF_IF (IF FIRST.EF_ID).

DATA NEWFILE2; SET NEWFILE1; BY EF_ID; RETAIN NUMFOSTER; IF FIRST.EF_ID THEN NUMFOSTER=0; IF EFAMST=(valeur pour enfant en famille d’accueil) THEN NUMFOSTER=NUMFOSTER+1; IF LAST.EF_ID THEN OUTPUT; RUN;

Dans l’exemple qui précède, pour compter les enfants en famille d’accueil au sein de ménages plutôt que de familles économiques, il faut utiliser HH_ID au lieu de EF_ID. La variable EFAMST peut être réutilisée comme indicateur des enfants en famille d’accueil au niveau de la personne.

Exemple 5.3.3 : Recréer un fichier au niveau de la personne à partir de fichiers distincts au niveau de la famille, du ménage et de la personne.

Cet exemple est inclus parce qu’il illustre l’utilisation d’identificateurs pour fusionner des fichiers de différentes unités d’analyse. Il peut aussi potentiellement aider à illustrer la structure du fichier dans les CDR et le FMGD hiérarchique.

Trois étapes de manipulation des données sont utilisées, ce qui simplifie les choses, puisque seulement deux fichiers sont couplés à la fois. À chaque étape, les deux fichiers d’entrée doivent être classés en fonction de leur identificateur commun. Afin de conserver uniquement des personnes au bout du compte, le programme demande (dans un énoncé SI) de conserver uniquement les enregistrements qui se trouvent dans le fichier « A » — dont la valeur est donnée au fichier au niveau de la personne.

Étape 1 : Commencer par le fichier des personnes et créer un nouveau fichier qui associe les variables du ménage à chaque enregistrement de personnes, en faisant d’abord un tri.

PROC SORT PPFILE; BY HH_ID; RUN; PROC SORT HHFILE; BY HH_ID; RUN;

DATA NEWFILE_PPHH; MERGE PPFILE (IN=A) HHFILE; BY HH_ID; IF A; RUN;

Étape 2 : Ajouter les variables de la famille économique, en faisant d’abord un tri.

PROC SORT NEWFILE_PPHH; BY EF_ID; RUN; PROC SORT EFFILE; BY EF_ID; RUN;

DATA NEWFILE_PPHHEF; MERGE NEWFILE_PPHH (IN=A) EFFILE; BY EF_ID; IF A; RUN;

Étape 3 : Ajouter les variables de la famille de recensement, en faisant d’abord un tri.

PROC SORT NEWFILE_PPHHEF; BY CF_ID; RUN; PROC SORT CFFILE; BY CF_ID; RUN;

DATA NEWFILE_PPHHEFCF; MERGE NEWFILE_PPHHEF (IN=A) CFFILE; BY CF_ID; IF A; RUN;

Soulignons qu’il ne s’agit ici que d’un exemple partiel. Une autre étape à considérer serait de s’assurer qu’il n’y ait pas de valeurs nulles pour les personnes hors famille, c.‑à‑d. les personnes qui n’ont aucun enregistrement correspondant dans le fichier de la famille. Ces enregistrements peuvent avoir une valeur de CF_ID, mais la même valeur de CF_ID ne peut pas se trouver dans le fichier de la famille de recensement, ce qui fait qu’aucun couplage n’est fait. Les variables de la famille de recensement seront associées aux enregistrements, parce qu’elles sont chargées pour tous les enregistrements en même temps, mais il n’y aura pas de valeurs pour les personnes qui ne font pas partie d’une famille de recensement. Pour éviter cette situation, les variables de la famille pourraient être initialisées dans le nouveau fichier au moyen d’une valeur « sans objet » standard.

Sommaire

La disponibilité des fichiers de microdonnées du recensement et de l’ENM sous la forme de la Base de données de diffusion du Programme du recensement, dans les CDR, ainsi que dans les fichiers à grande diffusion, donne aux chercheurs l’occasion d’effectuer des analyses approfondies sur divers sujets, comprenant souvent des petites populations et des niveaux géographiques fins. Le présent article a présenté les renseignements de base dont ont besoin les chercheurs afin de comprendre et d’utiliser les variables relatives à la famille dans leur analyse. Plusieurs exemples précis ont démontré comment les variables peuvent être créées à partir de différents niveaux de données, c’est-à-dire la personne, la famille ou le ménage. L’article renfermait également une analyse des variables démographiques et relatives aux familles, certaines des caractéristiques techniques telles que la structure et l’organisation des fichiers de données ainsi que l’utilisation de poids et de variables identifiantes.

Cet article est donc un complément d’information utile à la documentation technique fournie avec le fichier de microdonnées du Recensement de 2011 et des recensements précédents. Il peut être utile aux chercheurs souhaitant élargir leur analyse d’autres sujets du recensement, par exemple en étudiant la situation sur le marché du travail et les revenus au niveau de la famille, et non seulement au niveau de la personne. L’information qui s’applique au recensement peut également s’appliquer à divers degrés à d’autres enquêtes de Statistique Canada qui comportent des données sur les familles de recensement et les familles économiques.

Références

Bohnert, Nora, Anne Milan et Heather Lathe. 2014. « Une diversité qui perdure : le mode de vie des enfants au Canada selon les recensements des 100 dernières années », Documents démographiques, n^o 11, n^o 91-0015 au catalogue de Statistique Canada.

Peller, Peter. 2012. « Le FMGD hiérarchique du Recensement du Canada 2006 », Bulletin de l’IDD, Statistique Canada, volume 13, n^o 1.

Roberts, Georgia. 2012. « Analyser les microdonnées du recensement dans un CDR : quelle pondération utiliser? », Le Bulletin technique et d'information des Centres de données de recherche, volume 5, n^o 1, n^o 12-002-X au catalogue de Statistique Canada.

Statistique Canada. 2015. Rapport technique sur l'échantillonnage et la pondération, Enquête nationale auprès des ménages (ENM) de 2011, n^o 99-002-X2011001 au catalogue.

Statistique Canada. 2012. Dictionnaire du recensement, Recensement de 2011, n^o 98-301-XIE au catalogue.

Statistique Canada. 2012. Guide de référence pour les familles, Recensement de 2011, n^o 98-312-XWF2011005 au catalogue.

United Nations. 2015. Principles and Recommendations for Population and Housing Censuses, Revision 3, New York.

Annexe : Liste des variables démographiques et relatives aux familles

Le tableau A1 montre les variables de 2011 qui ont un certain contenu démographique ou familial. Les manuels des codes qui accompagnent les fichiers des CDR et les FMGD renferment les descriptions complètes des variables et les catégories de variables. Pour la Base de données de diffusion, cette information est disponible dans E-dict.

Les variables commençant par « CF » s’appliquent au concept de la famille du recensement, et les variables commençant par « EF » s’appliquent au concept de la famille économique.

Les variables indiquées par un astérisque « * » sont également disponibles dans le FMGD des personnes de l’ENM de 2011, mais les noms peuvent être différents. Par exemple, CFCNT_PP s’appelle CFSIZE dans le FMGD et EFCNT_PP s’appelle EFSIZE. Les catégories ne sont peut-être pas identiques dans le FMGD, parce qu’elles ont été regroupées pour montrer moins de détails pour des motifs de confidentialité, ou l’information de deux variables a été combinée pour les mêmes motifs (par exemple, les variables CFKID1 et CFKIDLT1 sont fournies comme variable unique PKID0_1 dans le FMGD).

Le FMGD hiérarchique de 2011 contient les mêmes variables démographiques que le FMGD sur les particuliers (groupes d’âge, sexe et état matrimonial), mais moins de groupes d’âge distincts. Ce fichier présente une sélection légèrement différente de variables liées à la famille : CF_RP, EF_RP, CFSTATSIMPLE et CFSTRUCTSIMPLE. Cependant, en raison de la présence d’identificateurs (HH_ID, PP_ID, CF_ID et EF_ID), il est possible de déterminer indirectement beaucoup plus d’information sur les familles et les ménages à partir du FMGD hiérarchique que du FMGD sur les particuliers, tel qu’expliqué à la section 2.

Tableau A1
Les variables démographiques et relatives aux familles, Recensement de 2011 et ENM de 2011
Sommaire du tableau
Le tableau montre les résultats de Les variables démographiques et relatives aux familles. Les données sont présentées selon Niveau (titres de rangée) et Desciption abrégée, Noms des variables et Bla 2(figurant comme en-tête de colonne).
Niveau	Desciption abrégée	Noms des variables
Niveau de la personne	Variables démographiques sur l’âge, le sexe et la date de naissance	AGE	DAYB
		AGECONT	MTHBD
		AGEGR5 ^Note *	BRTHYR
		SEX ^Note *
	État matrimonial (légal et de fait)	MARST	COMLAW
	État matrimonial (légal et de fait)	MARSTH ^Note *	HWCLPR
	Lien avec la Personne 1 du ménage	R2P1
	Personne repère (permet la sélection d’une personne par famille)	CF_RP	EF_RP
	Situation de la personne dans la famille et dans le ménage	CFAMST CFAMSTDET CFAMSTSIMPLE	CFSTAT CFSTATSIMPLE ^Note *
	Situation de la personne dans la famille et dans le ménage	EFAMST EFAMSTSIMPLE EFAMST06
	Taille de la famille (1 pour les personnes hors famille)	CFCNT_PP ou CFSIZE ^Note *	EFCNT_PP ou EFSIZE ^Note *
	Nombre d’enfants de la personne, selon l’âge, et enfant le plus jeune	PRESCH0T18	PRESCHNUM
		PRESCHAGEMINGR	PRESCHSET7A
		PRESCHILD
Niveau de la famille : famille de recensement (CF) ou famille économique (EF)	Structure familiale (ou type de famille)	CFSTRUCT CFSTRUCTSIMPLE	EFSTRUCT EFSTRUCTSIMP
	Nombre d’enfants dans la famille, selon l’âge, et enfant le plus jeune	CFKID0T14	CFKID2T5 ^Note *
		CFKID0T18	CFKID5T9
		CFKID0T4	CFKID6T14 ^Note *
		CFKID0T5	CFKIDAGEMINGR
		CFKID1 ^Note *	CFKIDGE25 ^Note *
		CFKID10T14	CFKIDLT1 ^Note *
		CFKID15T17	CFKIDNUM
		CFKID15T24 ^Note *	CFKIDS
		CFKID18T24	CFKIDSET7A
		CFKID2
	Caractéristiques du premier ou du deuxième conjoint/partenaire ou parent dans la famille	CFAGE1STPRSN	CFSEX2NDPRSN
		CFAGE2NDPRSN	EFAGE1STPRSN
		CFMAR1STPRSN	EFAGE2NDPRSN
		CFMAR2NDPRSN	EFSEX1STPRSN
		CFSEX1STPRSN	EFSEX2NDPRSN
Niveau du ménage	Nombre de générations et type de génération du milieu	FAMGENSTAT	FAMMIDSTAT
Niveau du ménage	Nombre de membres du ménage appartenant ou pas à une famille	CFHH	CFNM
Note * Désigne les variables disponibles dans le FMGD sur les particuliers de l’ENM de 2011. Le fichier des personnes de 2011 inclut des variables liées à la taille du ménage (HHSIZE, appelée NUNITS dans le fichier des CDR) et le genre de ménage (HHTYPE); par contre il n’inclut pas CFSTRUCTSIMPLE. Retour à la référence de note *

Notes

Note de bas de page 1.

Le Dictionnaire du recensement de chaque recensement et le Guide de référence pour les familles de 2006 et 2011 abordent les détails au sujet de la comparabilité des données avec les données antérieures, des changements conceptuels et de la qualité des données d’une année de référence donnée.

Retour à la référence de note 1

Note de bas de page 2.

Les fichiers de microdonnées à grande diffusion sont également appelés FMGD ou fichiers à grande diffusion.

Retour à la référence de note 2

Note de bas de page 3.

Les termes « personne » et « particulier » sont employés de façon interchangeable pour désigner l’unité de mesure dans un fichier de données. Toutefois, dans la plupart des cas, le terme « personne » sera retenu, sauf pour désigner les FMGD sur les particuliers.

Retour à la référence de note 3

Note de bas de page 4.

Malgré l’absence de restrictions selon l’âge relatives aux enfants dans les concepts génériques de familles de recensement et de familles économiques à Statistique Canada, les chercheurs ajoutent fréquemment une limite d’âge afin d’orienter l’analyse vers les familles constituées d’enfants sous un certain âge (par exemple, les familles ayant au moins un enfant de moins de deux ans, six ans, 18 ans ou 25 ans). Il y a des variables dans le recensement et l’ENM qui indiquent si une famille de recensement comprend au moins un enfant dans ces limites d’âge.

Retour à la référence de note 4

Note de bas de page 5.

À l’exception des données sur les logements inoccupés qui sont uniquement sur la Base de données de diffusion. Les données pour les ménages sont équivalentes aux données pour les logements occupés.

Retour à la référence de note 5

Note de bas de page 6.

Voir le Programme des Centres de données de recherche (CDR) (www.statcan.gc.ca/fra/cdr/index) pour plus d’information.

Retour à la référence de note 6

Note de bas de page 7.

Pour en savoir plus au sujet des fichiers hiérarchiques qui ont été « rectangularisés » en fichier bidemensionnel, consulter Peller (2012).

Retour à la référence de note 7

Note de bas de page 8.

Voir l’Initiative de démocratisation des données (IDD) (www.statcan.gc.ca/fra/idd/idd) pour plus d’information. Voir également le Programme des Centres de données de recherche (CDR) (www.statcan.gc.ca/fra/cdr/index) pour plus de renseignements à propos des différences entre des fichiers publics à grande diffusion non confidentiels et les fichiers confidentiels des CDR.

Retour à la référence de note 8

Note de bas de page 9.

Dans le présent article, tous les noms des variables apparaissent en majuscules par souci de simplicité.

Retour à la référence de note 9

Note de bas de page 10.

Dans le recensement et l’ENM, les données sur les personnes sont appariées dans le cadre d’un processus de « constitution des familles » en fonction des règles de probabilité, où deux conjoints mariés ou deux partenaires en union libre sont appariés pour former un couple, et les couples ou les parents seuls sont appariés avec leurs enfants pour former des familles de recensement ayant des enfants. L’ordre de déclaration des membres du ménage sur le questionnaire est parfois pris en compte pour aider à résoudre les situations complexes ou ambigües. Les variables de la famille de recensement sont alors déterminées indirectement, et elles sont utilisées pour le calcul indirect des variables de la famille économique.

Retour à la référence de note 10

Note de bas de page 11.

Désigne la date de diffusion du 19 septembre 2012.

Retour à la référence de note 11

Note de bas de page 12.

PERSNO, C_FAM et E_FAM existent dans les fichiers des CDR et la Base de données de diffusion pour tous les recensements depuis 1981. C_FAM et E_FAM peuvent avoir les extensions « PP », « CF » ou « EF », mais les valeurs demeurent les mêmes. Les identifiants PPNUM, HHNUM, CFNUM et EFNUM peuvent encore exister sur les fichiers des recensements plus récents, où il est possible de les utiliser en conjonction avec l’identifiant géographique PRCDDA, mais ils ne sont pas nécessaires en présence des autres identifiants.

Retour à la référence de note 12

Note de bas de page 13.

Les logements collectifs ont été exclu dès 1971 pour les caractéristiques du logement. En 2011, les gens vivant dans tous les types de logements collectifs comme « lieu habituel de résidence » composaient environ 2 % de la population totale.

Retour à la référence de note 13

Note de bas de page 14.

Les employés de Statistique Canada qui utilisent la Base de données de diffusion vont remarquer que les ménages privés à l’extérieur du Canada, tels que définis dans les descriptions de la population cible du recensement, constituent aussi une petite partie de la population totale — soit 0,02 % en 2011. Le recensement les inclut dans des totalisations de la population totale ou de la population excluant les pensionnaires d’établissements institutionnels (et ils sont associés à des emplacements géographiques au Canada d’après l’information qu’ils fournissent); toutefois, depuis 1976, ils sont exclus de l’univers des « ménages privés ».

Retour à la référence de note 14

Note de bas de page 15.

Dans les fichiers de données intégrales de la Base de données de diffusion, la variable IRIND sert à sélectionner la population non institutionnelle.

Retour à la référence de note 15

Note de bas de page 16.

Pour les années de recensement 1996, 2001 et 2006, seules les données-échantillons sur les familles étaient disponibles dans le recensement. Les tableaux publiés sur les familles ont tous été produits en fonction des données-échantillon pour ces années.

Retour à la référence de note 16

Note de bas de page 17.

Pour les recensements avant 1996, plusieurs autres informations sont nécessaires au sujet de l’application de poids afin de reproduire les comptes publiés des familles ou des ménages. Les explications pour 1991 se trouvent dans Roberts (2012).

Retour à la référence de note 17

Note de bas de page 18.

Des exemples et des explications de ces différences sont accessibles en ligne dans le Rapport technique sur l'échantillonnage et la pondération (Statistique Canada, 2015). Des rapports semblables existent pour les recensements précédents également.

Retour à la référence de note 18

Note de bas de page 19.

Il n’y a qu’un seul cas où COMPW1 n’équivaut pas à COMPW2, et il n’y a pas d’incidence sur l’univers des ménages privés; par conséquent, il n’y a pas d’incidence sur l’analyse des caractéristiques des familles ou des logements. En bref, COMPW1 a été établi à « manquant » pour certains logements collectifs en 2006, dans le fichier des CDR seulement, puisqu’il y avait un problème de classification de certaines résidences pour personnes âgées. Par conséquent, il faut utiliser le poids des personnes, COMPW2, pour pondérer la population excluant les pensionnaires d’établissements institutionnels en 2006.

Retour à la référence de note 19

Date de modification :: 2016-12-22

Sélection de la langue

Recherche et menus

Recherche

Information archivée dans le Web

Résumé

Introduction

1. Concepts liés à l’analyse de la famille

1.1 Analyse multiniveau

1.2 Concepts de famille de recensement et de famille économique

ENCADRÉ 1 : Les données sur les familles au fil du temps – aide-mémoire

2. Comparaison entre la Base de données de diffusion de Statistique Canada, les fichiers de microdonnées des centres de données de recherche et les fichiers de microdonnées à grande diffusion

2.1 Fichiers de microdonnées complètes

2.2 Fichiers de microdonnées à grande diffusion

3. Variables pour l’analyse des familles dans le recensement et l’ENM

3.1 Variables relatives à la famille et traitement

3.2 Variables identifiantes

4. Exemples d’analyse multiniveau

4.1 Exemples d’extractions uniniveau

4.2 Exemples d’extractions multiniveau

4.3 Sélection d’une personne par famille ou par ménage

5. Autres aspects techniques des microdonnées du recensement et de l’ENM

5.1 Sélection de la population pour l’analyse de la famille (« l’univers »)

5.2 Application de poids aux fichiers de microdonnées de l’échantillon

5.3 Manipulation des données multiniveau au moyen des variables identifiantes

Sommaire

Références

Annexe : Liste des variables démographiques et relatives aux familles

Information archivée dans le Web

Résumé

Introduction

1. Concepts liés à l’analyse de la famille

1.1 Analyse multiniveau

1.2 Concepts de famille de recensement et de famille économique

2. Comparaison entre la Base de données de diffusion de Statistique Canada, les fichiers de microdonnées des centres de données de recherche et les fichiers de microdonnées à grande diffusion

2.1 Fichiers de microdonnées complètes

2.2 Fichiers de microdonnées à grande diffusion

3. Variables pour l’analyse des familles dans le recensement et l’ENM

3.1 Variables relatives à la famille et traitement

3.2 Variables identifiantes

4. Exemples d’analyse multiniveau

4.1 Exemples d’extractions uniniveau

4.2 Exemples d’extractions multiniveau

4.3 Sélection d’une personne par famille ou par ménage

5. Autres aspects techniques des microdonnées du recensement et de l’ENM

5.1 Sélection de la population pour l’analyse de la famille (« l’univers »)

5.2 Application de poids aux fichiers de microdonnées de l’échantillon

5.3 Manipulation des données multiniveau au moyen des variables identifiantes

Sommaire

Références

Annexe : Liste des variables démographiques et relatives aux familles

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur