Méthodologie1

Objectif et contenu du modèle de projections par microsimulation Demosim
Fonctionnement général du modèle
Probabilités associées aux événements simulés

Objectif et contenu du modèle de projections par microsimulation Demosim

Les projections démographiques que contient ce rapport ont été produites avec Demosim, un modèle de microsimulation développé à Statistique Canada avec l'objectif spécifique d'effectuer des projections de la diversité ethnoculturelle de l'ensemble de la population du Canada selon une structure géographique détaillée qui comprend les trente-trois régions métropolitaines de recensement (RMR) du pays et le reste des provinces et territoires. Les choix qui ont été effectués quant à la base de données qui sert de population de départ, aux variables que contient le modèle et aux méthodes, modèles et sources de données qui sous-tendent les projections découlent dans une très large mesure de cet objectif.

Le point de départ des projections est constitué du fichier de microdonnées de l'échantillon 20 % du recensement de la population du Canada de 20062. Cette base de données, qui comprend près de sept millions de personnes avec leurs caractéristiques, a été l'objet d'ajustements pour tenir compte du sous-dénombrement net au recensement selon l'âge, le sexe et le lieu de résidence. Ces ajustements ont été effectués en recalculant les poids de sondage associés à chaque individu de la base de données. Par ailleurs, certaines variables d'intérêt nécessaires à la projection mais absentes ou incomplètes au recensement ont été imputées dans la base de données, nommément les dates de graduation des individus, le statut des générations de la population de moins de 15 ans et la province ou le territoire de naissance pour une petite partie des répondants au Recensement de 2006.

Les variables que contient le fichier de départ peuvent se diviser en deux grands groupes. Le premier comprend des variables qui ont été projetées en vue d'une éventuelle diffusion :

  • Âge
  • Sexe
  • Lieu de résidence
  • Confession religieuse (voir l'Encadré 1)
  • Groupe de minorités visibles
  • Statut d'immigrant
  • Statut des générations
  • Continent/région de naissance
  • Langue maternelle
  • Plus haut niveau de scolarité atteint
  • Participation au marché du travail3

Le second groupe comprend des variables dites de support, c'est-à-dire des variables qui ne font partie du modèle que parce qu'elles permettent d'accroître la qualité de la projection des variables du premier groupe. Il s'agit la plupart du temps de variables qui sont utilisées pour prédire les événements simulés par le modèle. Ce sont les suivantes :

  • État matrimonial4
  • Province ou territoire de naissance des non-immigrants
  • Année d'immigration
  • Âge à l'immigration
  • Identité autochtone
  • Statut d'Indien inscrit
  • Nombre ou présence d'enfants au foyer
  • Âge du plus jeune enfant au foyer
  • Sexe du plus jeune enfant au foyer
  • Date d'obtention des diplômes

Encadré 1. Les projections de la confession religieuse

La question sur la confession religieuse n'a pas été posée lors du Recensement de 2006. Pour cela, et contrairement à toutes les autres variables, la confession religieuse a été projetée à partir des données du Recensement de 2001, puis alignée aux résultats de la série principale, laquelle part des données de 2006. L'alignement s'est fait par âge, lieu de résidence, groupe de minorités visibles et statut des générations. Le modèle utilisé pour projeter la religion à partir de 2001 est semblable au modèle principal, bien qu'il ait subi quelques adaptations de manière à tenir compte de la composition de l'immigration selon la confession religieuse puis des différences qui séparent les groupes religieux quant à leur propension à entrer en union, à faire partie d'unions libres, à donner naissance à des enfants et, dans une certaine mesure, à migrer. Il comprend également un module qui simule les changements de religion au cours de la vie.

Les sections 1 et 2 de ce document présentent les méthodes, hypothèses et scénarios de la série principale de projection, laquelle utilise 2006 comme point de départ et ne comprend pas la religion. On y mentionne parfois que la confession religieuse est prise en considération pour la modélisation de tel ou tel événement, mais le lecteur doit demeurer conscient qu'en de tels cas, c'est uniquement dans les modèles utilisés pour projeter la religion à partir des données de 2001, modèles qui ont donc été spécialement adaptés à la projection de la religion.

Fonctionnement général du modèle

Comme tout modèle de projections démographiques, Demosim fait progresser la population de départ au fil du temps en y ajoutant des naissances et des immigrants, puis en y retranchant les personnes qui décèdent et les émigrants. De plus, comme dans les modèles  « classiques  », le nombre futur de naissances, de décès, d'immigrants et d'émigrants résulte d'hypothèses qu'il est possible de modifier et de combiner en divers scénarios.

Toutefois, en ce qu'il procède sur la base de microdonnées, le fonctionnement de Demosim diffère grandement de celui des modèles basés sur des données agrégées5. Si, comme dans les modèles de projection  « classiques  », la méthode vise à obtenir une estimation de la population du Canada à une date de référence future, elle l'obtient cependant en simulant un à un le destin de chacun des individus présents dans le fichier de départ. Ces individus sont donc susceptibles de  « vivre  », en cours de projection, plusieurs événements dont les principaux sont les suivants : anniversaire, naissance d'un enfant, décès, migration d'une région à l'autre du pays, émigration, changement de niveau de scolarité, changement d'état matrimonial, changement de statut d'activité et changement de confession religieuse (voir l'Encadré 1). Au moyen d'un processus de Monte Carlo et des probabilités associées à chaque événement, le modèle calcule pour chaque personne, en fonction de ses caractéristiques propres, les probabilités qu'elle vive ces événements de même que le temps qui doit s'écouler avant que ceux-ci ne surviennent (temps d'attente). L'événement dont le temps d'attente est le plus court est celui qui surviendra en premier. Après chaque événement, les probabilités et temps d'attente sont recalculés afin de tenir compte de la nouvelle situation individuelle. Le modèle fait ainsi progresser les individus jusqu'à la fin de la période de projection, à moins que ceux-ci ne décèdent ou n'émigrent entre-temps. De nouveaux individus sont également ajoutés au cours du temps par naissance et par immigration, suite à quoi ils sont soumis, comme le reste de la population, aux probabilités de vivre les événements que simule Demosim.

Ajoutons que le fonctionnement de Demosim est assuré par Modgen, un langage de programmation conçu spécialement par la Division de la modélisation de Statistique Canada pour faciliter le développement de modèles de microsimulation. Modgen a servi à l'élaboration de divers modèles de microsimulation, notamment LifePaths et Pohem6.

Probabilités associées aux événements simulés 

Demosim ne pourrait pas non plus fonctionner si n'avaient été établies au préalable les diverses probabilités associées à chacun des événements qu'il simule. Les méthodes utilisées et les variables retenues pour le calcul des paramètres du modèle ont été déterminées en fonction de la disponibilité des données et des objectifs des différents modules du modèle. Le reste de la présente section vise à décrire brièvement le fonctionnement des principaux modules7 de Demosim, résumés au Tableau 1.

Tableau 1 Principales méthodes, sources de données et variables considérées dans le calcul des paramètres de Demosim

Le module de fécondité a été conçu afin de tenir compte notamment des différences de fécondité souvent citées dans la littérature entre les groupes de minorités visibles, les groupes religieux, les groupes d'immigrants et d'autres catégories de population8. Basé sur les données du Recensement de 2006, auxquelles on a appliqué la méthode du décompte des enfants au foyer9, ce module a été constitué en deux étapes principales. Dans un premier temps, un risque de base de donner naissance à un enfant a été dérivé de taux de fécondité selon l'âge, le nombre d'enfants et l'identité autochtone. Ces taux de base ont été alignés selon l'âge aux données de l'état civil pour les années 2006 et 2007 puis, pour les années subséquentes, projetés de manière à ce qu'ils permettent l'atteinte de cibles quant à l'ampleur et à la structure par âge de la fécondité (voir la section sur les hypothèses et scénarios). Dans un deuxième temps, des risques relatifs, calculés au moyen de régressions logistiques de type log-log effectuées sur la même base de données et stratifiées selon l'âge, le nombre d'enfants et l'identité autochtone, ont été appliqués aux risques de base de manière à accroître ou à décroître la probabilité de donner naissance selon un certain nombre de variables pertinentes. Pour les non-Autochtones, les variables retenues dans les modèles sont l'âge, l'état matrimonial, le lieu de résidence, le lieu de naissance, la période d'immigration et le statut des générations, le groupe de minorités visibles, le plus haut niveau de scolarité, des variables d'interaction entre la scolarité et le groupe de minorités visibles et la confession religieuse (voir l'Encadré 1). Pour les Autochtones, ces variables sont l'âge, l'identité autochtone, le statut d'Indien inscrit, le lieu de résidence, l'état matrimonial et le plus haut niveau de scolarité atteint.

De façon générale, cette approche, qui distingue risques de base et risques relatifs, présente les deux avantages suivants : 1) elle permet la constitution de paramètres qui combinent la robustesse d'une source de données telle que l'état civil et la richesse en variables qu'offrent d'autres sources comme les enquêtes et 2) elle facilite la préparation d'hypothèses alternatives, lesquelles peuvent être obtenues en modifiant les risques de base seulement, les risques relatifs seulement ou les deux.

Lorsqu'une naissance survient en cours de simulation, un nouvel enregistrement s'ajoute à la base de données et doit se voir attribuer à la naissance une valeur pour chaque caractéristique projetée de manière à ce que les nouveaux enregistrements possèdent les attributs minimaux pour pouvoir être soumis aux probabilités de  « vivre  » les événements que prévoit le modèle. La plupart des caractéristiques des nouveau-nés sont assignées de manière déterministe: les enfants ont 0 an, sont hors union, n'ont pas de diplôme secondaire, sont nés dans la région de résidence de la mère, et ainsi de suite. L'attribution de la langue maternelle, du groupe de minorités visibles et du groupe d'identité autochtone se fait plutôt de manière probabiliste, au moyen de matrices de transition des caractéristiques de la mère à l'enfant calculées à l'aide des données du Recensement de 2006 auxquelles on a préalablement appliqué la méthode du décompte des enfants au foyer10. Ces matrices tiennent compte des variables suivantes : l'attribution de la langue maternelle à l'enfant est fonction de la langue maternelle de la mère, de son statut d'immigrante et de sa région de résidence; le groupe de minorités visibles de l'enfant dépend de celui de la mère et de son statut d'immigrante alors que l'identité autochtone est attribuée à l'enfant en considérant l'identité autochtone et le statut d'Indienne inscrite de la mère.

L'attribution d'un statut des générations aux nouveau-nés constitue un cas spécial dans la mesure où elle requiert la connaissance du statut d'immigrant du père lorsque la mère n'est pas elle-même immigrante ; en ce cas, l'enfant est de seconde génération si le père est immigrant et de troisième génération ou plus si le père n'est pas immigrant. Parce que les naissances ne sont liées qu'aux mères dans Demosim, l'information relative au statut d'immigrant du père a été  « enregistrée  » à même l'état matrimonial de la mère (qui indique si le conjoint a ou non le même statut d'immigrant, ou en d'autres termes, si l'union est mixte ou non), permettant ainsi d'assigner correctement et directement un statut des générations aux nouveau-nés à partir des seules caractéristiques de leur mère11.

Le développement du module de mortalité a été réalisé de manière à refléter le recul séculaire de la mortalité au Canada de même que les différences qui séparent, à cet égard, les divers groupes de population pour lesquels la projection est effectuée12. La méthode utilisée pour ce faire comporte, comme pour la fécondité, deux étapes. Dans une première étape, un risque de base de décéder a été calculé selon l'âge et le sexe sur la base de taux de mortalité projetés au moyen d'une variante du modèle Lee-Carter appliqué aux données de l'état civil canadien de 1981 à 200613. Dans une seconde étape, des risques relatifs de décéder selon le lieu de résidence, le statut d'immigrant et la période d'immigration, le groupe de minorités visibles, l'identité autochtone, le plus haut niveau de scolarité atteint, l'âge et le sexe ont été obtenus d'un modèle de régression à risques proportionnels stratifié selon l'âge appliqué à une base de données longitudinales de suivi de la mortalité14. Ces risques relatifs servent à augmenter ou diminuer, selon le cas, les risques de base qui proviennent des taux projetés selon l'âge et le sexe.

Le fonctionnement du module d'immigration, central pour la composition ethnoculturelle future de la population, suppose, dans un premier temps, qu'un nombre de nouveaux arrivants soit déterminé pour chacune des années de la période de projection. Ce nombre, fixé extérieurement au modèle, peut être modifié afin de constituer des hypothèses alternatives quant à l'ampleur de l'immigration. Dans un second temps, chacun des nouveaux immigrants se voit attribuer une valeur pour chacune des caractéristiques projetées, ce qui est fait au moyen d'une méthode d'imputation par donneurs. Les donneurs sont sélectionnés dans la base de microdonnées du Recensement de 2006 parmi les personnes qui ont déclaré avoir immigré récemment au Canada. Lors de la sélection des donneurs, le modèle est contraint à respecter une distribution des immigrants selon le pays de naissance, laquelle est produite sur la base des données de Citoyenneté et Immigration Canada (voir la section sur les hypothèses et les scénarios)15. La composition de l'immigration peut ainsi être, elle aussi, l'objet d'hypothèses alternatives.

Le module d'émigration a été développé sur le même principe que les modules de fécondité et de mortalité - c'est-à-dire en distinguant des risques de base et des risques relatifs - en tenant compte notamment de la plus forte propension à émigrer des immigrants, spécialement lors des premières années suivant leur arrivée au pays16. Les risques de base ont été dérivés de quotients d'émigration nette17 par âge et sexe calculés au moyen des estimations démographiques annuelles de Statistique Canada. Ceux-ci sont par la suite augmentés ou diminués au moyen des résultats d'une régression à risques proportionnels qui, effectuée sur la base de Données administratives longitudinales18, estime la probabilité d'émigrer selon le lieu de résidence, l'âge, le fait d'être un immigrant récent (établi depuis 15 ans ou moins), puis, pour ces derniers, le lieu de naissance et le temps écoulé depuis l'immigration au Canada.

Le module de migration interne assure la projection des changements de résidence entre les 47 régions du modèle en tenant compte des diverses caractéristiques des migrants interrégionaux que sont l'âge, l'état matrimonial, la présence d'enfants, l'âge du plus jeune enfant, le lieu de naissance, le temps écoulé depuis l'immigration, le groupe de minorités visibles, l'identité autochtone, la langue maternelle, le plus haut niveau de scolarité atteint, le statut des générations et la religion. Il tire profit des recensements de population du Canada, ceux-ci comprenant, outre les variables d'intérêt, des renseignements sur la mobilité géographique des individus. Sur cette base, des probabilités de quitter chacune des 47 régions ont d'abord été calculées au moyen de modèles de régression logistique de type log-log comprenant un nombre de variables adapté aux spécificités des régions pour lesquelles ils ont été estimés. Des matrices origine-destination, qui tiennent compte de l'âge, du lieu de naissance, du temps écoulé depuis l'immigration, du groupe de minorités visibles, de la langue maternelle et de l'identité autochtone servent par la suite à répartir les migrants parmi les 46 autres régions. Cette méthode permet elle aussi de constituer des hypothèses alternatives, en estimant les modèles et matrices pour des périodes différentes.

La projection de la confession religieuse (voir l'Encadré 1) a nécessité l'ajout d'un module de mobilité religieuse, et ce, afin de ne pas sous-estimer le nombre futur de personnes déclarant n'avoir pas de religion, ce groupe s'étant alimenté au fil du temps de la mobilité d'individus qui ont quitté leur religion pour déclarer ne plus en avoir par la suite19. Ce module a été constitué de manière similaire au module de mobilité géographique. D'abord, des probabilités d'effectuer une migration interconfessionnelle, des  « taux de sortie  » en quelque sorte, ont été établis selon l'âge et le sexe pour chacun des principaux groupes religieux en combinant de l'information tirée de l'Enquête sur la diversité ethnique de 2002 (EDS) et une analyse par cohorte des recensements de 1981, 1991 et de 200120. Les  « migrants  » sont par la suite distribués parmi les autres confessions religieuses au moyen de matrices origine-destination selon le sexe tirées de l'Enquête sur la diversité ethnique21.

Demosim comprend aussi deux modules socioéconomiques, l'un modélisant les changements de niveau de scolarité, l'autre la participation au marché du travail. Les résultats relatifs à ces modules ne sont pas présentés ici puisqu'ils dépassent le cadre fixé pour la présente analyse. Le module de scolarité est constitué de probabilités de graduer qui visent à tenir compte des différences à cet égard entre les groupes ethnoculturels projetés. Elles ont été établies de la manière suivante. Dans un premier temps, des probabilités de graduer selon la cohorte d'âge, le sexe et le lieu de naissance ont été estimées avec des modèles de régressions logistiques appliqués aux données de l'Enquête sociale générale de 2001. Ces probabilités ont ensuite été projetées jusqu'en 2006 avant d'être calibrées de manière à ce qu'elles permettent de reproduire exactement les distributions de la population selon le niveau de scolarité, l'âge, le sexe, le lieu de naissance, le groupe de minorités visibles et le groupe autochtone au Recensement de 200622.

La participation au marché du travail est simulée en imputant annuellement à chacun des individus un statut d'activité. Les taux de participation qui servent de base à l'imputation ont été constitués en deux étapes. Dans la première, des taux de participation selon l'âge, le sexe, le plus haut niveau de scolarité et la province de résidence ont été établis en tirant parti des données annuelles de l'Enquête sur la population active. Des ratios provenant de l'information sur l'activité que contient le Recensement de 2006 servent, dans une deuxième étape, à accroître ou diminuer, pour chaque combinaison d'âge, de sexe et de niveau de scolarité, la participation au marché du travail de la population selon le groupe de minorités visibles, le statut d'immigrant et la période d'immigration.

Demosim comprend aussi d'autres modules dont l'objectif principal est de mettre à jour, en cours de projection, des variables dont sont fonction les autres événements du modèle. Parmi eux, le module d'état matrimonial occupe une place à part en ce qu'il améliore de façon notable la projection des naissances, notamment. Celui-ci fonctionne en attribuant - en d'autres termes, en imputant - annuellement à chaque individu un état matrimonial à partir des résultats de modèles de régressions logistiques estimés sur la base du Recensement de 2006. Stratifiés selon le sexe et l'identité autochtone, ces modèles estiment la probabilité d'être en union puis, parmi les personnes en union, la probabilité d'être marié (par opposition à être en union libre) et ce, en tenant compte de l'âge, du lieu de résidence, du groupe de minorités visibles, de la langue maternelle, de la présence d'enfants au foyer, de l'âge du plus jeune enfant, du statut des générations, de la scolarité, du statut d'Indien inscrit et de la confession religieuse. Le caractère mixte ou non des unions des femmes (c'est-à-dire le fait pour elles d'être ou non en union avec un conjoint ayant un statut d'immigrant ou un statut d'Indien inscrit différent) est ensuite modélisé au moyen de régressions logistiques afin de permettre l'attribution d'un statut des générations et d'un statut d'Indien inscrit aux enfants qui naissent en cours de simulation. Des paramètres de tendance ont également été ajoutés au modèle afin de tenir compte, notamment, de la progression de l'union libre au sein de la population canadienne.

Un module permettant la projection du départ des enfants du foyer parental a également été développé afin de mettre à jour le nombre d'enfants au foyer, une variable intermédiaire importante pour le module de migration interne. Ce module est essentiellement constitué des résultats de deux modèles de régression à risques proportionnels (l'un pour les hommes, l'autre pour les femmes) estimés à l'aide des données de l'Enquête sociale générale de 2006. L'âge, le sexe, le statut de minorités visibles et le lieu de naissance de l'enfant de même que le lieu de naissance du père ou de la mère ont servi de variables indépendantes dans ces modèles.


Notes

  1. Cette section s'appuie, bien entendu, sur la documentation existante du modèle dont elle constitue à la fois une mise à jour et un prolongement. Le lecteur intéressé à une description plus détaillée de la méthodologie de Demosim est invité à consulter le Rapport méthodologique de Demosim (à paraître sur le site web de Statistique Canada).
  2. Sauf pour la confession religieuse, laquelle est projetée séparément à partir du Recensement de 2001. Voir l'Encadré 1 pour plus de renseignements à ce propos.
  3. Bien qu'ils fassent partie du modèle de simulation, les résultats relatifs à la participation au marché du travail, tout comme ceux touchant le plus haut niveau de scolarité, ne sont pas présentés ici puisqu'ils dépassent le cadre de la présente analyse.
  4. Incluant le caractère mixte ou non de l'union. Deux types d'unions mixtes sont possibles : avec un partenaire dont le statut d'immigrant est différent et/ou avec un partenaire dont le statut d'Indien inscrit est différent. Cette information sert à l'attribution aux nouveau-nés du statut des générations et du statut d'Indien inscrit.
  5. Voir Evert Van Imhoff (1997) pour une discussion des particularités des modèles de projections démographiques par microsimulation et Bélanger et al. (2008) op.cit. pour une discussion de la version précédente du modèle.
  6. Davantage de renseignements sur Modgen peuvent être obtenus sur le site Internet de Statistique Canada à l'adresse suivante : www.statcan.gc.ca/microsimulation/modgen/modgen-fra.htm. Il est également possible de contacter la Division de la modélisation de Statistique Canada à microsimulation@statcan.gc.ca.
  7. Demosim compte un module par événement simulé.
  8. Voir à ce propos Bélanger et Gilbert (2003), McQuillan (2004), Ram (2004) et Caron Malenfant et Bélanger (2006)
  9. Il s'agit d'une méthode d'estimation indirecte de la fécondité qui considère les femmes vivant avec au moins un de leurs enfants de moins de un an au moment du recensement comme ayant donné naissance au cours de l'année précédente. Prière de se référer à Cho et autres (1986), Desplanques (1993) et Bélanger et Gilbert (2003) pour une description et une discussion de cette méthode.
  10. Il s'agit à la base de la même méthode que celle utilisée pour développer les paramètres de fécondité.
  11. Le module de transmission du statut d'Indien inscrit de la mère à l'enfant est basé en grande partie sur le même principe.
  12. Voir notamment Chen, Wilkins et Ng (1996) et Wilkins et al. (2008).
  13. Li, N. et R. Lee. (2005)
  14. Cette base résulte d'un jumelage du Recensement de 1991 et des données de l'état civil canadien de 1991 à 2001. Voir à ce propos Wilkins et al. (2008).
  15. Il est à noter que le modèle permet également l'ajout de résidents non permanents au fil du temps. Le module qui gère ces ajouts fonctionne de manière similaire au module d'immigration, c'est-à-dire en fixant un nombre annuel de nouveaux résidents non permanents puis en leur imputant des caractéristiques par donneurs, les donneurs étant en ce cas les résidents non permanents présents dans la population de base.
  16. Voir à ce sujet Aydemir et Robinson (2006) ainsi que Michalowski et Tran (2008).
  17. L'émigration nette correspond au nombre d'émigrants moins les émigrants de retour plus le solde des personnes temporairement à l'étranger.
  18. Cette base de données est constituée d'un échantillon longitudinal créé en appariant les données fiscales à la base de données longitudinale des immigrants.
  19. Le lecteur intéressé aux données sur la hausse du nombre de personnes qui se déclarent sans religion, ou plus généralement à l'évolution des effectifs des grandes confessions religieuses au Canada, est invité à consulter Statistique Canada (2003 (1)).
  20. L'Enquête sur la diversité ethnique (EDS) nous permet de comparer la religion du répondant à celle de sa mère alors que lui-même était âgé de moins de 15 ans. Les résultats provenant de l'EDS doivent donc être interprétés comme mesurant à la fois la mobilité intergénérationnelle (puisqu'on compare le répondant à sa mère) et la mobilité intragénérationnelle (puisque le changement de religion peut avoir eu lieu à un âge avancé). L'âge au moment du changement a été estimé au moyen d'une analyse par cohorte des données des recensements de 1981 à 2001, semblable à celle qu'utilise Guimond (1999) pour estimer la mobilité ethnique des Autochtones.
  21. Il est à noter que ce module n'est appliqué, dans le modèle, qu'aux populations non autochtones, les Autochtones ne faisant pas partie de la population cible de l'Enquête sur la diversité ethnique. En remplacement, les résultats d'une matrice de transmission de la religion de la mère à l'enfant calculée avec les données du Recensement de 2001 servent à attribuer, de manière probabiliste, une religion aux Autochtones qui naissent en cours de simulation.
  22. La modélisation de la scolarité dans Demosim est décrite dans Spielauer (2009).
Date de modification :