Selection d'états et navigation

Sélection d'états

Dès qu’une biographie soit crée, vous pouvez la modifier et l’améliorer en ajoutant des bandes d’affichage pour des états.  Ces bandes d’affichage peuvent représenter des états pour les acteurs qui ont été filtré (par exemple leur revenu).  Vous pouvez aussi ajouter des bandes d’affichage pour les acteur qui sont liés aux autres acteurs (par exemple leur conjoints) ainsi que les états pour ces acteurs liés (par exemple l’éducation des conjoints).

Les boutons suivants sont utilisés pour la sélection d’états et la navigation :

Images des icones de navigation

En ordre : Ajouter, Premier, Précédent, Suivant, Dernier

Pour ajouter des états, servez-vous du bouton Ajouter représenté ci-dessus : il est affiché à la droite de la zone du graphique.  Les états sont toujours ajoutés au bas de la zone du graphique quand ce bouton est utilisé.  Pour accéder à d’autres fonctions, faites afficher les menus incrustés sur la zone du graphique.  Ces menus permettent l’insertion et la suppression d’états à n’importe quel endroit.  Un état est inséré après la position où le curseur se trouvait lorsque vous avez cliqué le bouton de la souris.  L’état supprimé est celui sur lequel se trouve le curseur : aucune confirmation n’est nécessaire, sauf dans le cas de la suppression d’une bande d’acteur comportant des états subalternes figurant sous celle-ci.  En tel cas, le navigateur affiche un avertissement qui précise le nombre d’états qui seront supprimés et il offre la possibilité d’annuler la suppression.  On ne peut supprimer la bande de suivi de filtre.

Vous pouvez ajouter autant d’états, et autant de fois, que nécessaire, la seule limite étant imposée par votre écran.  Vous pouvez ajouter les états dans n’importe quel ordre, pourvu qu’ils respectent la hiérarchie des bandes d’état lié.  Sinon, le bouton Ajouter de la bande en question sera invalidé.  Les flèches indiquent la position dans la hiérarchie.

Vous pouvez faire appel à l’option Édition/Annuler dernier ajout pour supprimer plusieurs états en séquence, du bas vers le haut.  Pour rendre automatique la navigation des acteurs filtrés (la bande d’affichage supérieure), sélectionnez la commande Chronomètre du menu Outils .   Pour passer à un objet particulier de la bande filtre, sélectionnez la commande Atteindre du menu Explorer.  Pour enregistrer les sélections d’état et les positions courantes des bandes de navigation, utilisez la commande Fichier/Enregistrer.

On présente ci-dessous un exemple de la boîte de dialogue Ajouter/insérer des états correspondant au fichier exemple fourni avec le logiciel.  Dans ce cas, on a cliqué sur le bouton Ajouter de la bande de navigation supérieure, ce qui provoque l’affichage des états de l’acteur personne.  Utilisez la sélection étendue pour sélectionner/désélectionner plus qu’un état, c.‑à‑d. appuyez sur Ctrl et cliquez pour sélectionner/désélectionner des états, appuyez sur Shift et cliquez pour sélectionner une plage d’états.  Appuyez sur le bouton OK lorsque la sélection est terminée.

Dialog pour ajouter des etats a la biographie

Remarquez que dans notre exemple, la description de l’état de suivi précise la condition de suivi de cet acteur entrée dans la base de données au moment de la création de celle-ci.  Dans ce cet exemple, on ne fait le suivi des personnes non dominantes (conjoints) que lorsque l’état civil est “marié” ou “remarié”. 

Navigation

Pour naviguer, utilisez les boutons Premier, Précédent, Suivant et Dernier présenté ci-dessus, ou encore un menu incrusté affiché sur une bande de navigation.  Le menu incrusté comporte une commande supplémentaire, “Atteindre”.

La première bande de navigation fait toujours référence au suivi de filtre.  Si vous ajoutez un acteur lié, le navigateur crée une nouvelle bande de navigation.  Cette bande est différente de la bande supérieure à plusieurs points de vue.  Tout d’abord, à la différence de la bande de navigation supérieure qui précise l’état de suivi des acteurs filtrés, la bande de navigation pour les acteurs liés indique graphiquement le moment où l’acteur associé a été lié (et non suivi).  Pour visualiser l’état de suivi, ajoutez-le sous forme de bande d’affichage distincte.

Puis, dans le cas des états liés, vous pouvez naviguer au-delà du nombre maximal de l’ensemble d’objets courant figurant dans la bande.  Cette particularité s’avère utile lorsqu’on ajoute le même état lié plus d’une fois.  Par exemple, un acteur personne peut être lié à plusieurs acteurs enfant.  En effet, cet acteur peut avoir de 0 à 6 enfants.  Pour visualiser des états particuliers des deux premiers enfants dans la même fenêtre de biographie, ajoutez deux fois l’état lien à enfant puis placez les bandes de navigation aux positions 1 et 2.  Ces positions sont conservées lorsque vous passez d’une personne à l’autre.  Si l’acteur personne courant n’a pas d’enfant, ce type de navigation fonctionne même si les bandes précisent (1/0) et (2/0) et aucun état ne sera affiché.  Dans ce cas, le bouton Premier sert à passer 1/0, tandis que le bouton Dernier ne modifie pas la position.

Si vous disposez d’un petit écran à basse résolution, vous pouvez escamoter les bandes de navigation et vous servir des menus incrustés pour les déplacements (voir ci-dessous).

Illustration du menu pop-up pour la navigation

Dans le cas de la bande supérieure du filtre, il est possible d’utiliser le clavier pour naviguer. Le menu Filtre/Explorer présente une option Atteindre et les quatre mouvements offrant des équivalents facultatifs au moyen de la touche Ctrl : Ctrl+G pour Atteindre, Ctrl+Q pour Premier, Ctrl+W pour Précédent, Ctrl+E pour Suivant et Ctrl+R pour Dernier.

 

Date de modification :

Quand la microsimulation dynamique est-elle l'approche de simulation appropriée?

Chaque fois que nous étudions la dynamique d’un système constitué d’unités plus petites, la microsimulation est une approche possible — mais quand cela vaut‑il la peine de créer des milliers ou des millions de micro-unités? À la présente section, nous donnons trois réponses à cette question, la première axée sur l’hétérogénéité de la population, la deuxième, sur la difficulté d’agréger les relations comportementales et la troisième, sur les antécédents individuels.

Hétérogénéité de la population

La microsimulation est le mode de modélisation privilégié si les individus sont différents, si les différences importent et si le nombre de combinaisons possibles de caractéristiques prises en considération est trop grand pour diviser la population en un nombre pratique de groupes.

La théorie macroéconomique classique est en majeure partie fondée sur l’hypothèse que le secteur des ménages peut être représenté par un agent représentatif. L’hypothèse est que les individus sont identiques ou, dans le cas de modèles de générations chevauchantes, qu’ils ne se distinguent que par l’âge. (Chaque cohorte est représentée par un agent représentatif.) Cependant, cette approche n’est pas applicable si les distributions à un niveau plus fin de détail ont de l’importance. Imaginons que nous souhaitons étudier la viabilité et l’effet distributionnel du régime d’avantages fiscaux. S’il n’existe qu’un seul individu représentatif et que le régime d’avantages fiscaux est équilibré, cette personne moyenne recevra en avantages et en services ce qu’elle verse en impôts et en contributions au régime d’assurance sociale (certaines de ses heures de travail étant consacrées à l’administration du système). Pour modéliser les recettes fiscales, nous devons tenir compte de l’hétérogénéité de la population — si l’impôt sur le revenu est progressif, les recettes fiscales dépendent non seulement du revenu total, mais aussi de sa distribution. Quand nous concevons une réforme fiscale, nous visons habituellement à répartir les fardeaux différemment. Nous devons représenter l’hétérogénéité de la population dans le modèle pour déterminer quels seront les gagnants et les perdants de la réforme.

La microsimulation n’est pas le seul mode de modélisation privilégié pour traiter l’hétérogénéité. L’autre option consiste à grouper les personnes par combinaisons de caractéristiques pertinentes au lieu de les représenter individuellement. Nous utilisons pour cela des modèles à cellules. Une analogie directe existe entre les deux approches en ce qui concerne le stockage des données : un ensemble d’enregistrements individuels contre un tableau croisé dans lequel chaque cellule correspond à une combinaison de caractéristiques. Nous pouvons prendre comme exemple un recensement de population. Si nous nous intéressons uniquement à une ventilation selon l’âge et le sexe, nous pourrions procéder à un recensement en comptant les personnes présentant chaque combinaison de caractéristiques. Le recensement complet pourrait être présenté dans un seul tableau sauvegardé sous forme de tableur. Cependant, si nous voulons ajouter d’autres caractéristiques que l’âge et le sexe à notre description, le nombre de cellules du tableau augmentera exponentiellement, rendant l’approche de moins en moins pratique. Par exemple, 12 variables ou caractéristiques comportant chacune 6 niveaux nous obligeraient à grouper notre population dans plus de 2 milliards de cellules (6^12 = 2 176 782 336). Nous nous retrouverions rapidement avec un plus grand nombre de cellules que de personnes. En présence de variables continues (p. ex.le revenu), l’approche du groupement devient carrément impossible sans perte d’information, puisque nous devrions grouper des données (c.‑à‑d. définir des niveaux de revenu). La solution consiste à garder les caractéristiques de chaque personne dans un enregistrement individuel, qui correspond au questionnaire et, en dernière analyse, à une ligne dans une base de données.

Ces deux types de représentation des données (un tableau croisé par opposition à un ensemble d’enregistrements individuels) correspondent aux deux types de simulation dynamique. Dans les modèles à cellules, nous mettons à jour un tableau; dans les modèles de microsimulation, nous modifions les caractéristiques de chaque enregistrement (et créons un nouvel enregistrement à chaque événement de naissance). Dans le premier cas, nous devons trouver des formules pour représenter la façon dont l’occupation de chaque cellule évolue au cours du temps; dans le second, nous devons modéliser les changements individuels au cours du temps. Les deux approches ont pour but de modéliser les mêmes processus, mais à des niveaux différents. La modélisation au niveau macro pourrait nous épargner beaucoup de travail, mais elle n’est possible que sous des conditions contraignantes, puisque les relations comportementales individuelles proprement dites doivent être agrégées, ce qui n’est pas toujours possible. Sinon, aucune formule n’existera pour décrire comment l’occupation de chaque cellule évolue au cours du temps.

La comparaison de l’approche de microsimulation aux modèles à cellules facilite sa compréhension. Nous approfondissons ci‑après cette comparaison en prenant des projections démographiques comme exemple. Dans une approche fondée sur des cellules, si nous ne nous intéressons qu’à des taux de population selon l’âge, la mise à jour d’un tableau agrégé (une pyramide de population) ne requiert que quelques éléments d’information, à savoir les taux de fécondité par âge, les taux de mortalité par âge et la répartition de la population par âge à la période précédente. En l’absence de migration, la population d’âge x à la période t est la population survivante qui était d’âge x­1 à la période t­1. Pour une hypothèse donnée de mortalité, nous pouvons calculer directement la taille future prévue de la population d’âge x. Dans une approche de microsimulation, la survie correspond à une probabilité individuelle (ou à un taux, si nous faisons la modélisation en temps continu). L’hypothèse que 95 % d’un groupe d’âge seront encore en vie dans un an résulte en un processus stochastique au niveau micro — les individus peuvent être soit en vie soit décédés. Nous tirons un nombre aléatoire compris entre 0 et 1 — s’il est inférieur au seuil de 0,95, la personne simulée survit. Ce genre d’exercice porte le nom de simulation Monte Carlo. En raison de cet élément aléatoire, chaque expérience de simulation produit un résultat agrégé légèrement différent, qui converge vers la valeur prévue à mesure que nous augmentons la taille de la population simulée. Cette différence entre les résultats agrégés, appelée variation Monte Carlo, est un attribut type de la microsimulation.

Le problème de l'agrégation

La microsimulation est le choix de modélisation adéquat si les comportements sont complexes au niveau macro, mais qu’ils sont mieux compris au niveau micro.

De nombreux comportements sont plus faciles à modéliser au niveau micro, car c’est à ce niveau que sont prises les décisions et définies les règles fiscales. Très souvent, les comportements sont aussi plus stables au niveau micro auquel il n’existe aucune interférence des effets de composition. Même une stabilité totale au niveau micro ne correspond pas automatiquement à la stabilité au niveau macro. Par exemple, si l’on examine le niveau d’études, un des meilleurs prédicteurs des décisions en matière d’éducation est le niveau d’études des parents. Donc, si nous observons une expansion éducationnelle — par exemple une hausse du taux d’obtention d’un diplôme — au niveau de la population, celle‑ci n’est pas forcément due à un changement de comportement de niveau micro; elle peut tenir entièrement à l’évolution de la composition de la génération parentale.

Les règlements en matière d’impôts et de sécurité sociale relient les règles de manière non linéaire aux caractéristiques individuelles et familiales, ce qui empêche l’agrégation de leurs opérations. De nouveau, il n’existe aucune formule pour calculer directement l’effet d’une réforme ou la viabilité d’un système, même si l’on ignore les problèmes de distribution. Pour calculer les recettes fiscales totales, nous devons connaître la composition de la population selon le revenu (impôts progressifs), les caractéristiques familiales (enfants et conjoints à charge) et toutes les autres caractéristiques qui ont une incidence sur le calcul de la dette d’impôt individuelle. En recourant à la microsimulation, nous pouvons modéliser un tel système à n’importe quel niveau de détail au niveau micro, puis agréger les impôts, cotisations et avantages individuels.

Biographies individuelles

La microsimulation est le seul choix de modélisation si les biographies individuelles importent, c’est‑à‑dire si les processus possèdent une mémoire.

Le décrochage scolaire est influencé par les expériences antérieures de décrochage, la mortalité, par les antécédents d’usage du tabac, les pensions de vieillesse, par les antécédents de cotisation individuels, et le chômage, par les périodes antérieures de chômage et leur durée. Les processus auxquels s’intéressent les spécialistes des sciences sociales sont fréquemment de ce type, c’est‑à‑dire qu’ils ont une mémoire. Dans de tels processus, les événements survenus dans le passé peuvent exercer une influence directe sur ce qui se passera dans l’avenir, ce qui empêche l’utilisation de modèles à cellules, parce qu’une fois que les données d’une cellule sont saisies, toute l’information sur l’appartenance à des cellules antérieures est perdue. Dans de tels cas, la microsimulation devient la seule option de modélisation disponible.

Date de modification :

Points forts et inconvénients

Les points forts de la microsimulation se concrétisent en trois dimensions. La microsimulation est séduisante d’un point de vue théorique, car elle appuie la recherche novatrice intégrée dans les paradigmes de recherche contemporains tels que la perspective de la trajectoire de vie. (À cet égard, la microsimulation est l’étape logique qui vient après l’analyse de la trajectoire de vie.) Elle est également séduisante d’un point de vue pratique, car elle fournit des outils pour l’étude et la projection de phénomènes sociodémographiques et socioéconomiques dynamiques d’une grande importance dans le domaine de l’élaboration des politiques. Enfin, la microsimulation est séduisante du point de vue technique, puisqu’elle n’est pas restreinte en ce qui a trait au type de variable et de processus, comme cela est le cas des modèles à cellules.

Points forts de la microsimulation d'un point de vue théorique

Le changement social et démographique massif survenu au cours des dernières décennies est allé de pair avec de gigantesques progrès techniques. La capacité de produire de grandes quantités de données a stimulé la collecte de données et permis l’adoption de nouveaux plans de sondage et de nouvelles méthodes d’analyse des données. En sciences sociales, ces nouveaux développements ont été accompagnés d’un changement général de paradigme, nombre des nouvelles orientations allant dans le sens de la vision d’Orcutt. L’une d’elles est la transition générale du niveau macro au niveau micro, afin d’axer la recherche sur les individus dans leur contexte. Un autre changement a trait à l’importance accrue accordée aux processus plutôt qu’aux structures statiques, faisant ainsi intervenir les concepts de causalité et de temps. Bien que l’approche de la microsimulation soutienne ces deux nouveaux pôles de concentration, elle constitue l’outil principal d’une troisième tendance en recherche, à savoir l’évolution de l’analyse vers la synthèse (Willekens 1999). La microsimulation relie de multiples processus élémentaires afin d’engendrer une dynamique complexe et de quantifier la contribution d’un processus particulier au profil complexe d’évolution.

Ces tendances en sciences sociales se reflètent dans l’émergence du paradigme de la trajectoire de vie qui relie l’évolution sociale, la structure sociale et l’action individuelle (Giele et Elder 1998). Sa perspective pluridimensionnelle et dynamique se traduit dans la recherche longitudinale et dans la collecte de données longitudinales. Les vies individuelles sont décrites comme une multitude de trajectoires parallèles et interdépendantes, telles que poursuivre des études, travailler, former des unions et avoir des enfants. Les états de chaque trajectoire sont modifiés par des événements dont les données sur leur survenue sont recueillies dans des enquêtes et qui sont simulés respectivement dans des modèles de microsimulation. Divers points forts de l’approche de microsimulation correspondent directement aux concepts fondamentaux de la perspective de la trajectoire de vie, ce qui en fait l’approche logique pour l’étude et la projection des phénomènes sociaux.

La microsimulation convient bien pour simuler l’interaction des trajectoires, car elle permet de modéliser à la fois les processus qui ont une mémoire (c.‑à‑d. que les individus se souviennent des événements passés pour divers domaines de trajectoire) et les diverses trajectoires parallèles pour lesquelles les probabilités ou risques de survenue d’un événement d’une trajectoire particulière répondent aux changements d’état dans d’autres trajectoires.

En plus de reconnaître les interactions entre les trajectoires, la perspective de la trajectoire de vie met l’accent sur l’interaction entre les individus, à savoir le concept des vies liées. La microsimulation est un outil puissant pour étudier et projeter ces interactions. Elle peut inclure des changements dans les réseaux de parenté (Wachter 1995), des transferts intergénérationnels et la transmission de caractéristiques comme l’éducation  (Spielauer 2004) et la transmission de maladies comme le sida.

Dans la perspective de la trajectoire de vie, la situation et les décisions courantes d’une personne peuvent être considérées comme la conséquence d’expériences passées ou d’attentes futures, et comme une intégration de motifs individuels et de contraintes externes. De cette façon, l’agent humain et l’orientation des objectifs individuels font partie du cadre explicatif. L’un des principaux mécanismes grâce auxquels les individus relèvent les défis de la vie est la synchronisation des événements de la vie appartenant à des trajectoires parallèles, et souvent difficiles à concilier, comme travailler et élever des enfants. La microsimulation permet la modélisation des agents individuels, car toutes les décisions et tous les événements sont modélisés au niveau où ils ont lieu et les modèles peuvent tenir compte du contexte individuel. Outre ces avantages intrinsèques, la microsimulation n’impose aucune contrainte quant à la façon de modéliser les décisions; autrement dit, elle permet d’utiliser n’importe quel type de modèle de comportement qui peut être exprimé en code informatique.

Points forts de la microsimulation d'un point de vue pratique

La capacité de créer des modèles permettant de projeter les effets des politiques est l’élément central de la vision d’Orcutt. L’attrait de la microsimulation dynamique dans le domaine de l’élaboration des politiques est étroitement associé aux forces intrinsèques de cette approche. Elle permet de modéliser des politiques à n’importe quel niveau de détail, ainsi que d’aborder les questions distributionnelles et les problèmes de viabilité de long terme. Une partie de cette puissance est déjà exploitée dans les modèles de microsimulation statiques des avantages fiscaux, qui sont devenus un outil standard d’analyse des politiques dans la plupart des pays développés. Issus de l’intérêt croissant des décideurs pour l’étude des phénomènes distributionnels, ces modèles sont toutefois limités par nature aux études transversales. Bien que des projections limitées des avantages fiscaux dans l’avenir soient possibles au moyen de modèles de microsimulation statistiques par repondération des individus d’une population initiale en vue de représenter la population dans l’avenir (et en remettant à niveau le revenu et d’autres variables), cette approche est dépourvue de la dimension longitudinale, c’est‑à‑dire les trajectoires de vie individuelles (et les antécédents de cotisation), qui est simulée dans les modèles dynamiques. Le rôle important de la dynamique dans les applications des politiques a été principalement reconnu dans la conception et la modélisation des régimes de pension, qui sont fortement touchés par le vieillissement démographique. Les modèles de pensions sont aussi de bons exemples d’applications dans lesquelles les biographies individuelles (cotisations) et le concept des vies liées (pension de survivant) ont de l’importance. Un autre exemple est la planification des établissements de soins dont la demande est dictée par le vieillissement démographique ainsi que par l’évolution des réseaux de parenté et la participation au marché du travail (c.‑à‑d. les principaux facteurs affectant la disponibilité de soins non officiels).

Compte tenu du rythme rapide d’évolution sociale et démographique, la nécessité d’adopter une perspective longitudinale a été admise rapidement dans la plupart des autres domaines stratégiques qui bénéficient des projections détaillées et du « monde virtuel », ou environnement d’essai, fourni par les modèles de microsimulation dynamique. Non seulement l’aspect longitudinal de la microsimulation dynamique est important en ce qui concerne les questions de viabilité, mais il étend aussi la portée de l’analyse des effets distributionnels des politiques. La microsimulation peut être utilisée pour analyser les distributions sur la base de la trajectoire de vie et pour résoudre les questions d’équité intergénérationnelle. La possibilité d’étudier et de comparer la distribution des taux de rendement des séries de contributions et d’avantages individuels au cours de la vie complète des individus en est un exemple.

Points forts de la microsimulation d'un point de vue technique

D’un point de vue technique, la principale force de la microsimulation tient au fait qu’elle n’est pas soumise aux contraintes typiques d’autres approches de modélisation. Contrairement aux modèles à cellules, la microsimulation permet de traiter n’importe quel nombre de variables de n’importe quel type. Comparativement aux modèles de niveau macro, il n’est pas nécessaire d’agréger les relations comportementales, ce qui, dans les macromodèles, n’est possible que sous des hypothèses contraignantes. Dans la microsimulation, la modélisation des comportements individuels n’est soumise à aucune contrainte et ce sont les résultats des comportements qui sont agrégés. Autrement dit, aucune restriction n’est appliquée au type de processus. Mais, par‑dessus tout, la microsimulation permet de prendre en considération des processus non markoviens, c’est‑à‑dire des processus qui possèdent une mémoire. Fondée sur des microdonnées, la microsimulation permet une agrégation flexible, car l’information peut être croisée de n’importe quelle façon, tandis que dans les approches agrégées, le schéma d’agrégation est déterminé a priori. Les résultats des simulations peuvent être présentés et expliqués simultanément de diverses façons — par des séries chronologiques agrégées, des distributions conjointes transversales, ainsi que des trajectoires de vie individuelles et familiales.

Quel est le prix ? Inconvénients et limites

La microsimulation présente trois types d’inconvénients (et de préconceptions) de nature très différente, à savoir l’esthétique, les limites fondamentales inhérentes à toutes les prévisions et les coûts.

Si la beauté réside dans la simplicité et l’élégance mathématique (point de vue qui n’est pas rare chez les économistes faisant partie du courant dominant), les modèles de la microsimulation violent toutes les règles de l’esthétique. Les modèles de microsimulation à grande échelle requièrent un nombre incalculable de paramètres estimés au moyen de données provenant de diverses sources qu’il est souvent difficile de rapprocher. La simulation des politiques requiert une comptabilité fastidieuse et, étant donné leur complexité, les modèles de microsimulation posent toujours le risque de devenir des boîtes noires difficiles à utiliser et à comprendre. Même s’il est possible d’améliorer la documentation et l’interface utilisateur des modèles de microsimulation, le sacrifice de l’élégance à l’utilité sera toujours un trait de cette approche de modélisation.

Le deuxième inconvénient est plus fondamental. La limite essentielle de la microsimulation tient au fait que le niveau de détail du modèle ne va pas de pair avec la puissance globale de prédiction. Cet état de chose tient à ce que l’on appelle le caractère aléatoire de la microsimulation, causé en partie par la nature stochastique des modèles et en partie par les erreurs et biais cumulés dans les valeurs des variables. Le compromis entre le détail et le biais éventuel existe déjà à l’étape du choix des sources de données, puisque la taille de l’échantillon des enquêtes ne va pas de pair avec le niveau de détail des modèles. Il existe un compromis entre la stochasticité additionnelle introduite par les variables supplémentaires et les erreurs dues à la spécification incorrecte causées par des modèles qui sont trop simplifiés. Autrement dit, la caractéristique qui rend la microsimulation particulièrement séduisante, à avoir le grand nombre de variables que les modèles peuvent contenir, a pour prix le caractère aléatoire des modèles et l’affaiblissement résultant de la puissance prédictive à mesure que le nombre de variables augmente. Cette situation crée un compromis entre de bonnes prédictions au niveau agrégé et une bonne prédiction concernant les aspects distributionnels dans le long terme, un fait dont les modélisateurs doivent tenir compte. Ce problème de compromis n’est pas particulier à la microsimulation, mais puisque celle‑ci est habituellement employée pour produire des projections détaillées, l’importance de l’effet de la stochasticité s’accroît conséquemment. Il n’est donc pas étonnant que, dans nombre de modèles à grande échelle, certains processus sont harmonisés ou calés sur des projections agrégées obtenues par des moyens externes.

Outre sa nature fondamentale, la portée de ce caractère aléatoire dépend de la fiabilité ou de la qualité des données. À cet égard, nous pouvons observer et attendre diverses améliorations à mesure que des données de plus en plus détaillées deviennent disponibles pour la recherche, non seulement sous forme de données d’enquête, mais aussi de données administratives. Ces dernières ont propulsé la microsimulation, particulièrement en Europe, dans les pays nordiques.

Puisque la microsimulation produit non pas des valeurs prévues, mais plutôt des variable aléatoires distribuées autour des valeurs prévues, elle présente une autre forme de caractère aléatoire : la variabilité Monte Carlo, due au fait que chaque expérience de simulation produit des résultats agrégés différents. Bien que cela était fastidieux à l’époque où la puissance informatique était limitée, l’exécution d’un grand nombre d’expériences répétées et (ou) la simulation d’une grande population peut éliminer ce genre de caractère aléatoire et produire des renseignements précieux sur la distribution des résultats, en plus des estimations ponctuelles.

Le troisième type d’inconvénient est celui des coûts de développement. Les modèles de microsimulation requièrent des données de grande qualité, longitudinales et parfois d’un type très particulier, dont l’acquisition et la compilation est coûteuse. Il convient de souligner qu’il ne s’agit pas de coûts explicites associés à la microsimulation proprement dite, mais du prix à payer pour la recherche longitudinale en général et l’élaboration de politiques fondées sur des faits en particulier.

Habituellement, les modèles de microsimulation demandent aussi de gros investissements en ressources humaines et en matériel. Cependant, il faut s’attendre à ce que ces coûts continuent à diminuer, à mesure que le prix du matériel baisse et que des langages informatiques plus puissants et plus efficaces deviennent disponibles. Malgré tout, aux yeux de nombreux chercheurs, les obstacles à l’entrée sont élevés. Si nombre d’entre eux reconnaissent le potentiel de la microsimulation, ils restent sceptiques quant à la possibilité d’appliquer ses techniques dans le cadre de petits projets de recherche. Nous espérons que l’accès au langage Modgen réduit cet obstacle perçu et rend la microsimulation plus accessible au monde de la recherche. Au cours des deux dernières années, divers modèles de microsimulation à une plus petite échelle ont été développés dans le cadre de projets de doctorat ou d’études particulières. Modgen peut à la fois accélérer la programmation de petites applications et offrir une plateforme de modélisation éprouvée et à jour pour les modèles à grande échelle, tels que les modèles LifePaths et Pohem de Statistique Canada.

Date de modification :

Introduction

Modgen est un progiciel de développement de modèle de microsimulation développé et distribué par Statistique Canada. Il a été conçu pour permettre la création, la maintenance et la documentation de modèles de microsimulation sans devoir posséder des compétences avancées de programmation. Il permet d'utiliser de nombreuses approches de modélisation (modèles en temps continu ou discret, modèles orientés cas ou orientés temps, modèles généraux ou spécialisés, etc.). Modgen fournit aussi pour chaque modèle une interface visuelle commune qui met en ouvre des fonctions utiles, telles que la gestion des scénarios, l'entrée des paramètres, l'affichage des tableaux de sortie de l'exécution d'un modèle, la sortie graphique des biographies individuelles et l'affichage d'une documentation détaillée sur le modèle produite par Modgen.

Dans la discussion qui suit, nous présentons un simple modèle de microsimulation appelé RiskPaths qui a été mis en ouvre en utilisant Modgen. Nous commençons par une description des modèles statistiques sousjacents, puis nous examinons des questions telles que celles de savoir ce que la microsimulation peut ajouter à l'analyse statistique initiale et quels sont les autres avantages qu'apporte la microsimulation à l'analyse globale. Ensuite, nous illustrons l'utilisation de certaines parties de l'interface visuelle de Modgen pour examiner les éléments du modèle RiskPaths.

RiskPaths, qui peut être utilisé comme modèle pour étudier l'absence d'enfants, a été développé à des fins de formation. Techniquement, il s'agit d'un modèle de cohorte à risques concurrents, démographiques, à un seul sexe (femmes uniquement), guidé par les données, spécialisé, en temps continu et orienté cas. Il s'appuie sur un ensemble de modèles de régression à risque constant par morceaux.

Essentiellement, RiskPaths permet de comparer le comportement démographique de base avant et après les transitions politiques et économiques vécues par la Russie et la Bulgarie autour de 1989. Ses paramètres ont été estimés d'après les données russes et bulgares de l'enquête sur les générations et le sexe menée autour de 20032004. La Russie et la Bulgarie constituent des études de cas intéressantes, puisqu'après l'effondrement du socialisme, ces deux pays ont connu les baisses de fécondité les plus importantes jamais observées dans l'histoire en temps de paix. De surcroêt, les profils démographiques étaient très semblables et stables dans les deux pays durant la période de socialisme, ce qui permet de justifier l'utilisation de cohortes uniques comme moyen de comparaison (l'une représentant la vie à l'époque du socialisme et l'autre, celle d'une cohorte après la transition). De cette façon, le modèle nous permet de comparer le comportement démographique avant et après la transition, ainsi qu'entre les deux pays proprement dit.

Date de modification :

Introduction

Dans le présent document, nous examinons le progiciel de développement de modèle de microsimulation Modgen et l'application RiskPaths de Modgen du point de vue du développeur de modèles. Nous décrivons d'abord l'environnement de programmation Modgen, puis nous discutons des concepts de base du langage Modgen et du code de RiskPaths. L'utilisation de Modgen ne nécessitant que des compétences de programmation modestes, elle permet aux spécialistes des sciences sociales, moyennant une certaine formation, de créer leurs propres modèles sans devoir recourir à des programmeurs professionnels. Cet exercice est possible parce que Modgen cache les mécanismes sousjacents, tels que la mise en file d'attente des événements et la création automatique d'un modèle autonome doté d'une interface visuelle complète, y compris la gestion des scénarios et la documentation du modèle (présentée dans le chapitre précédent). Par conséquent, les développeurs de modèles peuvent se concentrer sur le code propre au modèle : la déclaration des paramètres, les états définissant les acteurs simulés et les événements modifiant les états. Le codage à haut rendement s'étend aussi aux données de sortie du modèle. Modgen comprend un langage puissant pour traiter les totalisations en temps continu. Ces totalisations sont créées à la volée durant l'exécution des simulations et la programmation pour les produire ne requiert habituellement que quelques lignes de codes par tableau. Modgen est également doté d'un mécanisme intégré pour l'estimation de la variation Monte Carlo pour toute cellule de n'importe quel tableau, sans aucune programmation requise de la part du développeur du tableau.

Étant un modèle simple, RiskPaths n'utilise pas la gamme complète d'éléments de langage et de capacités de Modgen. La discussion qui suit n'est pas destinée à remplacer la documentation existante sur Modgen, telle que le guide du développeur. Cependant, en présentant ici les principaux concepts de la programmation Modgen, nous souhaitons vous aider à mettre en route le développement de modèles et à entreprendre une exploration plus approfondie.

Date de modification :

Concepts de base de Modgen

Acteur : Un acteur est l'entité dont la vie est simulée dans un modèle Modgen. Il s'agit souvent d'une personne, bien que cela ne soit pas une exigence--d'autres modèles ont été développés pour simuler des logements ou des professions comme acteurs. Néanmoins, dans RiskPaths, l'acteur est une personne ou, plus précisément, une femme (puisqu'il s'agit d'un modèle conçu pour étudier le fait de ne pas avoir d'enfants).

État : Les états décrivent les caractéristiques des acteurs d'un modèle. Certains états peuvent être continus, comme l'âge, tandis que d'autres sont catégoriques, comme le sexe. Pour les états catégoriques, les catégories ou les niveaux réels sont définis à l'aide de la commande classification de Modgen.

Dans l'ensemble, il existe deux grands types d'états dans Modgen--les états simples et les états dérivés, qui sont tous deux utilisés dans RiskPaths et qui sont tous deux déclarés dans une déclaration d'acteur. Un état simple est un état dont la valeur peut être initialisée et modifiée par le code que crée un développeur de modèle. Les états simples sont modifiés par des événements explicitement déclarés. Un état dérivé, par ailleurs, est un état dont la valeur est donnée sous forme d'une expression qui est normalement dérivée d'après, ou basée sur, d'autres états. Les valeurs d'un état dérivé sont tenues à jour automatiquement par Modgen tout au long de l'exécution d'une simulation. Un autre concept utile de Modgen est l'état dérivé autoplanifié. Il s'agit d'un état qui change dans une séquence temporelle prédéfinie, tel que integer_age, un état de RiskPaths qui change à chaque anniversaire.

Événement : Dans Modgen, la simulation a lieu par l'exécution des événements. Un événement comprend deux fonctions : une fonction temporelle pour déterminer le moment de la prochaine occurrence de l'événement et une fonction d'exécution pour déterminer les conséquences de la survenue de l'événement. RiskPaths comprend plusieurs événements, y compris un événement de mortalité, des événements de formation et de dissolution d'une union et un événement de première grossesse.

Paramètre : Les paramètres sont utilisés pour donner à l'utilisateur du modèle un certain degré de contrôle sur les simulations qu'il exécute. La capacité de modifier divers risques ou probabilités qui ont une incidence sur divers aspects de la simulation permet d'étudier différents scénarios. Les paramètres peuvent posséder de nombreuses dimensions (telles que l'âge, le sexe et l'année) et sont sauvegardés dans des fichiers de données .dat. RiskPaths contient un fichier de paramètres, Base(RiskPaths).dat, qui contient les valeurs des paramètres telles que les probabilités de décès selon l'âge et les risques d'une première grossesse selon le groupe d'âge. Les modèles plus complexes contiennent habituellement plus d'un fichier .dat.

Tableau : Une fonction de totalisation croisée puissante est intégrée dans Modgen pour présenter les résultats agrégés sous la forme de tableaux. Une déclaration de tableau comprend deux éléments centraux, à savoir ses dimensions de capture (qui définissent quand un acteur entre dans une cellule et quand il en sort) et sa dimension d'analyse (qui enregistre ce qui se passe pendant que l'acteur est dans la cellule). Pendant l'exécution de simulations, les totalisations destinées à remplir un tableau sont produites à la volée, de sorte qu'il n'est pas nécessaire de créer de grands fichiers temporaires et d'y inscrire les données en vue de la production subséquente de rapports. Plusieurs exemples de déclaration de tableau sont présentés plus loin dans le document pour le modèle RiskPaths.

Date de modification :

Comment utiliser BioBrowser : les notions de base

Pour lancer une session du BioBrowser

Pour lancer une session du navigateur de biographie, choisissez la rubrique BioBrowser 4 qui figure dans le sous-menu Programmes du bouton Démarrer.

Ouverture d’un fichier de base de données existant : Commande Fichier/Ouvrir une base de données…

Le navigateur de biographie lance automatiquement cette commande au début d’une session.  Une base de données (créée par Modgen) doit être ouvert pour qu’on puisse créer une représentation graphique (enregistrée à titre de biographie).  Une seule base de données peut être ouvert à la fois, mais on peut visualiser plusieurs biographies simultanément.

Un exemple de base de données, appelée demo(trk).mdb,est fourni dans l’installation BioBrowser.  

Dialog pour ouvrir le base exemple de donnees, demo(trk).mdb

Ouverture d’une biographie enregistrée : Commande Fichier/Ouvrir

Une fois que la base de données a été ouverte suite au lancement de BioBrowser, le système vous demande de créer une nouvelle biographie ou d’ouvrir une biographie enregistrée.  Une biographie enregistrée, demo.bbr, est fournie lors de l’installation.  Choisissez le bouton Ouvrir.

Dialog d'information pour ouvrir des biographes

Le système vous invite ensuite à préciser le nom du fichier à ouvrir.  Choisissez demo.bbr

Dialog pour ourvir la biographie enregistree, demo.bbr

Création d’une nouvelle biographie : Commande Fichier/Nouvelle biographie

La création d’une nouvelle biographie exige la sélection des acteurs dont vous voulez mettre en graphique.  Ce choix comporte la sélection d’un acteur débutant ainsi qu’un filtre.  La façon dont la base de donnée a été crée dans le modèle Modgen va limiter les choix offerts.  L’acteur débutant représente le type d’acteur dont les états vont être mises en graphique.  Plus tard dans le processus du BioBrowser, d’autres acteurs qui sont liés à ces acteurs débutants (par exemple leurs conjoints ou leurs enfants)  peuvent être ajouté à la biographie.  Dans l’exemple qui est fourni avec le logiciel, il y a deux choix d’acteurs débutants: persons, dont les états sont inclues dans la base de données seulement si l’acteur est dominant ou s’il est marié ou remarié, et children, leurs enfants.

Le nombre d’acteurs choisi pour être mis en graphique qui résulte du choix d’un type d’acteur peut être très grand, selon la grandeur originale de la base de données.  Le critère du filtre vous permet de préciser la biographie. Sélectionnez un état, un opérateur pour cet état, puis une valeur.  Ainsi, une interrogation SQL est produite relativement à la base de données.  Le résultat de cette interrogation est un ensemble d’acteurs qui sont conformes aux critères du filtre précisé. Pour l’instant, deux états peuvent servir à déterminer le filtre. Lorsque vous choisissez deux états, vous devez déterminer si les critères seront réunis par une condition « Et » ou « Ou ». Si l’interrogation a produit un résultat, la nouvelle biographie est ouverte. Une fois la biographie ouverte, vous pouvez modifier les critères à l’aide du menu Filtre/Critères

L’état suivi représente les moments auxquels l’acteur ainsi que ses états sont inclus dans la base de données.  Si vous souhaitez parcourir tous les acteurs offerts, fixez le paramètre du filtre à Suivi = VRAI dans la section « Critères du filtre » du dialogue « Filtre de biographie ».

Dans la boîte Description du filtre, vous pouvez changer la description du filtre que vous avez choisi.  Cette description va apparaître au bas de l’écran.

Dans l’exemple ci-dessous, tous les acteurs personne dont l’état dominant est Vrai sont sélectionnés pour la consultation.  Il s’agit d’un état logique dont la valeur est Vrai ou Faux pour toute la durée de vie de l’acteur.  Puisque le fichier demo(trk).mdb ne comporte que 20 cas, 20 acteurs sont conformes aux critères.

Exemple d'un �cran filtre pour ne choisir que des acteurs dominants

La nouvelle biographie contient une seule bande d’affichage la bande de navigation dans laquelle est indiqué l’état du suivi de filtre.  Cet état correspondant aux moments que les caractéristiques d’état sont incluses dans le modèle (l’axe au bas de l’écran indique les dates du début et de la fin).  La bande d’affichage n’est pas nécessairement continue.  Le nombre d’acteurs satisfaisant au critère du filtre ainsi que le numéro de l’acteur qui est présentement affiché sur l’écran se retrouve au-dessus de cette bande d’affichage.  Dans l’exemple ci-dessous, le premier acteur des vingt qui ont satisfait au filtre, est affiché à l’écran.  La section « Selection d’états et navigation » vous expliquera comment ajouter d’autres états à la biographie.

Exemple d'un cran affichant une biographie

Enregistrement d’une biographie : Commandes Fichier/Enregistrer et Enregistrer sous...

Une fois que tous les états voulus ont été ajoutés (et que leur couleur et leur style ont été définis), vous pouvez enregistrer la biographie dans un fichier.  Les fichiers de ce type portent le suffixe “.bbr” et vous pouvez les récupérer à un autre moment pour une base de données compatible.  Aux fins de compatibilité, le filtre de l’interrogation ne doit pas être vide et toutes les paires acteur/état sélectionnées précédemment doivent figurer dans la base de données ouverte.  Tous les styles, toutes les couleurs et toutes les positions de navigation sont enregistrées.

Dialog pour enregistrer une biogrpahie

Si vous avez modifié les données d’état d’une biographie, un astérisque (*) figure en regard du nom de fichier dans la fenêtre de légende.  Les changements aux options de navigation ou à la biographie globale ne provoquent pas l’affichage de cet indicateur qui précise que la biographie a été modifiée depuis le dernier enregistrement.

Date de modification :

Approches de microsimulation

Version PDF (PDF, 72.06 Ko)

Introduction

Le présent document offre une analyse de diverses approches de microsimulation qui entrent en jeu quand nous simulons des sociétés au moyen d'un ordinateur. Ces approches peuvent, à leur tour, être comparées en fonction des objectifs, de la portée et des méthodes de simulation des populations.

En ce qui concerne l'objectif, nous faisons principalement la distinction entre la prédiction et l'explication, qui s'avère être également la distinction entre les objectifs de la microsimulation empirique guidée par les données, d'une part, et la simulation orientée agents, d'autre part. L'approche de prédiction est en outre examinée sous l'angle des projections par opposition aux prévisions.

En ce qui concerne la portée d'une simulation, la comparaison porte sur deux aspects — nous commençons par faire la distinction entre les modèles généraux et les modèles spécialisés, puis entre les modèles de population et les modèles de cohorte.

Enfin, en examinant les méthodes de simulation des populations, nous axons la discussion sur trois dimensions. La première est le genre de population que nous simulons, ce qui nous permet de faire la distinction entre les modèles de population ouverts par opposition à fermés, ainsi qu'entre les populations de départ transversales par opposition à synthétiques. La deuxième est le cadre temporel utilisé, qui peut être discret ou continu. La troisième est l'ordre dans lequel les vies sont simulées, ce qui donne lieu à un modèle axé sur les cas ou un modèle axé sur le temps.

Explication par opposition à prédiction

La modélisation est une abstraction, une réduction de la complexité grâce à l'isolement des forces qui dictent les phénomènes étudiés. La quête d'une formule décrivant le comportement humain, surtout en économie, est si intense que des hypothèses excessivement simplifiées sont souvent le prix accepté pour la beauté ou l'élégance des modèles. La notion selon laquelle la beauté réside dans la simplicité se dégage même de certains modèles orientés agents. Epstein établit une analogie particulièrement intéressante entre la simulation orientée agents et les tableaux des impressionnistes français, l'un de ces tableaux (une scène de rue) figurant sur la couverture de l'ouvrage intitulé « Generative Social Sciences » (Epstein 2006). Les individus dans toute leur diversité ne sont esquissés que par quelques points, mais en regardant le tableau d'une certaine distance, nous pouvons clairement reconnaître la scène.

Les modèles statistiques et comptables peuvent‑ils rivaliser en beauté avec la naissance de phénomènes sociaux à partir d'un ensemble de règles simples? À peine — ils sont complexes et requièrent une multitude de paramètres. Si les statisticiens voient encore de l'élégance dans les fonctions de régression, la beauté est difficile à préserver quand il s'agit de produire des déclarations de revenus ou de demander des prestations de retraite. La plupart d'entre nous trouvent la comptabilité ennuyeuse et les modèles fondés sur une multitude d'équations statistiques et de règles comptables peuvent devenir rapidement difficiles à comprendre. Alors, que peuvent offrir les modèles de simulation pour compenser leur manque de beauté? La réponse est simple : leur utilité. Essentiellement, un modèle de microsimulation est utile s'il possède un pouvoir prédictif ou explicatif.

Dans une simulation orientée agent, expliquer signifie générer les phénomènes sociaux de manière ascendante, la norme de génération de l'explication étant parfaitement illustrée par le slogan : Si vous ne l'avez pas cultivé, vous ne l'avez pas expliqué (qui est considéré comme une condition nécessaire, mais non suffisante pour l'explication). Ce slogan exprime la critique de l'école de modélisation orientée agents à l'égard de l'école économique dominante, qui met l'accent sur les équilibres sans accorder beaucoup d'attention à la façon dont ces équilibres peuvent être atteints ou s'ils peuvent jamais être atteints en réalité. De nouveau, les modèles orientés agents s'appuient sur une approche ascendante pour produire une société virtuelle. Leurs points de départ sont les théories du comportement individuel exprimées dans le code informatique. L'éventail de modélisations du comportement varie donc de l'application de règles simples à une approche fondée sur les concepts de l'intelligence artificielle répartie. Dans ce dernier cas, les acteurs simulés sont des agents « intelligents » qui sont dotés de récepteurs qui leur permettent de recevoir de l'information provenant de l'environnement. Ils possèdent des capacités cognitives, des croyances et des intentions. Ils ont des objectifs, des stratégies de développement et tirent des leçons de leurs propres expériences et de celles d'autres agents. À l'heure actuelle, ce type de simulation est exécuté presque exclusivement à des fins explicatives. Leurs auteurs espèrent que les phénomènes qui se dégagent des actions et des interactions des agents dans la simulation ont leurs pendants dans les sociétés réelles. De cette façon, la simulation appuie l'élaboration de la théorie.

Le contraste de l'explication réside dans la prédiction détaillée, qui représente le principal objectif de la microsimulation guidée par les données. Si la microsimulation est conçue et utilisée de manière opérationnelle pour faire des prévisions et des recommandations stratégiques, les modèles « doivent être ancrés fermement dans une réalité empirique et les relations qu'ils contiennent devraient avoir été estimées au moyen de données réelles et éprouvées minutieusement en utilisant des méthodes statistiques et économétriques bien établies. Dans ce cas, la faisabilité d'une inférence à une population ou un processus économique réel est d'une grande importance » (Klevmarken, 1997).

Afin de prédire l'état futur d'un système, il faut aussi faire la distinction entre les projections et les prévisions. Les projections sont des prédictions de type « et si? ». Elles sont toujours « correctes », en fonction des hypothèses qui sont énoncées (à condition qu'aucune erreur de programmation ne soit commise). Par contre, les prévisions sont des tentatives en vue de prédire l'avenir le plus probable et, puisqu'il ne peut y avoir qu'un seul résultat futur réel, la plupart des prévisions s'avèrent par conséquent fausses. Dans le cas des prévisions, nous n'essayons pas simplement de trouver « ce qui arrive si » (comme dans le cas des projections); nous essayons plutôt de déterminer quelles sont les hypothèses et les scénarios les plus plausibles, donc à obtenir la prévision résultante la plus plausible. (Il convient toutefois de souligner que des hypothèses non plausibles ne sont pas nécessairement sans valeur. Les hypothèses d'état stationnaire sont des exemples d'hypothèses qui sont conceptuellement séduisantes et par conséquent très courantes, mais habituellement non plausibles. Sous ce genre d'hypothèses, les individus sont vieillis dans un monde inchangé en ce qui concerne le contexte socioéconomique, tel que la croissance économique et les politiques, et le comportement individuel est « gelé » en ne permettant pas les effets de cohorte ou de période. Puisqu'une représentation transversale de la population d'aujourd'hui ne résulte pas d'un monde en état stationnaire, le « gel » du comportement individuel et du contexte socioéconomique permet d'isoler et d'étudier de futurs phénomènes et dynamiques résultant des changements antérieurs, tels qu'un mouvement de population.)

À quel point l'explication diffère‑t‑elle de la prédiction? Pourquoi ne pouvons‑nous pas reformuler le slogan mentionné plus haut en : Si vous ne l'avez pas prévu, vous ne l'avez pas expliqué? D'abord, être capable de produire de bonnes prédictions ne signifie pas nécessairement comprendre pleinement les opérations qui sous‑tendent les processus étudiés. Nous n'avons pas besoin d'une compréhension théorique totale pour prédire que le tonnerre suivra l'éclair ou que la fécondité est plus élevée à certaines étapes du cycle de vie qu'à d'autres. Les prédictions peuvent être fondées entièrement sur les régularités et les tendances observées. En fait, la théorie est souvent sacrifiée en faveur d'un modèle très détaillé qui offre un bon ajustement aux données. Mais ce sacrifice n'est évidemment pas sans danger. Si les comportements ne sont pas modélisés explicitement, les hypothèses correspondantes ne le sont pas non plus, ce qui peut rendre les modèles difficiles à comprendre et les transformer en boîte noire. Par ailleurs, s'ils sont capables de « cultiver » certains phénomènes sociaux, les modèles orientés agents le font de manière très stylisée. Jusqu'à présent, ces modèles n'ont pas atteint un pouvoir prédictif suffisant. Parmi les adeptes de la microsimulation guidée par les données, les modèles orientés agents sont donc souvent considérés comme des jouets.

Néanmoins, quelles que soient les raisons de développer un modèle de microsimulation, les modélisateurs tireront généralement un résultat positif de l'exercice : la clarification des concepts. La modélisation du comportement requiert un niveau de précision (éventuellement transféré dans le code informatique) que l'on ne trouve habituellement pas en sciences sociales où abondent les théories purement descriptives. Nous pouvons affirmer sans trop nous avancer que la modélisation proprement dite fournit des éclaircissements sur les processus qui sont modélisés (p. ex.Burch 1999). Si certains de ces avantages se dégagent de toute modélisation statistique, la simulation accroît les possibilités. En exécutant un modèle de simulation, nous obtenons toujours des éclaircissements sur la réalité que nous essayons de simuler ainsi que sur le fonctionnement de nos modèles et les conséquences de nos hypothèses de modélisation. En ce sens, les modèles de microsimulation sont toujours des outils exploratoires, que leur objectif principal soit l'explication ou la prédiction. Autrement dit, les modèles de microsimulation fournissent des plateformes expérimentales aux sociétés au sein desquelles, par nature, la possibilité d'expériences vraiment naturelles est limitée.

Modèles généraux par opposition à spécialisés

Le développement de modèles de microsimulation à grande échelle requiert habituellement un investissement initial considérable, surtout dans le cas de la simulation de politiques. Même si nous ne voulons simuler qu'une politique particulière, nous devons créer une population et modéliser les changements démographiques avant de pouvoir ajouter le comportement économique et les routines comptables nécessaires pour l'étude. Nous pouvons arriver ainsi à une situation où il devient plus logique de concevoir des modèles de microsimulation d'« usage général », et d'attirer ainsi des investisseurs prospectifs provenant de divers domaines. Un modèle capable de produire des projections détaillées des prestations de retraite pourrait facilement être étendu à d'autres domaines d'avantages fiscaux. Un modèle dans lequel sont incluses les structures familiales pourrait être étendu à la simulation de la prestation de soins non officiels. Une lutte pour survivre peut même aboutir à des applications assez exotiques — par exemple, l'un des plus grands modèles, le modèle CORSIM des États‑Unis, a survécu à des difficultés financières grâce à une subvention offerte par une association de dentistes qui s'intéressait à la projection des futures demandes de prothèses dentaires.

Par conséquent, il n'est pas étonnant de constater une tendance générale à planifier et à développer les applications de microsimulation sous forme de modèles polyvalents généraux dès le début. En fait, de grands modèles généraux existent à l'heure actuelle pour de nombreux pays, comme l'illustre le tableau qui suit.

Tableau modèle
Pays Modèle
Australie: APPSIM, DYNAMOD
Canada: DYNACAN, LifePaths
France: DESTINIE
Norvège: MOSART
Suède: SESIM, SVERIGE
Royaume-Uni: SAGEMOD
États-Unis: CORSIM

Durant la création de modèles généraux, le contrôle des ambitions et la modularité de la conception sont deux facteurs essentiels de réussite. Quelques‑uns seulement des grands modèles d'aujourd'hui ont effectivement atteint et retenu leur taille initiale prévue. Les approches excessivement ambitieuses ont dû être corrigées par des simplifications importantes, comme cela a été le cas de DYNAMOD, qui était prévu au départ comme un modèle micro‑macro intégré.

Les modèles de microsimulation spécialisés sont axés sur quelques comportements et (ou) segments de population particuliers. Le modèle de soins de longue durée du NCCSU en est un exemple (Hancock et coll., 2006). Ce modèle simule les revenus et les avoirs de futures cohortes de personnes âgées et leur capacité à participer aux frais de soins à domicile. Par conséquent, il porte sur la simulation de l'examen des ressources pour les politiques relatives aux soins de longue durée, dont les résultats sont entrés dans un macromodèle des demandes et coûts futurs.

Il est également arrivé que des modèles assez spécialisés au départ finissent par devenir plus généraux. Cela s'est produit dans le cas du SESIM et de LifePaths, qui ont tous deux été développés au départ pour l'étude des prêts aux étudiants. LifePaths est un exemple particulièrement intéressant, parce qu'il est non seulement devenu un grand modèle général, mais aussi parce qu'il a servi de fondement, dans une version simplifiée, à la création d'une famille distincte de modèles spécialisés de la santé (modèles Pohem de Statistique Canada).

Modèles de cohorte par opposition aux modèles de population

Comparativement aux modèles généraux de population, les modèles de cohorte sont spécialisés, puisqu'ils ne simulent qu'un seul segment de population, à savoir une cohorte de naissances. Cette simplification est utile si nous désirons étudier une seule cohorte ou comparer deux cohortes.

Les études économiques de cohorte unique portent habituellement sur le revenu et les effets de redistribution du régime d'avantages fiscaux au long de la trajectoire de vie. Les modèles HARDING et LIFEMOD développés en parallèle, le premier pour l'Australie et le second, pour la Grande‑Bretagne (Falkingham et Harding 1996) en sont des exemples. En général, ce genre de modèle repose sur l'hypothèse d'un univers en équilibre; autrement dit, la cohorte HARDING est née en 1960 et vit dans un univers qui ressemble à l'Australie en 1986.

Les modèles de population ont trait à l'ensemble de la population plutôt qu'à des cohortes particulières. Naturellement, la simulation de l'ensemble de la population élimine plusieurs limites des modèles de cohorte, y compris les problèmes d'évolution démographique et de distribution entre les cohortes (tel que l'équité intergénérationnelle).

Modèles de population ouvert par opposition à fermé

À l'échelle planétaire, la population humaine est fermée. Tout individu est né et mourra sur la planète, possède des parents biologiques nés sur la planète et interagit avec d'autres humains avec lesquels il partage ces mêmes traits. Par contre, il n'en est plus ainsi si l'on se concentre sur la population d'une région ou d'un pays particulier. Les gens migrent entre les régions, forment des partenariats avec des personnes provenant d'autres régions, etc. Dans de telles conditions, nous avons affaire à des populations ouvertes. Par conséquent, dans un modèle de simulation dans lequel nous ne sommes presque jamais intéressés par la modélisation de l'ensemble de la population mondiale, comment pouvons‑nous régler ce problème?

La solution requiert habituellement un certain degré de créativité. Ainsi, si nous permettons l'immigration, nous aurons toujours le problème de devoir trouver le moyen de modéliser un pays particulier sans modéliser le reste du monde. En ce qui concerne l'immigration, de nombreuses approches ont été adoptées, allant du clonage de « nouveaux immigrants » existants à l'échantillonnage à partir d'une population hôte, voire même à partir de divers « bassins » de populations hôtes représentant différentes régions

Un exercice conceptuellement plus exigeant est la simulation de l'appariement de partenaires. En microsimulation, les termes population fermée et population ouverte correspondent habituellement au fait que l'appariement des conjoints est limité aux personnes à l'intérieur de la population (fermée) ou que les conjoints sont « créés sur demande » (ouverte). Lorsque nous modélisons une population fermée, le problème est que nous ne simulons habituellement qu'un échantillon d'une population et non la population entière d'un pays. Si notre échantillon est trop petit, il est peu probable que nous trouverons des appariements raisonnables dans l'échantillon simulé. Il en est particulièrement ainsi si la géographie est également un facteur important dans notre modèle. Par exemple, si l'échantillon ne contient pas beaucoup d'individus représentant la population d'une petite ville, très peu d'entre eux trouveront un partenaire vivant à une distance raisonnable.

Les principaux avantages des modèles fermés tiennent au fait qu'ils permettent de suivre les réseaux de parenté et qu'ils donnent lieu à une plus grande cohérence (en supposant que la population est suffisamment grande pour trouver des appariements appropriés). En revanche, les principaux inconvénients des modèles fermés sont les problèmes d'échantillonnage et l'intensité des calculs associés à l'appariement des partenaires. Dans une population de départ tirée d'un échantillon, le modèle n'est pas nécessairement équilibré en ce qui concerne les liens de parenté autres que ceux entre conjoints, puisque les parents et la fratrie d'une personne ne sont pas inclus dans la population de base s'ils ne vivent pas dans le même ménage (Toder et coll. 2000).

La modélisation de populations ouvertes nécessite une certaine abstraction. Ici, les partenaires sont créés sur demande — avec des caractéristiques produites synthétiquement ou échantillonnées à partir d'une population hôte — et sont traités davantage comme des attributs d'un individu « dominant » que comme des individus « à part entière ». Bien que leurs trajectoires de vie (ou certains aspects présentant un intérêt pour la simulation de l'individu dominant) soient simulées, ils ne sont pas personnellement pris en compte comme des individus dans une sortie de données agrégées.

Populations de départ transversales par opposition à populations synthétiques

Chaque modèle de microsimulation doit commencer à un certain point dans le temps, si bien qu'il est nécessaire d'obtenir une population de départ. Dans les modèles de population, nous pouvons distinguer deux types : transversale et synthétique. Dans le premier cas, nous tirons une population de départ d'un ensemble de données transversales, puis nous vieillissons tous les individus à partir de ce moment‑là jusqu'à leur décès (en ajoutant évidemment de nouveaux individus aux événements de naissance). Dans le second cas, nous suivons une approche habituellement adoptée également dans les modèles de cohorte — tous les individus sont modélisés de leur naissance jusqu'à la fin de leur vie.

Si nous ne nous intéressons qu'à l'avenir, pourquoi partirions‑nous d'une population synthétique qui nous obligerait à simuler le passer également? Certes, partir d'un ensemble de données transversales peut être plus simple. Quand nous partons de « données réelles » représentatives, nous ne devons pas produire rétrospectivement une population, ce qui signifie que nous n'avons pas besoin de données historiques pour modéliser le comportement passé. Nous ne devons pas non plus nous préoccuper de problèmes de cohérence, puisque les simulations à partir de populations synthétiques manquent habituellement de cohérence transversale complète.

Malheureusement, de nombreuses applications de microsimulation nécessitent au moins une certaine information biographique qui n'est pas disponible dans les ensembles de données transversaux. Par exemple, les antécédents d'emploi et de cotisations déterminent les futures pensions. Par conséquent, une certaine modélisation rétrospective ou historique sera généralement nécessaire dans la plupart des applications de microsimulation.

Un moyen d'éviter d'utiliser une population de départ synthétique quand une simulation historique est, en fait, nécessaire pourrait consister à partir d'une ancienne enquête. Cette idée a été suivie dans le modèle CORSIM qui a utilisé une population de départ provenant d'une enquête réalisée en 1960 (ce qui fait également de ce modèle un sujet d'étude intéressant en soi). Bien que la possibilité qui s'ensuit de créer des prévisions rétrospectives peut faciliter l'évaluation de la qualité du modèle comparativement à la réalité, ce genre d'approche pose néanmoins des problèmes. CORSIM fait un usage intensif de méthodes d'alignement pour rajuster ses prévisions rétrospectives d'après les données publiées. Même si de nombreux résultats par groupe et de résultats agrégés peuvent être alignés exactement avec les données récentes, il n'existe aucun moyen de s'assurer que les distributions conjointes fondées sur les données de 1960 sont encore exactes après plusieurs décennies.

Dans le cas de la création d'une population de départ synthétique, toutes les données sont imputées. Nous avons donc besoin de modèles de comportement individuels remontant à un siècle complet. Bien que cette approche soit exigeante, elle a des avantages. Premièrement, la taille de la population n'est pas limitée par une enquête; nous pouvons créer des populations plus grandes, donc réduire la variabilité Monte Carlo. Deuxièmement, le fait que la population est synthétique permet d'éviter les conflits relatifs à la confidentialité. (Statistique Canada suit cette approche dans son modèle LifePaths.) Dans l'ensemble, plus la quantité d'information passée qui doit être imputée est grande et plus l'information passée joue un rôle important dans ce que l'application essaye de prédire ou d'expliquer, plus l'approche d'une population de départ synthétique devient attrayante. Par exemple, Wachter (Wachter 1995) a simulé les réseaux de parenté de la population américaine selon une approche fondée sur une population de départ synthétique remontant jusqu'au début du XIXe siècle. Ce genre d'information détaillée sur les liens de parenté ne se trouve dans aucune enquête et ne peut donc être construite qu'au moyen d'une microsimulation.

Temps continu par opposition à discret

La distinction entre les modèles peut se fonder sur le cadre temporel, qui peut être continu ou discret. Un cadre de temps continu est habituellement associé aux modèles statistiques de durée d'un événement, selon une approche fondée sur les risques concurrents. À partir d'un point de départ fixe, un processus aléatoire produit les durées de tous les événements pris en considération, l'événement dont la survenue est la plus rapprochée du point de départ étant celui qui est exécuté, tandis que les autres sont censurés. Ensuite, la procédure complète est répétée en prenant cet événement comme nouveau point de départ et le cycle se poursuit jusqu'à ce qu'ait lieu l'événement de « décès » de l'individu simulé.

La figure 1 illustre l'évolution d'une trajectoire de vie simulée dans un modèle en temps continu. Au départ, il existe trois événements (E1, E2, E3) possédant chacun une durée générée aléatoirement. Dans l'exemple, E1 survient le premier, de sorte qu'il devient l'événement qui est exécuté; après cela, les durées pour les trois événements sont « redéterminées ». Cependant, comme E3 n'est pas défini comme étant conditionnel à la survenue de E1 dans l'exemple, sa durée ne change pas, tandis que de nouvelles durées sont produites pour E1 et E2. E3 finit par avoir la durée la plus courte suivante, de sorte qu'il est le suivant à être exécuté. Ensuite les durées sont de nouveau générées pour les trois éléments et le cycle continue.

Figure 1 : Évolution d'une trajectoire de vie simulée

Figure 1 : Évolution d'une trajectoire de vie simulée

Techniquement, les modèles en temps continu sont très commodes, parce qu'ils permettent d'ajouter de nouveaux processus sans changer les modèles des processus existants à condition que les exigences statistiques pour les modèles à risques concurrents soient satisfaites (voir Galler 1997 pour une description des problèmes connexes).

Néanmoins, la modélisation en temps continu n'implique pas automatiquement qu'il n'existe pas d'événements en temps discret (horloge). Des événements en temps discret peuvent survenir en cas d'introduction de covariables variant en fonction du temps, tels que les indices économiques mis à jour périodiquement (p. ex.chômage) ou les variables de flux (p. ex.revenu personnel). La mise à jour périodique des indices censure alors tous les autres processus à chaque étape temporelle périodique. Si les périodes d'interruption sont si brèves (p. ex.un jour) que le nombre maximal d'autres événements durant une période devient presque égal à un, le modèle a convergé vers un modèle en temps discret.

Les modèles en temps discret déterminent les états et les transitions pour chaque période, sans tenir compte des points temporels exacts dans l'intervalle. L'hypothèse est que les événements ne surviennent qu'une fois durant une période. Comme plusieurs événements peuvent avoir lieu durant une période de temps discret, il faut soit utiliser des périodes courtes pour éviter la survenue de multiples événements ou modéliser toutes les combinaisons possibles d'événements uniques en tant qu'événements proprement dit. Les cadres de temps discret sont utilisés dans la plupart des modèles dynamiques des avantages fiscaux, les plus anciens utilisant habituellement un cadre annuel, principalement à cause de contraintes informatiques. Toutefois, étant donné l'accroissement de la puissance informatique et la réduction de son coût au cours du temps, nous pouvons nous attendre à ce que des étapes de temps plus courtes prédominent dans les futurs modèles. Quand les périodes deviennent si courtes que nous pouvons presque exclure la possibilité d'événements multiples, nous avons atteint une « pseudo‑continuité ». Le cas échéant, nous pouvons même utiliser des modèles de durée statistique. Le modèle australien DYNAMOD est un exemple de combinaison des deux approches.

Modèles orientés cas et modèles orientés temps

La distinction entre les modèles orientés cas et ceux orientés temps tient à l'ordre dans lequel les vies des individus sont simulées. Dans les premiers, un cas est simulé de la naissance au décès avant que la simulation du cas suivant débute. Les cas peuvent être des personnes individuelles ou une personne ainsi que toutes les personnes « non dominantes » qui ont été créées sur demande pour cette personne. Dans les seconds, toutes les vies ayant trait à un cas particulier sont simulées simultanément au cours du temps.

La modélisation orientée cas n'est possible que s'il n'y a pas d'interaction entre les cas. Les interactions sont limitées aux personnes appartenant à un cas, ce qui restreint considérablement ce qui peut être modélisé. L'avantage de ce genre de modèle est de nature technique — puisque chaque cas est simulé indépendamment des autres, il est plus facile de répartir la tâche globale de simulation entre plusieurs ordinateurs. En outre, la mémoire peut être libérée après que chaque cas a été simulé, puisque l'information sous‑jacente ne doit pas être sauvegardée en prévision d'une utilisation future. (Les modèles orientés cas peuvent être utilisés avec des modèles de populations ouvertes, mais non des modèles de populations fermées.)

Dans les modèles orientés temps, tous les individus sont simulés simultanément au cours d'une période prédéfinie. Comme tous les individus vieillissent simultanément (par opposition aux individus d'un cas seulement), la demande de ressources informatiques augmente définitivement. Dans un cadre en temps continu, l'événement suivant qui a lieu est le premier événement planifié au sein de la population entière. Donc, la puissance informatique peut encore être un goulet d'étranglement dans ce genre de simulation — les modèles utilisés à l'heure actuelle ont habituellement des tailles de population inférieures à un million.

Date de modification :