Qualité des données, concepts et méthodologie : Qualité des données démographiques

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Notes relatives à la qualité des estimations démographiques

Dans ce cas, le rajustement pour le sous-dénombrement net du recensement inclut également le rajustement pour les réserves indiennes partiellement dénombrées.

Sauf mention contraire, le terme provisoire fait également référence à mise à jour.

Les estimations sont entachées d'une certaine marge d'imprécision qui provient de deux types d’erreur : 

  1. des erreurs des données du recensement;
  2. des imperfections des autres sources de données et des méthodes d'estimations des composantes.

Données du recensement

A. Erreurs de couverture, de réponse et de traitement

Les erreurs attribuables aux données de recensement peuvent être divisées en deux groupes : erreurs de réponse et de traitement, et erreurs de couverture. Le premier groupe comprend les erreurs de non-réponse, l'interprétation erronée de la part des répondants, le codage et l'imputation des non-réponses. Les erreurs du second groupe sont dues principalement aux estimations du sous-dénombrement net du recensement (SDNR) qui est la différence entre le sous-dénombrement et le surdénombrement. Ces deux types d'erreur sont inhérents à n'importe quelle enquête.

Les erreurs de couverture se produisent lorsqu’on oublie des logements et/ou des personnes, qu’on les inclut à tort (à l’exception du recensement de 2006, où les personnes incluses à tort ne font pas partie de l’Étude sur le surdénombrement du recensement) ou qu’on les compte plus d’une fois. Après chaque recensement, Statistique Canada entreprend des études de couverture pour mesurer ces erreurs. Les principales études sont l’Enquête sur la contre-vérification des dossiers (CVD) et l’Étude sur le surdénombrement du recensement (ESR). On tire de ces études des estimations de sous-dénombrement et de surdénombrement pour chaque province et territoire. La Division de la démographie rajuste la population dénombrée au recensement par province et territoire avec ces estimations. Au niveau infraprovincial, ces taux sont appliqués à chacune des régions géographiques de la province ou du territoire selon l’âge et le sexe.

Lors de l’élaboration des populations de départ, on a tenté de corriger les erreurs de couverture seulement. Toutefois cette correction, basée sur les résultats des études de couverture et sur la modélisation du surdénombrement des provinces et territoires par âge et sexe avant 1991, est elle-même sujette aux erreurs d’échantillonnage, de collecte, de réponse et de traitement de même qu’à la fragilité des hypothèses qui sous-tendent les modèles élaborés. En ce qui concerne les études de couverture, les tests statistiques indiquent que l’ajustement, quoique non exempt d’erreur en soi, améliore la qualité des données du recensement (Royce, 1993). Les hypothèses sélectionnées ont l’avantage d’être cohérentes dans le temps et par région géographique, ainsi que de fournir des résultats logiques. Les utilisateurs doivent se rappeler que lorsque l'on calcule les taux de SDNR pour des petites régions, il se pourrait que les hypothèses sous-jacentes ne soient pas respectées. Si tel était le cas, les taux de SDNR utilisés les induiraient en erreur. Cependant, les erreurs associées à ces hypothèses sont très difficiles à quantifier.

Néanmoins, les corrections apportées aux données du recensement pour le SDNR améliorent, en général, la qualité des estimations en compensant pour le sous-dénombrement différentiel aux différents recensements selon l'âge, le sexe et par province et territoire.

Le rajustement intègre également les résultats d’une étude sur l’estimation des personnes des réserves indiennes partiellement dénombrées pour compléter la correction des données du recensement pour les erreurs de couverture. Les résultats des études de couverture contiennent principalement des erreurs aléatoires liées à l’échantillonnage.

Ces rajustements ont un impact direct sur : 

  1. L'erreur en fin de période et sa distribution par âge et sexe à l'intérieur d'une même province ou territoire, de même que par province ou territoire, étant donné la variation du SDNRet sa distribution d'un recensement à l'autre;
  2. la cohérence des estimations de population pour une même cohorte de naissance. Prenons l’exemple de la cohorte masculine des moins de 5 ans en 1981. En utilisant les données de recensement non rajustées pour le SDNR, on remarque que ce groupe est moins nombreux au Recensement de 2001 (groupe des 20-24 ans) qu’à celui de 1996 (groupe des 15-19 ans). Comme le Canada reçoit beaucoup d'immigrants à ces âges, on se serait attendu au contraire. Or, ce n’est qu’après le rajustement pour le SDNR que la taille de la cohorte augmente, tel qu’attendu, entre 1996 et 2001.

Pour de plus amples informations sur les principales études de couverture, veuillez consulter le document suivant sur le site Internet de Statistique Canada : Rapport technique du recensement de 1996, 2001 et 2006 sur la couverture.

B. Composantes

Les erreurs provenant des méthodes d'estimation et des sources de données autres que le recensement ont également une importance non négligeable.

a. Naissances et décès

La loi exigeant la tenue d'un registre de l'état civil, les estimations définitives des naissances et des décès répondent à des normes de qualité très élevées. Toutefois, puisque les données provisoires sont modélisées, elles diffèrent légèrement des données définitives.

b. Immigration et résidents non permanents

En ce qui concerne les immigrants et les résidents non permanents, Citoyenneté et Immigration Canada (CIC) administre des fichiers propres à ces deux composantes. L'immigration étant contrôlée par une loi, les données sur les immigrants et les résidents non permanents (RNP) sont systématiquement recueillies à leur arrivée au Canada. Ces données ne concernent que l'immigration « légale » et excluent donc les immigrants illégaux. Ainsi, les données sur les entrées internationales « légales » au Canada sont considérées d'une qualité supérieure. Toutefois, des biais peuvent exister quant à la destination : celle envisagée par l’immigrant au moment de l’arrivée peut différer de celle où il résidera de fait. Enfin, parce que l'information fournie par le Système sur les visiteurs (SV) de CIC est incomplète (l'âge et le sexe des personnes à charge, la province de résidence pour certains groupes de détenteurs de permis), les estimations de RNP sont plus sujettes aux erreurs que les données sur les immigrants.

c. Émigration, émigration de retour et solde de l’émigration temporaire

Parmi les composantes qu’utilise le programme des estimations de population, celles-ci sont les plus difficiles à estimer avec précision puisque le Canada n’a pas de système d’enregistrement à ses frontières. Alors que l’immigration et les résidents non permanents (RNP) sont bien documentés par le gouvernement fédéral, Statistique Canada a toujours eu recours à des techniques d’estimations indirectes pour estimer le nombre de personnes quittant le pays. Pour cette raison, les statistiques disponibles sur ces trois composantes ont toujours été d’une moins bonne précision que celles des autres composantes.

L’estimation des émigrants et des émigrants de retour provient d’informations tirées du fichier des Prestations fiscales canadiennes pour enfants (PFCE) de l’Agence du revenu du Canada (ARC). L’estimation doit être rajustée afin de tenir compte des enfants non admissibles au programme et en dériver l’émigration et l’émigration de retour des adultes.

Ces rajustements et le délai d’obtention des données sont les deux principales sources d’erreur. Comme il n’existe pas d’information courante sur les personnes temporairement à l’étranger, les estimations sont basées sur la Contre-vérification desdossiers (CVD) et le recensement. Les estimations pour la période intercensitaire, réparties également entre les cinq années, sont maintenues constantes pour la période postcensitaire. De plus, certaines hypothèses doivent être admises afin de répartir les données nationales par région infraprovinciale. Toute variation géographique peut entraîner une erreur dans l’estimation de ces composantes.

d. Migration interprovinciale et migration infraprovinciale

Depuis juillet 1993, les estimations provisoires de la migration interprovinciale sont établies à partir des fichiers des Prestations fiscales canadiennes pour enfants (PFCE). Sous ce programme, seulement 76 % des enfants âgés de 0 à 17 ans à l’échelle du Canada étaient bénéficiaires au 1er juillet 2001. Par conséquent, nous croyons que les estimations provisoires basées sur les PFCE sont sujettes à des erreurs plus importantes que celles définitives établies à partir des fichiers de données fiscales de l’Agence du revenu du Canada (ARC).

Puisque les estimations provisoires et définitives de la migration interprovinciale sont produites à partir de sources différentes, elles sont plus sujettes aux erreurs de précocités.

De plus, comme il n’y a pas de données provisoires disponibles pour la migration infraprovinciale, nous devons faire l’hypothèse que les niveaux de migration sont les mêmes que ceux de l’année précédente de sorte que les données des deux plus récentes années sont les mêmes.

C. Changement de géographie

Les limites des régions géographiques infraprovinciales peuvent changer d’un recensement à l’autre. Pour faciliter les études chronologiques, les estimations démographiques pour la période allant de 1996 à 2012 ont été établies, dans la présente publication, selon les limites définies au Recensement de 2006 pour les DR, les RMR ainsi que les RÉ.

Afin de préciser l’importance démographique des changements de limites géographiques, les effectifs de la population au Recensement de 2001 sont dans un premier temps convertis en frontière du Recensement de 2006. Par la suite, on compare ces effectifs convertis aux effectifs de la population de 2001 dont les frontières sont celles du Recensement de 2001. Les chiffres présentés s’appliquent à la population dénombrée au Recensement de 2001 et ne tiennent pas compte du sous-dénombrement net du recensement.

Régions métropolitaines de recensement (RMR)

Parmi les 27 RMR définies au Recensement de 2001, 7 ont connu des changements de limites géographiques au Recensement de 2006. Si les nouvelles limites avaient été appliquées en 2001, la population de l’ensemble des 27 RMR aurait été non pas de 19 297 000, mais de 19 360 000, soit une légère hausse de 63 000 (0,3 %).

L’importance démographique des changements de limites a été plus prononcée pour une RMR. À Sherbrooke, le gain relatif attribuable au changement de géographie a atteint 14,4 %. Dans les autres cas, les changements de limites ont eu un effet plus négligeable sur la population, soit moins de 1%. Il en va ainsi pour Québec, Montréal, Ottawa-Gatineau, London, Winnipeg et Calgary.

Divisions de recensement (DR)

Des changements de limites ont affecté 33 des 288 DR au pays. Dans 14 cas, les changements de limites géographiques n’ont eu aucun effet marqué sur la population, les pertes ou les gains relatifs ne dépassant pas 0,1 %.

Les changements de limites qui ont eu le plus grand impact relatif touchent 9 DR du Québec. La DR la plus affectée est celle de Lajemmerais avec une perte relative de 36,1 %, suivie, en ordre décroissant, par celle de La-Vallée-du-Richelieu (-19,9%) et de Shawinigan (-19,7 %). Enfin, les DR suivantes sont celles qui ont connu les plus grandes augmentations : Lévis avec 54,8% (qui est la création d’une DR à partir de deux DR du recensement de 2001 soit Desjardins et Chute-de-la-Chaudière), Maskinongé (49,5%), Longueuil (19,3%), Nouvelle-Beauce (18,8%), Bellechasse (12,9%) et Coaticook (11,0%).

Mesures de qualité

Afin d’évaluer la qualité de nos estimations, deux mesures d’évaluation sont utilisées : les erreurs de précocité et les erreurs en fin de période.

A. Erreurs de précocité

On évalue la qualité des estimations démographiques provisoires en analysant les erreurs de précocité. L’erreur de précocité est la différence entre l’estimation provisoire et l’estimation définitive divisée par la population totale de la région géographique en cause. L’erreur de précocité peut se calculer tant pour les estimations de la population que celles des composantes.

L’erreur de précocité d’une composante nous renseigne sur l’ampleur de l’erreur entre l’estimation provisoire et définitive de la population, ce qui nous permet de procéder à des comparaisons utiles entre les composantes ainsi qu’entre les différents niveaux géographiques dont la taille de la population est différente. À noter qu’en comparant à la population totale d’une région, les différences entre les estimations provisoires et définitives des composantes sont minimes. Il existe toutefois des écarts quant à l’incidence de ce type d’erreur entre les composantes et entre les régions géographiques.

Règle générale, les soldes migratoires interprovincial et infraprovincial sont associés aux erreurs de précocité les plus importantes. Cet état des choses est dû à l’utilisation de sources de données différentes pour les estimations provisoires et définitives. Pour la plupart des années et des provinces/territoires, des erreurs de précocité plus faibles sont associées aux estimations de l’immigration, des naissances et des décès. Dans le cas des estimations de l’immigration, cette situation est attribuable à l’intégralité des sources de données et à l’accessibilité des données permettant de produire des estimations provisoires plus à jour. En ce qui a trait aux naissances et aux décès, les petites erreurs de précocité s’expliquent par l’utilisation de projections à court terme pour la production des estimations provisoires.

Dans l'hypothèse où la qualité des données de base demeure inchangée, les présentes estimations postcensitaires devraient présenter un niveau de fiabilité fort acceptable si l’on en juge par l’analyse des dernières erreurs de précocité observées.

B. Erreur en fin de période

L’erreur en fin de période permet de mesurer l’exactitude des estimations postcensitaires. Elle est définie comme la différence entre les estimations postcensitaires, au jour du recensement, et la population dénombrée et corrigée du sous-dénombrement net du recensement (SDNR), lors de ce recensement.

L’erreur en fin de période provient de deux sources : les différences relatives du SDNR entre deux recensements et les erreurs relatives aux composantes de l’accroissement démographique pendant la période intercensitaire. Cette erreur est calculée pour la population totale ainsi que selon l’âge et le sexe. Pour chaque période intercensitaire quinquennale, l’erreur en fin de période ne peut être calculée qu’au moment de la diffusion des données du recensement et des estimations du SDNR.

En ramenant cette différence à la population censitaire, on obtient un taux qui, à l’échelle du pays, est peu important (0,16 % en 2001 et 0,32 % en 2006). À l’échelle des provinces et des territoires, de même qu’au niveau infraprovincial les différences sont généralement plus élevées, cette différence étant due à la plus forte variabilité associée aux estimations de la migration interprovinciale et infraprovinciale. Ceci étant dit, les estimations postcensitaires provinciales et territoriales diffèrent généralement de moins de 1 % des populations censitaires rajustées, sauf pour les territoires et à quelques exceptions près.

Note technique suivante

Date de modification :