Qualité des données, concepts et méthodologie : Qualité des estimations

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Les estimations sont entachées d’une certaine marge d’imprécision qui provient de deux types d’erreur : 

  1. des erreurs des données du recensement;
  2. des imperfections des autres sources de données et des méthodes d’estimations des composantes.

Données du recensement

A. Erreurs de couverture, de réponse et de traitement

Les erreurs attribuables aux données de recensement peuvent être divisées en deux groupes : réponse et traitement, et couverture. Le premier groupe comprend les erreurs de non-réponse, l'interprétation erronée de la part des répondants, le codage et l'imputation des non-réponses. Les erreurs du second groupe sont dues principalement aux estimations du sous-dénombrement et à un degré moindre, au surdénombrement. Ces deux types d'erreur sont inhérents à n'importe quelle enquête.

Les erreurs de couverture se produisent lorsqu’on oublie des logements et/ou des personnes, qu’on les inclut à tort (à l’exception des recensements de 2006 et 2011, où les personnes incluses à tort ne font pas partie de l’Étude sur le surdénombrement du recensement) ou qu’on les compte plus d’une fois. Après chaque recensement, Statistique Canada entreprend des études de couverture pour mesurer ces erreurs. Les principales études sont l’Enquête sur la Contre-vérification des dossiers (CVD) et l’Étude sur le surdénombrement du recensement (ESR). On tire de ces études des estimations de sous-dénombrement et de surdénombrement avec lesquelles la Division de la démographie rajuste la population dénombrée au recensement par province et territoire.

Lors de l’élaboration des populations de départ, le programme des estimations corrige les populations du recensement pour les erreurs de couverture seulement. Cette correction, basée sur les résultats des études de couverture, est sujette principalement aux erreurs dues à l’échantillonnage et, dans une moindre mesure, à des erreurs de traitement. Les tests statistiques indiquent que les ajustements pour la couverture améliorent la qualité des données du recensement. Le programme des estimations utilise les estimations des études de couverture pour les provinces et les territoires. Cependant, étant donnée la taille des échantillons de ces études, les estimations par âge et sexe sont modélisées. De plus, on suppose que les taux de couverture estimés pour une province ou un territoire s’appliquent aux régions situées à l’intérieur de cette province ou territoire. Par ailleurs, avant 1991, le programme des estimations utilisait des données du recensement non corrigées pour les erreurs de couverture dans son programme des estimations. Des études de couverture avaient cependant été menées pour mesurer le sous-dénombrement, mais aucune étude ne mesurait le surdénombrement. Suite à la décision d’intégrer la correction pour la couverture à la population dénombrée depuis 1991, le programme a dû réviser les estimations de population pour la période de 1971 à 1986. La correction repose sur les résultats des études de couverture de cette période et sur des hypothèses concernant le rapport entre le niveau de surdénombrement et le niveau de sous-dénombrement d’après les résultats trouvés dans les études de couverture subséquentes.

Les corrections apportées aux données du recensement pour le SDNR améliorent, en général, la qualité des estimations en compensant pour le sous-dénombrement différentiel aux différents recensements selon l'âge, le sexe et par province et territoire.

Le rajustement intègre également les résultats d’une étude sur l’estimation des personnes vivant dans des réserves indiennes partiellement dénombrées pour compléter la correction des données du recensement pour les erreurs de couverture. Les résultats des études de couverture contiennent principalement des erreurs aléatoires liées à l’échantillonnage.

Ces rajustements ont un impact direct sur : 

  1. l'erreur en fin de période et sa distribution par âge et sexe à l'intérieur d'une même province ou territoire, de même que par province ou territoire, étant donné la variation du SDNR1 et sa distribution d'un recensement à l'autre;
  2. la cohérence des estimations de population pour une même cohorte de naissance. Prenons l’exemple de la cohorte masculine des moins de 5 ans en 1981. En utilisant des données de recensement non rajustées pour le SDNR1, on remarque que ce groupe est moins nombreux au Recensement de 2001 (groupe des 20 à 24 ans) qu’à celui de 1996 (groupe des 15 à 19 ans). Comme le Canada reçoit beaucoup d'immigrants à ces âges, on se serait attendu au contraire. Or, ce n’est qu’après le rajustement pour le SDNR1 que la taille de la cohorte augmente, tel qu’attendu, entre 1996 et 2001.

Pour de plus amples informations sur les principales études de couverture, veuillez consulter le document suivant sur le site Internet de Statistique Canada : Rapport technique du Recensement de 1996, 2001, 2006 et 2011 sur la couverture.

Composantes

Les erreurs provenant des méthodes d’estimation et des sources de données autres que le recensement ont également une importance non négligeable.

A. Naissances et décès

La loi exigeant la tenue d'un registre de l'état civil, les estimations définitives des naissances et des décès répondent à des normes de qualité très élevées. Toutefois, puisque les données provisoires sont modélisées, elles diffèrent légèrement des données définitives.

B. Immigration et résidents non permanents

En ce qui concerne les immigrants et les résidents non permanents, Citoyenneté et Immigration Canada (CIC) administre des fichiers propres à ces deux composantes. L’immigration étant contrôlée par une loi, les données sur les immigrants et les résidents non permanents (RNP) sont systématiquement recueillies à leur arrivée au Canada. Ces données ne concernent que l’immigration « légale » et excluent donc les immigrants illégaux. Ainsi, les données sur les entrées internationales « légales » au Canada sont considérées d’une qualité supérieure. Toutefois, des biais peuvent exister quant à la province de destination : celle envisagée par l’immigrant au moment de l’arrivée peut différer de celle où il résidera de fait. Enfin, parce que l'information fournie par le Système sur les visiteurs (SV) de CIC est incomplète (l'âge et le sexe des personnes à charge, la province de résidence pour certains groupes de détenteurs de permis), les estimations de RNP sont plus sujettes aux erreurs que les données sur les immigrants.

C. Émigration, émigration de retour et solde de l’émigration temporaire

Parmi les composantes qu’utilise le programme des estimations de population, l’émigration, l’émigration de retour et le solde de l’émigration temporaire sont les plus difficiles à estimer avec précision puisque le Canada n’a pas de système d’enregistrement à ses frontières. Alors que l’immigration et les résidents non permanents (RNP) sont bien documentés par le gouvernement fédéral, Statistique Canada a toujours eu recours à des techniques d’estimations indirectes pour estimer le nombre de personnes quittant le pays. Pour cette raison, les statistiques disponibles sur ces trois composantes ont toujours été d’une moins bonne précision que celles des autres composantes.

L’estimation des émigrants et des émigrants de retour provient d’informations tirées du fichier des Prestations fiscales canadiennes pour enfants (PFCE) de l’Agence du revenu du Canada (ARC). L’estimation doit être rajustée afin de tenir compte des enfants non admissibles au programme et dériver l’émigration et l’émigration de retour des adultes.

Ces rajustements et le délai d’obtention des données sont les deux principales sources d’erreur. Comme il n’existe pas d’informations courantes sur les personnes temporairement à l’étranger, les estimations sont basées sur la Contre-vérification des dossiers (CVD) et le recensement. Les estimations pour la période intercensitaire, réparties également entre les cinq années, sont maintenues constantes pour la période postcensitaire. De plus, certaines hypothèses doivent être admises afin de répartir les données nationales par province et territoire et les données annuelles par trimestre. Toute variation géographique ou trimestrielle peut entraîner une erreur dans l’estimation de ces composantes.

D. Migration interprovinciale

Depuis juillet 1993, les estimations provisoires2 de la migration interprovinciale sont établies à partir des fichiers de Prestation fiscale canadienne pour enfants (PFCE). Puisque ce programme ne couvre que les enfants, plusieurs ajustements doivent être faits afin de dériver la migration des adultes. Par conséquent, nous croyons que les estimations provisoires basées sur les PFCE sont sujettes à des erreurs plus importantes que celles établies à partir des fichiers de données fiscales de l’Agence du revenu du Canada (ARC).

Mesure de qualité

Afin d’évaluer la qualité de nos estimations, deux mesures d’évaluation sont utilisées : les erreurs de précocité et les erreurs en fin de période.

A. Erreur de précocité

On évalue la qualité des estimations démographiques provisoires en analysant les erreurs de précocité. L’erreur de précocité est la différence entre l’estimation provisoire et l’estimation définitive divisée par l’estimation postcensitaire la plus à jour de la population totale. L’erreur de précocité peut se calculer tant pour les estimations de la population que celles des composantes.

L’erreur de précocité d’une composante nous permet de procéder à des comparaisons utiles tant entre les composantes qu’entre les provinces et les territoires dont la taille de la population est différente. À noter qu’en comparant à la population totale d’une région, les différences entre les estimations provisoires et définitives des composantes sont minimes. Il existe toutefois des écarts quant à l’incidence de ce type d’erreur entre les composantes et entre les provinces et les territoires.

Règle générale, le solde de la migration interprovinciale est associé aux erreurs de précocité les plus importantes. Cet état des choses est dû à l’utilisation de sources de données différentes pour les estimations provisoires et définitives. Pour la plupart des années et des provinces/territoires, des erreurs de précocité plus faibles sont associées aux estimations de l’immigration, des naissances et des décès. Dans le cas des estimations de l’immigration, cette situation est attribuable à l’intégralité des sources de données et à l’accessibilité des données permettant de produire des estimations provisoires plus à jour. En ce qui a trait aux naissances et aux décès, les petites erreurs de précocité s’expliquent par l’utilisation d’une méthode différente (méthode des quotients) pour la production des estimations provisoires.

Dans l'hypothèse où la qualité des données de base demeure inchangée, les présentes estimations postcensitaires devraient présenter un niveau de fiabilité fort acceptable si l'on en juge par l’analyse des dernières erreurs de précocité observées.

Pour plus de détails sur l’analyse des erreurs de précocité annuelles, voir la publication 91-215-XWF 2015000 (section Qualité des données démographiques).

B. Erreur en fin de période

L'erreur en fin de période permet de mesurer l'exactitude des estimations postcensitaires. Elle est définie comme la différence entre l’estimation postcensitaire définitive, au jour du recensement, et l’estimation de la population du recensement rajustée pour le sous dénombrement net du recensement (SDNR)1. Une erreur en fin de période positive signifie que les estimations démographiques postcensitaires ont surestimé la population.

L'erreur en fin de période provient de deux sources : les erreurs principalement dues à l’échantillonnage dans la mesure de la couverture du recensement et les erreurs relatives aux composantes de l'accroissement démographique pendant la période intercensitaire. Pour chaque période intercensitaire quinquennale, l'erreur en fin de période ne peut être calculée qu'au moment de la diffusion des données du recensement et des estimations du SDNR1. Elle est calculée pour la population totale de chaque province et territoire ainsi que selon l'âge et le sexe.

Le tableau 3 présente les estimations démographiques postcensitaires au 10 mai 2011, les chiffres censitaires rajustés pour le SDNR1 et les erreurs en fin de période pour le Canada, les provinces et les territoires pour 2001, 2006 et 2011.

À l’échelle canadienne, l’erreur en fin de période était estimée à 171 115 ou 0,50 % en 2011. Il s’agit d’une augmentation par rapport aux erreurs de 2001 (0,16 %) et 2006 (0,14 %).

Les estimations démographiques ont surestimé la population de six provinces, deux territoires et l’ensemble du pays. Quatre provinces et deux territoires ont enregistré des erreurs en fin de période supérieures à 1 % ou inférieures à -1 %. De ces endroits, seule la population estimée de Terre-Neuve-et-Labrador différait de celle du recensement rajusté de plus de 2 % (-2,09 %). En 2006, deux provinces et trois territoires affichaient des erreurs en fin de période supérieures à 1 % ou inférieures à -1 % tandis que c’était le cas pour trois provinces et deux territoires en 2001.

En considérant la variance du SDNR, il est possible d’identifier les erreurs en fin de période qui sont statistiquement significatives. Le tableau 3 présente les résultats de cette analyse.

L’erreur en fin de période est statistiquement significative pour le Canada, cinq provinces et un territoire. Ceci signifie que les estimations démographiques ont significativement surestimé ou sous-estimé la population de ces endroits. Comme il a été mentionné précédemment, ces résultats proviennent à la fois de la variabilité de la de la mesure de l’erreur nette de couverture et des erreurs des composantes de l’accroissement démographique. Parmi ces dernières, la migration interprovinciale et l’émigration sont les composantes les plus associées à l’erreur en fin de période.

Note technique suivante | Note technique précédente

Date de modification :