Qualité des données, concepts et méthodologie : Qualité des estimations

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Les estimations sont entachées d'une certaine marge d'imprécision qui provient de deux types d'erreur : 

  1. des erreurs des données du recensement;
  2. des imperfections des autres sources de données et des méthodes d'estimations des composantes.

Données du recensement

A. Erreurs de couverture, de réponse et de traitement

Les erreurs attribuables aux données de recensement peuvent être divisées en deux groupes : Réponse et traitement, et couverture. Le premier groupe comprend les erreurs de non-réponse, l'interprétation erronée de la part des répondants, le codage et l'imputation des non-réponses. Les erreurs du second groupe sont dues principalement aux estimations du sous-dénombrement net du recensement (SDNR), qui égale le sous-dénombrement et à un degré moindre, au surdénombrement. Ces deux types d'erreur sont inhérents à n'importe quelle enquête.

Les erreurs de couverture se produisent lorsqu'on oublie des logements et/ou des personnes, qu'on les inclut à tort ou qu'on les compte plus d'une fois. Après chaque recensement, Statistique Canada entreprend des études de couverture pour mesurer ces erreurs. Les principales études sont l'Enquête sur la Contre-vérification des dossiers (CVD) et l'Étude sur le surdénombrement du recensement (ESR). On tire de ces études des estimations de sous-dénombrement et de surdénombrement avec lesquelles la Division de la démographie rajuste la population dénombrée au recensement par province et territoire.

Lors de l'élaboration des populations de départ, on a tenté de corriger les erreurs de couverture seulement. Toutefois cette correction, basée sur les résultats des études de couverture et sur la modélisation du surdénombrement des provinces et territoires par âge et sexe avant 1991, est elle-même sujette aux erreurs d'échantillonnage, de collecte, de réponse et de traitement de même qu'à la fragilité des hypothèses qui sous-tendent les modèles élaborés. En ce qui concerne les études de couverture, les tests statistiques indiquent que l'ajustement, quoique non exempt d'erreur en soi, améliore la qualité des données du recensement (Royce, 1993). Les hypothèses sélectionnées ont l'avantage d'être cohérentes dans le temps et par région géographique, ainsi que de fournir des résultats logiques. Les utilisateurs doivent se rappeler que lorsque l'on calcule les taux de SDNR pour des petites régions, il se pourrait que les hypothèses sous-jacentes ne soient pas respectées. Si tel était le cas, les taux de SDNR utilisés les induiraient en erreur. Cependant les erreurs associées à ces hypothèses sont très difficiles à quantifier.

Néanmoins, les corrections apportées aux données du recensement pour le SDNR améliorent, en général, la qualité des estimations en compensant pour le sous-dénombrement différentiel aux différents recensements selon l'âge, le sexe et par province et territoire.

Le rajustement intègre également les résultats d'une étude sur l'estimation des personnes des réserves indiennes partiellement dénombrées pour compléter la correction des données du recensement pour les erreurs de couverture. Les résultats des études de couverture contiennent principalement des erreurs aléatoires liées à l'échantillonnage.

Ces rajustements ont un impact direct sur : 

  1. l'erreur en fin de période et sa distribution par âge et sexe à l'intérieur d'une même province ou territoire, de même que par province ou territoire, étant donné la variation du SDNR 1  et sa distribution d'un recensement à l'autre;
  2. la cohérence des estimations de population pour une même cohorte de naissance. Prenons l'exemple de la cohorte masculine des moins de 5 ans en 1981. En utilisant les données de recensement non rajustées pour le SDNR1, on remarque que ce groupe est moins nombreux au Recensement de 2001 (groupe des 20-24 ans) qu'à celui de 1996 (groupe des 15-19 ans). Comme le Canada reçoit beaucoup d'immigrants à ces âges, on se serait attendu au contraire. Or, ce n'est qu'après le rajustement pour le SDNR1 que la taille de la cohorte augmente, tel qu'attendu, entre 1996 et 2001.

Pour de plus amples informations sur les principales études de couverture, veuillez consulter le document suivant sur le site Internet de Statistique Canada : Rapport technique du Recensement de 1996, 2001 sur la couverture.

Composantes

Les erreurs provenant des méthodes d'estimation et des sources de données autres que le recensement ont également une importance non négligeable.

A. Naissances et décès

La loi exigeant la tenue d'un registre de l'état civil, les estimations définitives des naissances et des décès répondent à des normes de qualité très élevées. Toutefois, puisque les données provisoires sont modélisées, elles diffèrent légèrement des données définitives.

B. Immigration et résidents non permanents

En ce qui concerne les immigrants et les résidents non permanents, Citoyenneté et Immigration Canada administre des fichiers propres à ces deux composantes. L'immigration étant contrôlée par une loi, les données sur les immigrants et les résidents non permanents (RNP) sont systématiquement recueillies à leur arrivée au Canada. Ces données ne concernent que l'immigration « légale » et excluent donc les immigrants illégaux. Ainsi, les données sur les entrées internationales « légales » au Canada sont considérées d'une qualité supérieure. Toutefois, des biais peuvent exister quant à la province de destination : Celle envisagée par l'immigrant au moment de l'arrivée peut différer de celle où il résidera de fait. Enfin, parce que l'information fournie par le Système sur les visiteurs (SV) de Citoyenneté et Immigration Canada (CIC) est incomplète (l'âge et le sexe des personnes à charge, la province de résidence pour certains groupes de détenteurs de permis), les estimations de NPR sont plus sujettes aux erreurs que les données sur les immigrants.

C. Émigration, émigration de retour et solde de l'émigration temporaire

Parmi les composantes qu'utilise le programme des estimations de population, celles-ci sont les plus difficiles à estimer avec précision. C'est que le Canada n'a pas de système d'enregistrement à ses frontières. Alors que l'immigration et les résidents non permanents (RNP) sont bien documentés par le gouvernement fédéral, Statistique Canada a toujours eu recours à des techniques d'estimations indirectes pour estimer les personnes quittant le pays. Pour cette raison, les statistiques disponibles sur ces trois composantes ont toujours été d'une moins bonne précision que celles des autres composantes.

L'estimation des émigrants et des émigrants de retour provient d'informations tirées du fichier des Prestations fiscales canadiennes pour enfants (PFCE) de l'Agence du revenu du Canada (ARC). L'estimation doit être rajustée afin de tenir compte des enfants non admissibles au programme et dériver l'émigration des adultes.

Ces rajustements et le délai d'obtention des données sont les deux principales sources d'erreur. Comme il n'existe pas d'informations courantes sur les personnes temporairement à l'étranger, les estimations sont basées sur la Contre-vérifications des dossiers (CVD) et le recensement. Les estimations pour la période intercensitaire, réparties également entre les cinq années, sont maintenues constantes pour la période postcensitaire. De plus, certaines hypothèses doivent être admises afin de répartir les données nationales par province et territoire et les données annuelles par trimestre. Toute variation géographique ou trimestrielle peut entraîner une erreur dans l'estimation de ces composantes.

D. Migration interprovinciale

Depuis juillet 1993, les estimations provisoires 2  de la migration interprovinciale sont établies à partir des fichiers des Prestations fiscales canadiennes pour enfants (PFCE). Sous ce programme, seulement 76 % des enfants âgés de 0 à 17 ans à l'échelle du Canada étaient bénéficiaires au 1er juillet 2001. Par conséquent, nous croyons que les estimations provisoires basées sur les PFE sont sujettes à des erreurs plus importantes que celles établies à partir des fichiers d'impôt de l'Agence du revenu du Canada (ARC).

Mesure de qualité

Afin d'évaluer la qualité de nos estimations, deux mesures d'évaluation sont utilisées : Les erreurs de précocité et les erreurs en fin de période.

A. Erreur de précocité

On évalue la qualité des estimations démographiques provisoires en analysant les erreurs de précocité. L'erreur de précocité est la différence entre l'estimation provisoire et l'estimation définitive divisée par la population totale. L'erreur de précocité peut se calculer tant pour les estimations de la population que celles des composantes.

L'erreur de précocité d'une composante nous renseigne sur l'ampleur de l'erreur entre l'estimation provisoire et définitive de la population, ce qui nous permet de procéder à des comparaisons utiles entre les composantes ainsi qu'entre les provinces et les territoires dont la taille de la population est différente. À noter qu'en comparant à la population totale d'une région, les différences entre les estimations provisoires et définitives des composantes sont minimes. Il existe toutefois des écarts quant à l'incidence de ce type d'erreur entre les composantes et entre les provinces et les territoires.

Règle générale, le solde de la migration interprovinciale est associé aux erreurs de précocité les plus importantes. Cet état de choses est dû à l'utilisation de sources de données différentes pour les estimations provisoires et définitives. Pour la plupart des années et des provinces/territoires, des erreurs de précocité plus faibles sont associées aux estimations de l'immigration, des naissances et des décès. Dans le cas des estimations de l'immigration, cette situation est attribuable à l'intégralité des sources de données et à l'accessibilité des données permettant de produire des estimations provisoires plus à jour. En ce qui a trait aux naissances et aux décès, les petites erreurs de précocité s'expliquent par l'utilisation de projections à court terme pour la production des estimations provisoires.

Dans l'hypothèse où la qualité des données de base demeure inchangée, les présentes estimations postcensitaires devraient présenter un niveau de fiabilité fort acceptable si l'on en juge par l'analyse des dernières erreurs de précocité observées.

B. Erreur en fin de période

L'erreur en fin de période permet de mesurer l'exactitude des estimations postcensitaires. Elle est définie comme la différence entre les estimations postcensitaires, au jour du recensement, et la population dénombrée et corrigée du sous dénombrement net du recensement (SDNR)1, lors de ce recensement.

L'erreur en fin de période provient de deux sources : Les différences relatives du SDNR1 entre recensements consécutifs et les erreurs relatives aux composantes de l'accroissement démographique pendant la période intercensitaire. Pour chaque période intercensitaire quinquennale, l'erreur en fin de période ne peut être calculée qu'au moment de la diffusion des données du recensement et des estimations du SDNR1.

En ramenant cette différence à la population recensée rajustée pour le SDNR1, on obtient un taux qui, à l'échelle du pays, est peu important (0,16 % en 2001 et 0,32 % en 2006). À l'échelle des provinces et des territoires, les différences sont généralement plus élevées, cette différence étant due à la plus forte variabilité associée aux estimations de la migration interprovinciale. Ceci étant dit, les estimations postcensitaires provinciales et territoriales diffèrent généralement de moins de 1 % des populations censitaires rajustées, sauf pour les territoires et à quelques exceptions près.

Suivant | Précédent