Section 7 : Qualité des données

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Section suivante | Section précédente

Erreurs non dues à l’échantillonnage

Des erreurs qui ne sont pas liées à l'échantillonnage peuvent se produire à presque toutes les étapes des opérations d'enquête. Les intervieweurs peuvent avoir mal compris les instructions, les répondants peuvent se tromper en répondant aux questions, les réponses peuvent être saisies de façon incorrecte, et des erreurs peuvent être faites au moment du traitement et de la totalisation des données. Il s’agit d’exemples d'erreurs non dues à l'échantillonnage.

Lorsque le nombre d'observations est élevé, les erreurs aléatoires ont peu d'effet sur les estimations calculées à partir des résultats de l'enquête. Toutefois, les erreurs systématiques contribuent à biaiser les estimations de l'enquête. À chacune des étapes du cycle de collecte et de traitement des données, on applique des mesures d'assurance de la qualité pour contrôler la qualité des données. Ces mesures comprennent le recours à des intervieweurs hautement qualifiés, une formation poussée des intervieweurs concernant les procédures de l'enquête et le questionnaire, l'observation des intervieweurs en vue de cerner les problèmes liés à la conception du questionnaire ou à une mauvaise compréhension des instructions, des contrôles visant à réduire au minimum les erreurs de saisie des données, ainsi que des vérifications du codage et des contrôles ayant pour but d'attester de la logique du traitement.

Erreurs d’échantillonnage

L'Enquête sur la population active (EPA) vise à recueillir des renseignements auprès d'un échantillon de ménages. On pourrait obtenir des estimations quelque peu différentes d'un recensement complet des ménages réalisé dans un environnement identique en utilisant les mêmes questionnaires, intervieweurs, superviseurs, méthodes de traitement, etc. L'écart entre les estimations tirées de l'échantillon et celles que donnerait un dénombrement exhaustif réalisé dans des conditions comparables est appelé erreur d'échantillonnage, précision de l'estimation ou variabilité d'échantillonnage.

On peut recourir à trois méthodes reliées pour interpréter et évaluer l’erreur d’échantillonnage ou la précision de l’estimation : l’erreur-type et deux autres méthodes fondées également sur l’erreur-type, soit celle des coefficients de variation et celle des intervalles de confiance. Ces méthodes peuvent être utilisées pour effectuer des tests d’hypothèses.

Les produits de l’EPA sont assortis de mesures approximatives de l'erreur d'échantillonnage; nous recommandons aux utilisateurs d'en tenir compte au moment d'analyser les données. Dans tous les tableaux CANSIM comportant des données désaisonnalisées, l’erreur-type associée aux estimations mensuelles, aux estimations des variations d’un mois à l’autre et aux estimations des variations d’une année à l’autre est indiquée. Un tableau des régions économiques indique l’erreur-type de l’estimation et celle de la variation d’une année à l’autre. On peut se servir des tableaux 7.1, 7.2 et 7.3 pour obtenir les coefficients de variation (c.v.) approximatifs pour la plupart des autres estimations diffusées.

Les estimations relatives à la profession fondées sur la Classification nationale des professions (CNP) de 2011 ont été diffusées en janvier 2016. On peut donc obtenir sur demande les c.v. et les erreurs-types pour tous les tableaux CANSIM renfermant des données sur les professions. Pour obtenir ces mesures ou les mesures relatives à d’autres séries, veuillez communiquer avec le Service de renseignements statistiques de Statistique Canada (appels sans frais : 1-800-263-1136; appels internationaux : 1-514-283-8300; courriel : STATCAN.infostats-infostats.STATCAN@canada.ca).

On peut aussi avoir accès directement aux données et aux poids bootstrap de l’EPA par l’entremise des centres de données de recherche. Consulter la sous-section intitulée Accès au microdonnées dans la section 9 pour plus de renseignements.

Interprétation à l'aide de l'erreur-type

L'erreur-type est une mesure numérique de l’erreur d’échantillonnage permettant de quantifier ce que serait l'écart entre les estimations de tous les échantillons possibles en présence d’un même plan d'échantillonnage. La valeur de l’erreur-type en elle-même peut être difficile à interpréter, mais on l’utilise pour élaborer des mesures plus intuitives, notamment des coefficients de variation et des intervalles de confiance. Ces mesures servent aussi à l’analyse des données à l’aide de tests d’hypothèses.

Bien que le concept de l’erreur-type soit fondé sur l’idée de la sélection de plusieurs échantillons, en pratique, un seul échantillon est tiré et l’erreur-type est estimée en fonction de l’information provenant des unités de cet échantillon.

L’erreur-type dépend de la taille de l’échantillon et du taux de réponse, de la taille de la population, de la variabilité de la caractéristique à l’étude dans la population ainsi que du plan d’échantillonnage et de la méthode d’estimation. Normalement, dans le cas d’estimations similaires, l’estimation fondée sur l’échantillon le plus grand produit l’erreur-type la plus faible.

Interprétation à l'aide du coefficient de variation

Les c.v. sont couramment utilisés dans la pratique pour rendre compte de l’erreur d’échantillonnage des estimations produites d’après les données d’enquête. L’une des caractéristiques des c.v. est qu’ils constituent une mesure relative, ce qui signifie qu’ils permettent de comparer la qualité d’estimations de tailles différentes. Pour calculer le c.v., on divise l’erreur-type par l’estimation.

L’obtention de petits c.v. est souhaitable, car la variabilité d’échantillonnage par rapport à l’estimation est d’autant plus faible que le c.v. est petit. Comme le c.v. représente l’erreur-type exprimée en pourcentage de l’estimation, plus l’estimation est faible, plus le c.v. est élevé (toutes choses étant égales par ailleurs). Par exemple, lorsque le taux de chômage est élevé, le c.v. peut être faible. Si le taux de chômage baisse en raison de l’amélioration de la situation économique, le c.v. correspondant augmente.

Interprétation à l'aide des intervalles de confiance

On peut aussi examiner la variabilité inhérente aux estimations tirées d'enquêtes-échantillons sous l'angle des intervalles de confiance. Un intervalle de confiance est une gamme de valeurs dans laquelle la valeur réelle a une probabilité, appelée niveau de confiance, de se trouver. En d’autres termes, un intervalle à 95 % signifie que si l'on tire un grand nombre d’échantillons et qu’on établit un intervalle de confiance pour chacun, 95 % des intervalles de confiance établis devraient contenir la valeur réelle. Pour illustrer la façon dont s’effectue le calcul d'un intervalle de confiance, supposons que, au cours d'un mois donné, l'estimation publiée de l'emploi total augmente de 60 000 et que l'erreur-type associée à l'estimation de la variation se chiffre à 25 000. On peut alors dire que :

Un intervalle de confiance à 95 % peut être établi en ajoutant 50 000 (deux fois l’erreur-type) à 60 000 et en le soustrayant de ce nombre. Cela signifie que dans environ 19 cas sur 20 (95 %), la valeur réelle de la variation d’un mois à l’autre se situe dans la fourchette allant de 10 000 à 110 000.
Si l’on ajoute une fois l’erreur-type (25 000) à 60 000 et qu’on la soustrait de ce nombre, on établit un intervalle de confiance à 68 %. Cela signifie que dans environ deux cas sur trois (68 %), la valeur réelle de la variation d’un mois à l’autre se situe dans la fourchette allant de 35 000 à 85 000.

Exécution de tests d’hypothèses

Les erreurs-types peuvent aussi servir à effectuer des tests d’hypothèses, une procédure permettant de distinguer des paramètres d’une population à l’aide d’estimations d’un échantillon. Plus grande est la variation observée entre deux estimations se rapportant à l’erreur-type, plus grande est la probabilité que l’on constate une variation réelle plutôt qu’une variation attribuable à la variabilité d’échantillonnage.

Une façon simple d’effectuer un test d’hypothèse est d’utiliser un intervalle de confiance. Si l’intervalle de confiance à 95 % d’une estimation de la variation observée ne contient pas la valeur zéro, la variation est considérée comme étant statistiquement significative à un seuil de signification de 5 %. Le seuil de signification correspond à la probabilité de conclure qu’il y a une variation alors qu’en réalité la variation réelle est nulle. Si l’intervalle de confiance de l’estimation contient la valeur zéro, l’estimation est moins susceptible de montrer un changement réel qu’une variation attribuable à l’échantillonnage.

À titre d’exemple, supposons que, d’un mois à un autre, l’estimation publiée pour l’emploi total augmente de 60 000 et que l’erreur-type associée à l’estimation de la variation s’établit à 25 000. Comme l’intervalle de confiance à 95 % (10 000 à 110 000) ne contient pas la valeur zéro, cette variation de l’emploi est considérée comme étant significative à un seuil de signification de 5 %.

Utilisation de tableaux de variabilité d’échantillonnage approximative

Dans la pratique, les erreurs-types ne sont pas données pour toutes les estimations publiées; des tableaux des c.v. approximatifs sont fournis pour permettre aux utilisateurs d’obtenir les c.v. On peut calculer l’erreur-type en multipliant le c.v. par l’estimation. L’erreur-type ainsi obtenue peut ensuite servir à établir les intervalles de confiance et à effectuer des tests d’hypothèses, comme on l’a mentionné plus haut.

Trois tableaux sont offerts : le tableau 7.1 pour les estimations mensuelles totales pour le Canada et les provinces, le tableau 7.2 pour les estimations des moyennes annuelles pour le Canada et les provinces et le tableau 7.3 pour les estimations des moyennes mobiles de trois mois et des moyennes annuelles pour les territoires.

Ces tableaux donnent une idée approximative de la variabilité d’échantillonnage. Cette dernière est modélisée pour que le c.v. réel de l’estimation soit inférieur ou égal au c.v. du tableau dans environ 75 % des cas. Néanmoins, dans 25 % des cas, le c.v. réel de l’estimation sera un peu plus élevé que celui indiqué par le tableau.

Tableau 7.1

Coefficient de variation (c.v.) pour les estimations mensuelles, Canada et les provinces

Tableau 7.2

Coefficient de variation (c.v.) pour les estimations de moyennes annuelles, Canada et les provinces

Tableau 7.3

Coefficient de variation (c.v.) pour les estimations de moyennes mobiles de trois mois et moyennes annuelles, territoires

Variabilité des estimations mensuelles pour le Canada et les provinces

Pour connaître la mesure approximative du c.v. d'une estimation d’un total mensuel, veuillez consulter le tableau 7.1, lequel présente la taille de l'estimation en fonction de la région géographique et du c.v. Les lignes correspondent à la région géographique à laquelle l'estimation est associée et les colonnes, au degré de précision exprimé en c.v., en fonction de la taille de l'estimation. Pour déterminer le c.v. d'une estimation de taille X dans la région A, suivez la ligne de la région A jusqu'à la première estimation la plus proche de X sans la dépasser. Le titre de la colonne indiquera le c.v. approximatif. Par exemple, pour connaître l'erreur-type d'une estimation de 34 700 chômeurs à Terre-Neuve-et-Labrador en novembre 2015, on trouve l'estimation inférieure la plus proche, de 27 200, ce qui donne un c.v. de 5 %. L’estimation de 34 700 chômeurs à Terre-Neuve-et-Labrador aura donc un c.v. d’environ 5 %.

Les valeurs de c.v. qui apparaissent au tableau 7.1 sont calculées à partir d’un modèle établi à partir des données de l'échantillon de l'EPA pour la période de 48 mois allant de janvier 2012 à décembre 2015 inclusivement. Il faut bien se rappeler que ces valeurs ne sont que des approximations.

Le tableau 7.1 peut être utilisé avec des estimations désaisonnalisées ou des estimations non désaisonnalisées. Des études ont démontré que les erreurs-types de l'EPA, dans le cas des données désaisonnalisées, se rapprochent de celles des données non corrigées, particulièrement quand les estimations portent sur de plus grandes populations et de plus grands domaines.

Variabilité des estimations annuelles pour le Canada et les provinces

Pour connaître la mesure approximative du c.v. d'une estimation d'une moyenne annuelle, veuillez consulter le tableau 7.2, lequel présente la taille de l'estimation en fonction de la région géographique et du c.v. Les lignes correspondent à la région géographique à laquelle l'estimation est associée et les colonnes, au degré de précision exprimé en c.v., en fonction de la taille de l'estimation. Pour déterminer le c.v. d'une estimation de taille X dans la région A, suivez la ligne de la région A jusqu'à la première estimation la plus proche de X sans la dépasser. Le titre de la colonne indiquera le c.v. approximatif. Par exemple, pour connaître l'erreur-type d'une estimation d’une moyenne annuelle de 34 700 chômeurs à Terre-Neuve-et-Labrador en 2015, on trouve l'estimation la plus proche, de 29 300, ce qui donne un c.v. de 2,5 %. L’estimation de 34 700 chômeurs à Terre-Neuve-et-Labrador aura donc un c.v. d’environ 2,5 %.

Les valeurs de c.v. mentionnées au tableau 7.2 sont calculées à partir d'un modèle établi à partir des données de l'échantillon de l'EPA pour la période de 5 ans allant de 2011 à 2015. Il faut bien se rappeler que ces valeurs ne sont que des approximations.

Tableaux de variabilité de l’échantillonnage pour les territoires

Les valeurs de c.v. pour les moyennes mobiles de trois mois mentionnées au tableau 7.3 pour le Yukon, les Territoires du Nord-Ouest et le Nunavut sont calculées à l’aide de modèles établis à partir des données de l'échantillon de l'EPA pour la période de 48 mois allant de janvier 2012 à décembre 2015 inclusivement. Les valeurs de c.v. pour les moyennes annuelles affichées dans le même tableau sont calculées à l’aide de modèles établis à partir des données de l'échantillon de l'EPA pour la période de 5 ans allant de 2011 à 2015.

Variabilité des taux

Pour les estimations exprimées sous forme de taux ou de pourcentages, la variabilité d'échantillonnage dépend de la variabilité du numérateur et du dénominateur du ratio. Les divers taux donnés sont traités différemment, car certains dénominateurs sont des valeurs étalonnées pour lesquelles il n'y a pas de variabilité d'échantillonnage.

Taux de chômage

Le taux de chômage est défini comme le ratio de X, soit le nombre de chômeurs dans un groupe, à Y, soit le nombre total de personnes dans la population active pour le même groupe. Le groupe peut désigner une province ou une RMR ou un groupe d'âge-sexe.

Le c.v. du taux de chômage peut être estimé au moyen de la formule suivante :

[CV(X/Y)]² = [CV(X)] ² + [CV(Y)] ²– 2p[CV(X)] [CV(Y)]

où CV(X) correspond au c.v. du nombre total de chômeurs d'un sous-groupe géographique ou démographique particulier et CV(Y), au c.v. du nombre total de personnes faisant partie de la population active dans le même sous-groupe. Le coefficient de corrélation, désigné par p, rend compte de l'ampleur de l'association linéaire entre X et Y (respectivement, le nombre de chômeurs et le nombre de personnes faisant partie de la population active dans le même sous-groupe). La valeur de p se situe entre -1 et 1. Par exemple, une forte association linéaire positive indiquerait que le nombre de chômeurs augmente généralement à mesure que le nombre total de personnes faisant partie de la population active augmente. À noter que nous pouvons nous attendre à un c.v. plus important pour le taux de chômage lorsque p est négatif, étant donné que dans ce cas, le troisième terme du côté droit de l'équation ci-dessus devient positif.

Lorsque p n’est pas disponible, l’approche la plus conservatrice consiste à utiliser p = -1, ce qui mène à la formule simplifiée suivante :

CV(X/Y) = CV(X) + CV(Y)

À noter que cela entraînera probablement une surestimation de CV(X/Y).

Par exemple, en novembre 2015, on observait à Terre-Neuve-et-Labrador 34 700 chômeurs et 268 900 personnes faisant partie de la population active, ce qui donne un taux de chômage de 12,9 %. Le tableau 7.1 donne, pour les deux chiffres, des c.v. de 5,0 % et de 1,0 %, respectivement. Une approximation du c.v. du taux de chômage de 12,9 %, à partir de la formule qui précède, serait la suivante :

5,0 % + 1,0 % = 6,0 %

À noter que, dans cette estimation en particulier, l’approximation susmentionnée n’est que légèrement supérieure au c.v. de 5,8 %, lequel a été estimé au moyen de méthodes d’estimation de la variance complexes exigeant beaucoup de ressources informatiques.

Taux d’activité et taux d’emploi

Le taux d’activité représente le nombre de personnes dans la population active exprimé en pourcentage de la taille de la population totale. Le taux d’emploi est le nombre total de personnes occupées divisé par la taille de la population totale. Le numérateur et le dénominateur de ces deux taux se rapportent au même groupe géographique et démographique.

Les estimations de la population de l’EPA à l’échelle du Canada, des provinces, des RMR et de certains groupes d’âge-sexe ne sont pas sujettes à la variabilité d’échantillonnage, car elles sont étalonnées selon des sources indépendantes. Par conséquent, le c.v. correspondant du taux d’activité et du taux d’emploi est équivalent au c.v. du numérateur.

Certains sous-groupes du Canada, comme ceux qui se rapportent à l’industrie et à la profession, ne sont pas étalonnés selon des sources indépendantes. Par exemple, il n’existe aucune source indépendante officielle pour le dénombrement mensuel des personnes occupées dans le secteur de l’agriculture au Manitoba. Pour déterminer le c.v. des taux se rapportant à de tels sous-groupes, on doit tenir compte de la variabilité du numérateur et du dénominateur, car le dénominateur n’est plus un total contrôlé. Il est donc sujet à la variabilité d’échantillonnage. On peut calculer le c.v. associé au taux d’activité et au taux d’emploi dans un sous-groupe de la même façon que pour le taux de chômage. Les totaux figurant au numérateur et au dénominateur d’un taux en particulier devraient se rapporter au même sous-groupe.

Variabilité des estimations d’un changement

La différence entre des estimations provenant de deux périodes différentes donne une estimation du changement, laquelle est sujette aussi à la variabilité d’échantillonnage. Les utilisateurs souhaitent généralement déterminer si cette variation est statistiquement significative ou non. L’estimation d’une variation d’une année à l’autre ou d’un mois à l’autre repose sur deux échantillons qui peuvent avoir des ménages en commun. Ainsi, la variabilité d’échantillonnage du changement dépend à la fois de la variabilité d’échantillonnage des estimations observées à chacune des deux périodes et de la corrélation p entre les deux périodes.

La valeur de p va de -1 à 1, le chiffre 1 correspondant à une association linéaire positive parfaite. On peut généralement utiliser le chevauchement des échantillons pour produire une approximation du coefficient de corrélation de la façon suivante :

Pour les provinces : utilisez p = 5/6 pour les variations d’un mois à l’autre et p = 0 pour les variations d’une année à l’autre.
Des études empiriques menées à Statistique Canada ont montré que, pour les provinces, une valeur de p égale à 5/6 représente une bonne approximation des estimations de l’emploi, mais que pour les estimations du chômage, une valeur p de 0,45 produirait une meilleure approximation des variations d’un mois à l’autre.

En règle générale, le c.v. de l’estimation de la variation n’est pas une mesure utile pour l’analyse, mais peut servir à dériver des statistiques plus intéressantes. Comme il est expliqué dans la sous-section intitulée Exécution de tests d’hypothèses, on peut effectuer un test d’hypothèse au moyen des intervalles de confiance fondés sur l’erreur-type de l’estimation. L’erreur-type peut être obtenue à partir du c.v., en multipliant le c.v. par l’estimation de la variation (Y₂-Y₁). On peut donc calculer le c.v. de l’estimation de la variation à partir des c.v. des estimations pour les deux périodes, au moyen de la formule suivante :

(1)

Description de l'image(6)

où Y₁ et Y₂ correspondent à l’estimation respective des deux périodes. La valeur de p correspond au coefficient de corrélation entre Y₁ et Y₂.

Note : Si l’estimation du changement (Y₂-Y₁) est négative, le CV obtenu est aussi négatif; on présente toutefois généralement la valeur positive équivalente.

Lorsqu’on compare les moyennes annuelles de deux années, les c.v. des estimations annuelles (tableau 7.2) devraient être utilisés. Pour une variation d’un mois à l’autre, les estimations désaisonnalisées devraient être utilisées, conjointement avec les c.v. des estimations mensuelles calculés à partir du tableau 7.1. Veuillez prendre note que la formule ci-dessus donne une estimation approximative de la variabilité de l’échantillonnage associée à l’estimation d’un changement.

Lignes directrices concernant la fiabilité des données

Les enquêtes-ménages de Statistique Canada se fondent généralement sur les lignes directrices et les catégories de fiabilité suivantes pour interpréter les valeurs de c.v. en ce qui a trait à l’exactitude des données et la diffusion de l’information statistique.

Catégorie 1— Si le c.v. est ≤ 16,5 %, aucune restriction de diffusion : les données sont suffisamment exactes, si bien qu’un avertissement particulier aux utilisateurs ou d’autres restrictions ne sont pas nécessaires.

Catégorie 2— Si le c.v. est > 16,5 % et ≤ 33,3 %, diffusion avec mise en garde : les données sont potentiellement utiles pour certaines fins, mais devraient être accompagnées d’un avertissement aux utilisateurs concernant leur exactitude.

Catégorie 3— Si le c.v. est > 33,3 %, diffusion déconseillée : les données contiennent un niveau d’erreur élevé au point qu’elles ne devraient pas être diffusées dans la plupart des circonstances afin d’éviter de tromper les utilisateurs. Si les utilisateurs insistent pour inclure les données de la Catégorie 3 dans un produit non normalisé, même après avoir été informés de leur exactitude, les données devraient être accompagnées d’un avis de non-responsabilité. L’utilisateur devrait reconnaître les mises en garde reçues et s’engager à ne pas diffuser, présenter, ni déclarer les données, directement ou indirectement, sans cet avis de non-responsabilité.

Critères de confidentialité de diffusion

La loi interdit à Statistique Canada de rendre publiques toutes données susceptibles de révéler de l’information obtenue en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissables sans que cette personne, entreprise ou organisation le sachent ou y consentent par écrit. Diverses règles de confidentialité s’appliquent à toutes les données diffusées ou publiées afin d’empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.

L’EPA permet de produire une vaste gamme de résultats donnant des estimations pour diverses caractéristiques de la population active. La plupart de ces résultats sont des estimations présentées sous la forme de tableaux de tri croisé. Les estimations sont arrondies à la centaine la plus proche, et un ensemble de règles de suppression est appliqué pour qu’aucune estimation inférieure à un seuil minimum ne soit diffusée.

Les estimations de l’EPA inférieures aux seuils présentés au tableau 7.4 sont supprimées.

Tableau 7.4

Valeur minimale pour diffusion, Canada, provinces et territoires