La qualité des données

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Erreur d'échantillonnage
Erreur non due à l'échantillonnage
Effet des valeurs extrêmes
Comparabilité dans le temps

Erreur d'échantillonnage

Les erreurs d'échantillonnage résultent du fait que l'on tire certaines conclusions au sujet de l'ensemble de la population à partir des renseignements obtenus auprès de seulement un échantillon de cette population. L'importance de l'erreur d'échantillonnage est fonction du plan de sondage, de la variabilité des données et de la taille de l'échantillon. De plus, pour un plan d'échantillonnage donné, on obtiendra des erreurs d'échantillonnage différentes pour différentes méthodes d'estimation.

Le plan retenu pour l'Enquête sur les dépenses des ménages de 2006 était un échantillonnage stratifié à plusieurs degrés. Dans un échantillonnage à plusieurs degrés, les erreurs d'échantillonnage sont normalement plus importantes que dans un échantillonnage aléatoire simple de même taille. Toutefois, les avantages sur le plan opérationnel l'emportent sur cet inconvénient, et le fait que l'échantillon soit aussi stratifié améliore la précision des estimations.

La variabilité des données est la différence entre les unités de la population par rapport aux dépenses pour un article ou la présence d'une caractéristique spécifique du logement ou d'une pièce d'équipement ménager. En général, plus ces différences sont grandes, plus l'erreur d'échantillonnage de cet article est élevée. Également, plus la taille de l'échantillon est grande, plus l'erreur d'échantillonnage est faible.

Erreur type et coefficient de variation

Une mesure courante de l'erreur d'échantillonnage est l'erreur type (ET). L'erreur type est le degré de variation que l'on observe dans les estimations par suite du choix d'un échantillon particulier plutôt qu'un autre. Il a été démontré que la « vraie » valeur de la caractéristique d'intérêt se situe à l'intérieur de l'intervalle de +/- 1 erreur type de l'estimation pour 68 % de tous les échantillons, et de +/- 2 erreurs types de l'estimation pour 95 % de tous les échantillons.

Le coefficient de variation (CV) est l'erreur type exprimée en tant que pourcentage de l'estimation. Il est utilisé pour indiquer le degré d'incertitude associé à une estimation. Par exemple, si l'estimation du nombre de ménages pour une caractéristique du logement donnée est 10 000 ménages, et que le CV correspondant est de 5 %, la vraie valeur se situe entre 9 500 et 10 500 ménages, 68 % du temps, et entre 9 000 et 11 000 ménages, 95 % du temps.

Les erreurs types pour l'Enquête sur les dépenses des ménages de 2006 ont été estimées selon la méthode du « bootstrap ». Cette méthode permet l'estimation de la variance de statistiques non lisses comme les quantiles. Pour plus de renseignements sur les erreurs types et les coefficients de variation, voir la publication de Statistique Canada, intitulée Méthodologie de l'enquête sur la population active du Canada, no 71-526 X au catalogue.

Les coefficients de variation sont disponibles sur demande (communiquez avec les Services aux clients, Division de la statistique du revenu, 1-888-297-7355; revenu@statcan.gc.ca).

Suppression de données

Pour des raisons de fiabilité, les données pour lesquelles les CV ont été estimés à plus de 33 % devraient être supprimées. Puisque les CV ne sont pas calculés pour toutes les estimations, la suppression de données pour l'Enquête sur les dépenses des ménages a été fondée sur la relation entre le CV et le nombre de ménages qui déclaraient des dépenses pour un article. L'analyse d'enquêtes antérieures indique que les CV atteignent habituellement ce niveau lorsque le nombre de ménages qui déclarent un article chute à environ 30. Par conséquent, on a supprimé les dépenses moyennes des ménages et le pourcentage de ménages déclarants pour les articles déclarés par moins de 30 ménages.

Toutefois, les données relatives aux articles supprimés sont incluses dans les variables sommaires. Par exemple, les dépenses pour une catégorie particulière d'habillement pourraient être supprimées, mais ce montant fait partie de l'estimation des dépenses totales au titre de l'habillement.

Estimation du coefficient de variation

Il est possible d'estimer le CV de n'importe quelle donnée non représentée aux annexes au moyen d'une relation entre le CV et le nombre de ménages qui ont déclaré avoir engagé des dépenses pour un article ou qui ont une caractéristique de logement donnée. Des études antérieures ont montré que le CV de l'estimation d'un article a tendance à régresser proportionnellement à la racine carrée du nombre de ménages qui ont déclaré des dépenses pour l'article en question.

Par exemple, selon l'annexe B, le CV estimé pour les dépenses moyennes des ménages au titre d'un logement loué est, pour l'ensemble des ménages en Ontario, de 4.61 %. Pour estimer le CV des dépenses moyennes des ménages au titre de logements loués à Toronto, on devrait utiliser l'équation suivante. Veuillez noter que cette méthode ne fournit qu'une estimation du CV seulement.

CV pour les dépenses moyennes consacrées à des logements loués par les ménages à Toronto :

Description


CV pour les dépenses moyennes consacrées à des logements loués par les ménages à Toronto
Nota : Lorsqu'il est nécessaire de calculer un CV pour une sous-population à l'échelle du Canada (p. ex. ménages composés d'un parent unique) le CV pour le Canada devrait être utilisé.

Erreur non due à l'échantillonnage

Les erreurs non dues à l'échantillonnage se produisent parce qu'il est difficile, en raison de certains facteurs, d'obtenir des réponses exactes et de faire en sorte que ces réponses restent exactes à toutes les étapes du traitement. Contrairement à l'erreur d'échantillonnage, l'erreur non due à l'échantillonnage n'est pas facilement quantifiable. On peut dégager quatre sources d'erreurs non dues à l'échantillonnage : les erreurs de couverture, les erreurs de réponse, les erreurs de non-réponse et les erreurs de traitement.

Erreur de couverture

Les erreurs de couverture découlent d'une représentation inadéquate de la population observée. Ces erreurs peuvent survenir au cours de l'établissement du plan d'échantillonnage ou du tirage de l'échantillon, ou encore pendant la collecte ou le traitement des données.

Erreur de réponse

Les erreurs de réponse peuvent être attribuables à divers facteurs comme l'ambiguïté du questionnaire, une mauvaise interprétation des questions par les intervieweurs ou les répondants ou la déclaration de données inexactes par les répondants.

Plusieurs caractéristiques de l'enquête aident les répondants à se rappeler leurs dépenses de la façon la plus exacte possible. Premièrement, la période de l'enquête est l'année civile, car dans l'esprit des gens elle est probablement définie plus clairement que toute autre période de longueur semblable. Deuxièmement, les dépenses alimentaires peuvent être estimées comme étant des dépenses hebdomadaires ou mensuelles, selon les habitudes du répondant. Troisièmement, les dépenses pour de petits articles achetés à intervalles réguliers sont normalement estimées en fonction du montant et de la fréquence de l'achat. Les achats de gros articles (p. ex. une automobile) sont assez faciles à se rappeler, tout comme les dépenses au titre du loyer, des taxes foncières, et des versements mensuels pour emprunts hypothécaires. Toutefois, même dans le cas de ces articles, l'exactitude des données dépend de la capacité du répondant de se rappeler et de sa volonté de consulter des dossiers.

Pour les reprises de l'EDM antérieures à 2006, on a adopté une mesure de contrôle de qualité des données appelée contrôle d'équilibre. Avec cette mesure, on repère les enregistrements où les dépenses déclarées diffèrent de plus de 20 % de la somme du revenu et de la variation nette de l'actif des ménages. On a demandé à l'intervieweur (subalterne ou principal) de tâcher d'obtenir un complément d'information pour que les dépenses se soldent en équilibre avec le revenu et les variations de l'actif dans une proportion de moins de 15 %. Les questionnaires où il y avait constat de déséquilibre (dans une proportion de plus de 20 %) à l'étape du traitement étaient jugés inexploitables et ils étaient exclus des estimations. Dans l'EDM de 2006 en mode IPAO, il n'y a pas de contrôle d'équilibre à l'étape de la collecte, mais un certain nombre de vérifications automatiques permettant de déceler les valeurs inusitées ou incohérentes. Toutefois, lorsque le contrôle d'équilibre a été appliqué à l'étape du traitement, il reste que, dans cette reprise de l'enquête, le nombre de questionnaires sans équilibre est en hausse significative (il est passé de 546 pour l'année de référence 2005 à 4 300, soit 29,4 % des 14 635 questionnaires remplis pour 2006).

S'il avait fallu éliminer comme inutilisable un tel nombre de questionnaires, on aurait sérieusement risqué de biaiser les résultats, aussi a-t-on analysé soigneusement la situation en comparant les questionnaires avec et sans équilibre. Entre les deux catégories, les différences étaient négligeable pour la déclaration en moyenne ou en pourcentage des dépenses. La différence résidait le plus souvent dans la déclaration du revenu et de la variation de l'actif dans les questionnaires sans équilibre. On en a conclu qu'il était possible d'inclure ces questionnaires dans les estimations des dépenses, mais en avertissant l'utilisateur que la qualité des données sur le revenu et la variation de l'actif pourraient être moindre que par le passé.

En 2007, on modifiera le questionnaire électronique pour réintroduire le contrôle d'équilibre et s'assurer que les questionnaires sans équilibre seront repérés et corrigés à l'étape de l'interview et de la collecte des données comme par le passé.

Erreur de non-réponse

Les erreurs de non-réponse sont présentes dans toutes les enquêtes-échantillons puisque l'information complète n'est pas fournie par tous les répondants potentiels.

Une non réponse totale est enregistrée dans le cas où l'intervieweur se trouve devant l'impossibilité de contacter le répondant, lorsque aucun membre du ménage n'est capable de fournir l'information recherchée, ou que le répondant refuse de participer à l'enquête. S'il s'agit d'une non réponse totale, on ajuste le poids de base des ménages répondants afin de compenser pour les ménages qui n'ont pas répondu. Pour l'Enquête des dépenses des ménages de 2006, le taux global de réponse est 71,6 %. Consulter le « Tableau 1 » pour le taux de réponse par province.

Dans la plupart des cas, on se trouve devant une non-réponse partielle à l'enquête lorsque le répondant ne comprend pas la question ou l'interprète mal, refuse d'y répondre, ou encore n'arrive pas à se souvenir des renseignements demandés. Ce type de non réponse est compensé en imputant les valeurs manquantes.

L'importance de cette erreur est inconnue mais de façon générale cette erreur n'est pas négligeable lorsqu'un groupe de personnes possèdent certaines caractéristiques communes refusent de participer à l'enquête et que ces caractéristiques exercent un effet déterminant sur les résultats de l'enquête.

Tableau 1
Taux de réponse, Canada et provinces, 2006

Erreur de traitement

Les erreurs de traitement surviennent lors du traitement des données, c'est-à-dire durant la saisie, la vérification, la pondération et la totalisation. Consulter la section « Traitement des données et contrôle de la qualité » pour une description des moyens utilisés pour réduire l'erreur de traitement.

Effet des valeurs extrêmes

Dans tout échantillon, la présence ou l'absence de valeurs extrêmes au sein de l'échantillon peut avoir une influence sur les estimations. Ces valeurs extrêmes sont plus susceptibles d'être rencontrées au sein des populations affichant une répartition asymétrique positive. Or, de par sa nature même, l'Enquête sur les dépenses des ménages se prête à l'apparition de telles valeurs extrêmes. La présence de ces valeurs influe fortement sur les estimations de totaux, de moyennes et d'erreurs types.

Comparabilité dans le temps

Menée depuis 1997, l'Enquête sur les dépenses des ménages tente de reprendre une bonne part du contenu de l'Enquête sur les dépenses des familles ainsi que du contenu de l'Enquête sur l'équipement ménager. De nombreuses variables provenant de ces enquêtes sont comparables à celles de l'Enquête des dépenses des ménages. Avant d'établir des comparaisons, on doit cependant tenir compte de certaines différences reliées à la méthodologie, à la qualité des données et aux définitions.

Pour plus d'information, veuillez vous référer à la Note aux anciens utilisateurs de données provenant de l'Enquête sur les dépenses des familles et la Note aux anciens utilisateurs de données provenant de l'Enquête sur l'équipement ménager no 62F0026M au catalogue. Ces deux documents sont disponibles gratuitement, sur le site Internet de Statistique Canada (www.statcan.gc.ca).

Les données historiques des Enquêtes sur les dépenses des ménages de 1997 à 2003 ont été pondérées de nouveau au moyen de la méthode de pondération décrite à la section Pondération. Les comparaisons historiques entre les données de ces enquêtes et les données des dernières années de l'Enquête sur les dépenses des ménages devraient, en général, se faire à partir de données repondérées, même si les différences entre les estimations de l'enquête établies au moyen de l'ancienne méthode et de la nouvelle méthode semblent être minimales au niveau sommaire. Cependant, certaines populations ou variables sont susceptibles d'être plus fortement touchées que d'autres.

Débutant avec l'Enquête sur les dépenses des ménages de 1997, on a retranché des dépenses d'entretien, réparations et modifications payés par le locataire et des primes d'assurances des locataires le montant correspondant au pourcentage du loyer attribué à des fins commerciales. Ceci peut avoir un effet sur toutes comparaisons aux données antérieures.

Pour l'année de référence de 2001 et 2005, on a ajouté des questions supplémentaires pour que les données de l'enquête puissent servir à la pondération de l'Indice des prix à la consommation. Ce changement peut nuire aux comparaisons historiques à l'égard de certaines variables. Par exemple, en 2001 et 2005,on a ajouté des questions à la rubrique « Produits de soins personnels » afin de recueillir des renseignements additionnels sur les produits de soins, le maquillage, les parfums, les désodorisants et les produits pour l'hygiène buccale. Ainsi, il se peut que les répondants aient donné des renseignements plus précis et la hausse relative à l'estimation pour les dépenses en Produits de soins personnels en ces années peut avoir été attribué à la capacité accrue qu'ont les répondants de se souvenir de certains détails. L'effet des questions supplémentaires sur les estimations est difficile à quantifier. Cependant, en 2002 lorsque les questions additionnelles ont été enlevées, l'estimation pour les dépenses en soins personnels a diminué de nouveau. En 2006, on a conservé les questions supplémentaires de 2005.

La section du questionnaire qui couvre les « Réparations et améliorations aux logements appartenant à l'occupant » a fait l'objet d'une importante révision en 2004. De 1997 à 2003, cette section a eu trois grandes questions : « Ajouts, rénovations et autres modifications » ; « Remplacement ou nouvelle installation d'équipement, appareils et accessoires encastrés »; « Réparations et entretien ». À partir de 2004, l'Enquête sur les dépenses des ménages comporte quatorze questions détaillées et deux colonnes, donnant ainsi aux répondants la possibilité de répartir les coûts pour chaque question entre « Réparations et entretien » et « Améliorations et modifications ».

À compter de l'EDM 2006, on a remplacé le questionnaire papier par un questionnaire électronique en mode IPAO (interviews sur place assistées par ordinateur). La description des membres du ménage, des caractéristiques du logement et de l'équipement ménager vise la date de l'interview au lieu du 31 décembre comme auparavant. On recueille des données sur les dépenses des ménages pour l'année de référence et tous les membres à la date de l'interview, écartant ainsi la distinction entre les ménages et leurs membres en occupation toute l'année et une partie de l'année. Pour l'EDM 2006, on prend en compte les questionnaires avec et sans équilibre. On examinera la question du contrôle d'équilibre avant le prochain cycle d'enquête.

Par souci de comparabilité, comme les tableaux de CANSIM antérieurs à 2006 étaient fondés sur les ménages pour l'année entière seulement, les données de 2002 à 2005 seront révisées de façon à inclure les ménages pour l'année entière et les ménages pour une partie de l'année. Les données de 1997 à 2001 seront révisées ultérieurement.