Qualité des données, concepts et méthodologie : La qualité des données

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Erreurs d'échantillonnage

Les erreurs d'échantillonnage résultent du fait que l'on tire certaines conclusions au sujet de l'ensemble de la population à partir des renseignements obtenus auprès d'un échantillon de cette population uniquement. L'importance de l'erreur d'échantillonnage est fonction du plan de sondage, de la variabilité des données et de la taille de l'échantillon. De plus, pour un plan d'échantillonnage donné, on obtiendra des erreurs d'échantillonnage différentes en utilisant différentes méthodes d'estimation.

Le plan retenu pour l'Enquête sur les dépenses des ménages de 2009 était un échantillonnage stratifié à plusieurs degrés. Dans un échantillonnage à plusieurs degrés, les erreurs d'échantillonnage sont normalement plus importantes que dans un échantillonnage aléatoire simple de même taille. Toutefois, les avantages sur le plan opérationnel l'emportent sur cet inconvénient, et le fait que l'échantillon soit aussi stratifié améliore la précision des estimations.

La variabilité des données est la différence entre les unités de la population par rapport aux dépenses pour un article ou la présence d'une caractéristique spécifique du logement ou d'une pièce d'équipement ménager. En général, plus ces différences sont grandes, plus l'erreur d'échantillonnage de cet article est élevée. Également, plus la taille de l'échantillon est grande, plus l'erreur d'échantillonnage est faible.

Erreur type et coefficient de variation

Une mesure courante de l'erreur d'échantillonnage est l'erreur type (ET). L'erreur type est le degré de variation que l'on observe dans les estimations par suite du choix d'un échantillon particulier plutôt qu'un autre. Il a été démontré que la « vraie » valeur de la caractéristique d'intérêt se situe à l'intérieur de l'intervalle de +/- 1 erreur type de l'estimation pour 68 % de tous les échantillons, et de +/- 2 erreurs types de l'estimation pour 95 % de tous les échantillons.

Le coefficient de variation (CV) est l'erreur type exprimée en tant que pourcentage de l'estimation. Il est utilisé pour indiquer le degré d'incertitude associé à une estimation. Par exemple, si l'estimation du nombre de ménages pour une caractéristique du logement donnée est de 10 000 ménages, et que le CV correspondant est de 5 %, la vraie valeur se situe entre 9 500 et 10 500 ménages, 68 % du temps, et entre 9 000 et 11 000 ménages, 95 % du temps.

Les erreurs types pour l'Enquête sur les dépenses des ménages de 2009 ont été estimées selon la méthode du « bootstrap ». Cette méthode permet l'estimation de la variance de statistiques non lisses comme les quintiles. Pour plus de renseignements sur les erreurs types et les coefficients de variation, voir la publication de Statistique Canada intitulée Méthodologie de l'enquête sur la population active du Canada, no 71-526-X au catalogue.

Les utilisateurs doivent prendre note que la variance des estimations de l'enquête de 2009 est comparable à celle de 2008 mais qu'elle est plus grande qu'en 2007. Par conséquent, les coefficients de variation sont en général plus grands que les années antérieures à 2008 en raison de la taille réduite de l'échantillon en comparaison avec ces années.

Suppression de données

Pour des raisons de fiabilité, les données pour lesquelles les CV ont été estimés à plus de 33 % sont supprimées. Puisque les CV ne sont pas calculés pour toutes les estimations, la suppression de données pour l'Enquête sur les dépenses des ménages est fondée sur la relation entre le CV et le nombre de ménages qui déclarent des dépenses pour un article. L'analyse des données de l'enquête des années antérieures indique que les CV atteignent habituellement ce niveau lorsque le nombre de ménages qui déclarent un article chute à environ 30. Par conséquent, on a supprimé les dépenses moyennes des ménages et le pourcentage de ménages déclarants pour les articles déclarés par moins de 30 ménages.

Toutefois, les données relatives aux articles supprimés sont incluses dans les variables sommaires. Par exemple, les dépenses pour une catégorie particulière d'habillement pourraient être supprimées, mais ce montant fait partie de l'estimation des dépenses totales au titre de l'habillement.

En raison de la taille réduite de l'échantillon, davantage de cellules sont supprimées comparativement à 2007 et années antérieures, particulièrement pour les plus petits domaines comme les régions métropolitaines. Pour cette raison, les données pour Québec, Ottawa et Victoria ne sont pas disponibles pour 2009.

Erreur non due à l'échantillonnage

Les erreurs non dues à l'échantillonnage se produisent parce qu'il est difficile, en raison de certains facteurs, d'obtenir des réponses exactes et de faire en sorte que ces réponses restent exactes à toutes les étapes du traitement. Contrairement à l'erreur d'échantillonnage, l'erreur non due à l'échantillonnage n'est pas facilement quantifiable. On peut dégager quatre sources d'erreurs non dues à l'échantillonnage : les erreurs de couverture, les erreurs de réponse, les erreurs de non-réponse et les erreurs de traitement.

Erreur de couverture

Les erreurs de couverture découlent d'une représentation inadéquate de la population observée. Ces erreurs peuvent survenir au cours de l'établissement du plan d'échantillonnage ou du tirage de l'échantillon, ou encore pendant la collecte ou le traitement des données.

Erreur de réponse

Les erreurs de réponse peuvent être attribuables à divers facteurs comme l'ambiguïté du questionnaire, une mauvaise interprétation des questions par les intervieweurs ou les répondants ou la déclaration de données inexactes par les répondants.

Plusieurs caractéristiques de l'enquête aident les répondants à se rappeler leurs dépenses de la façon la plus exacte possible. Premièrement, la période de l'enquête est l'année civile, car dans l'esprit des gens elle est probablement définie plus clairement que toute autre période de longueur semblable. Deuxièmement, les dépenses alimentaires peuvent être estimées comme étant des dépenses hebdomadaires ou mensuelles, selon les habitudes du répondant. Troisièmement, les dépenses pour de petits articles achetés à intervalles réguliers sont normalement estimées en fonction du montant et de la fréquence de l'achat. Les achats de gros articles (p. ex. une automobile) sont assez faciles à se rappeler, tout comme les dépenses au titre du loyer, des taxes foncières, et des versements mensuels pour emprunts hypothécaires. Toutefois, même dans le cas de ces articles, l'exactitude des données dépend de la capacité du répondant à se rappeler et de sa volonté à consulter des dossiers.

Dans l'Enquête sur les dépenses des ménages, on calcule la différence entre les entrées et les sorties d'argent afin de vérifier la justesse des souvenirs des répondants. Cet important outil de contrôle de la qualité permet d'équilibrer les entrées (revenus et autres sommes reçues par le ménage) et les sorties d'argent (dépenses totales plus la variable flux monétaires — actifs, prêts et autres dettes) pour chaque questionnaire. Si la différence est supérieure à 30 % des entrées ou des sorties d'argent, selon la somme la plus élevée des deux, on considère que l'enregistrement est inutilisable, et il ne sera pas utilisé.

En 2007, afin de réduire le fardeau de réponse, de nouvelles questions de sélection ont été ajoutées à certaines catégories du questionnaire. Cette première série de questions de sélection était ambigüe et des changements s'avéraient nécessaires. Les modifications effectuées semblent avoir corrigé le problème en 2008; les mêmes questions ont donc été conservées en 2009.

Pour certaines catégories de dépenses 1  , les utilisateurs doivent savoir que les diminutions entre 2006 et 2007 et les augmentations entre 2007 et 2008 ou entre 2007 et 2009 sont vraisemblablement dues à la formulation de la question en 2007. Ainsi, ces changements doivent être ignorés. Cependant, la catégorie « cartes géographiques » semblent être l'exception, car pour cette catégorie la diminution s'est maintenue et traduit peut-être un réel changement dans les habitudes d'achat attribuable à la nouvelle technologie GPS.

Erreur de non-réponse

Les erreurs de non-réponse sont présentes dans toutes les enquêtes-échantillons puisque l'information complète n'est pas fournie par tous les répondants potentiels.

Une non-réponse totale est enregistrée dans le cas où l'intervieweur se trouve devant l'impossibilité de contacter le répondant, lorsqu'aucun membre du ménage n'est capable de fournir l'information recherchée, ou que le répondant refuse de participer à l'enquête. S'il s'agit d'une non-réponse totale, on ajuste le poids de base des ménages répondants afin de compenser pour les ménages qui n'ont pas répondu. Pour l'Enquête des dépenses des ménages de 2009, le taux global de réponse est 64,5 %. Consulter le « Tableau 1 » pour le taux de réponse par province et territoire.

Dans la plupart des cas, on se trouve devant une non-réponse partielle à l'enquête lorsque le répondant ne comprend pas la question ou l'interprète mal, refuse d'y répondre, ou encore n'arrive pas à se souvenir des renseignements demandés. Ce type de non-réponse partielle est compensé en imputant les valeurs manquantes.

L'importance de cette erreur due à la non-réponse est inconnue mais de façon générale cette erreur n'est pas négligeable lorsqu'un groupe de personnes possédant certaines caractéristiques communes refusent de participer à l'enquête et que ces caractéristiques exercent un effet déterminant sur les résultats de l'enquête.

Tableau explicatif 1

Erreur de traitement

Les erreurs de traitement surviennent lors du traitement des données, c'est-à-dire durant la saisie, la vérification, la pondération et la totalisation. Consulter la section « Traitement des données et contrôle de la qualité » pour obtenir une description des moyens utilisés pour réduire l'erreur de traitement.

Effet des valeurs extrêmes

Dans tout échantillon, la présence ou l'absence de valeurs extrêmes au sein de l'échantillon peut avoir une influence sur les estimations. Ces valeurs extrêmes sont plus susceptibles d'être rencontrées au sein des populations affichant une répartition asymétrique positive. Or, de par sa nature même, l'Enquête sur les dépenses des ménages se prête à l'apparition de telles valeurs extrêmes. La présence de ces valeurs influe fortement sur les estimations de totaux, de moyennes et d'erreurs types.

Comparabilité dans le temps

Menée depuis 1997, l'Enquête sur les dépenses des ménages tente de reprendre une bonne part du contenu de l'Enquête sur les dépenses des familles ainsi que du contenu de l'Enquête sur l'équipement ménager. De nombreuses variables provenant de ces enquêtes sont comparables à celles de l'Enquête des dépenses des ménages. Avant d'établir des comparaisons, on doit cependant tenir compte de certaines différences reliées à la méthodologie, à la qualité des données et aux définitions.

Pour plus d'information, veuillez vous référer à la Note aux anciens utilisateurs de données provenant de l'Enquête sur les dépenses des familles et la Note aux anciens utilisateurs de données provenant de l'Enquête sur l'équipement ménager no 62F0026M au catalogue. Ces deux documents sont disponibles gratuitement, sur le site Web de Statistique Canada (www.statcan.gc.ca).

Les données historiques de l'Enquête sur les dépenses des ménages de 1997 à 2003 ont été pondérées de nouveau au moyen de la méthode de pondération décrite à la section « Pondération ». Les comparaisons historiques entre les données pour ces années et les données des dernières années de l'Enquête sur les dépenses des ménages devraient, en général, se faire à partir de données repondérées, même si les différences entre les estimations de l'enquête établies au moyen de l'ancienne méthode et de la nouvelle méthode semblent être minimales au niveau sommaire. Cependant, certaines populations ou variables sont susceptibles d'être plus fortement touchées que d'autres.

Débutant avec l'Enquête sur les dépenses des ménages de 1997, on a retranché des « dépenses d'entretien, réparations et modifications payées par le locataire » et des « primes d'assurances des locataires », le montant correspondant au pourcentage du loyer attribué à des fins commerciales. Ceci peut avoir un effet sur toutes comparaisons aux données antérieures.

Pour les années de référence de 2001 et 2005, on a ajouté des questions supplémentaires pour que les données de l'enquête puissent servir à la pondération de l'Indice des prix à la consommation. Ce changement peut nuire aux comparaisons historiques à l'égard de certaines variables. Par exemple, en 2001 et 2005, on a ajouté des questions à la rubrique « Produits de soins personnels » afin de recueillir des renseignements additionnels sur les produits de soins pour les cheveux, le maquillage, les parfums, les désodorisants et les produits pour l'hygiène buccale. Ainsi, il se peut que les répondants aient donné des renseignements plus précis et la hausse relative à l'estimation pour les dépenses en « Produits de soins personnels » pour ces années peut avoir été attribuée à la capacité accrue qu'ont les répondants de se souvenir de certains détails. L'effet des questions supplémentaires sur les estimations est difficile à quantifier. Cependant, en 2002 lorsque les questions additionnelles ont été enlevées, l'estimation pour les dépenses en soins personnels a diminué de nouveau. Pour l'EDM de 2006 et des années ultérieures, on a conservé les questions supplémentaires de 2005.

La section du questionnaire qui couvre les « Réparations et améliorations aux logements appartenant à l'occupant » a fait l'objet d'une importante révision en 2004. De 1997 à 2003, cette section avait trois grandes questions : « Ajouts, rénovations et autres modifications » ; « Remplacement ou nouvelle installation d'équipement, appareils et accessoires encastrés »; « Réparations et entretien ». Depuis l'Enquête sur les dépenses des ménages de 2004, les coûts pour les « Réparations et entretien » et « Améliorations et modifications » sont déclarés indépendamment pour chaque catégorie.

À compter de l'EDM 2006, on a remplacé le questionnaire papier par un questionnaire électronique en mode IPAO (interviews sur place assistées par ordinateur). La description des membres du ménage, des caractéristiques du logement et de l'équipement ménager vise la date de l'interview au lieu du 31 décembre comme auparavant. On recueille des données sur les dépenses des ménages pour l'année de référence entière et tous les membres à la date de l'interview, écartant ainsi la distinction entre les ménages et leurs membres en occupation « toute l'année » et une « partie de l'année ». Par souci de comparabilité, comme les tableaux de CANSIM antérieurs à 2006 étaient fondés sur les ménages pour l'année entière seulement, les données de 1997 à 2005 ont été révisées de façon à inclure les ménages pour l'année entière et les ménages pour une partie de l'année.

Suivant | Précédent