Outre l’erreur d’échantillonnage associée au processus de sélection d’un échantillon, un large éventail d’erreurs peuvent être repérées dans une enquête. Ces erreurs sont habituellement appelées « erreurs non dues à l’échantillonnage ».
Les erreurs non dues à l’échantillonnage peuvent être définies comme étant des erreurs possibles pendant toutes les activités d’enquête, mis à part l’échantillonnage. Comparativement aux erreurs d’échantillonnage, les erreurs non dues à l’échantillonnage peuvent se retrouver aussi bien dans les enquêtes-échantillon que dans les recensements.
Les erreurs non dues à l’échantillonnage peuvent être classées en deux groupes : les erreurs aléatoires et les erreurs systématiques.
Les erreurs non dues à l’échantillonnage sont extrêmement difficiles sinon impossibles à mesurer. Étant donné que les erreurs aléatoires ont tendance à s’éliminer, les erreurs systématiques représentent la principale cause d’inquiétude. Comparativement au biais causé par la variance d’échantillonnage, celui causé par les erreurs systématiques ne diminue pas même si on augmente la taille de l’échantillon.
Les erreurs non dues à l’échantillonnage
Les erreurs non dues à l’échantillonnage peuvent survenir en raison de problèmes de couverture, de réponse, de non-réponse, de traitement des données, d’estimation et d’analyse. Chacun de ces types d’erreurs est expliqué ci-dessous.
Une erreur de couverture survient lorsqu’il y a une omission, une répétition ou un ajout erroné de certaines unités dans la population ou l’échantillon. Les omissions sont appelées « sous-dénombrement », tandis que les répétitions et les ajouts erronés sont appelés « surdénombrement ». Ces erreurs sont causées par des défauts dans la base de sondage : inexactitude, insuffisance ou répétition de données, obsolescence ou données inadéquates. Les erreurs de couverture peuvent également survenir lors de procédures sur place (p. ex., une enquête est menée, mais l’intervieweur oublie d’inclure plusieurs ménages ou personnes).
Les erreurs de réponse résultent des données qui ont été demandées, fournies, reçues ou enregistrées de façon erronée. Les erreurs de réponse peuvent survenir en raison d’inefficacités relativement au questionnaire, à l’intervieweur, au répondant ou au processus d’enquête.
Les erreurs de non-réponse se produisent lorsqu’on ne recueille pas suffisamment de réponses aux questions de l’enquête. Il y a deux types d’erreurs de non-réponse : les erreurs de non-réponse complète et partielle.
Pour plus de renseignements sur la vérification et l’imputation, veuillez vous référer au chapitre intitulé Traitement des données.
Les erreurs de traitement se produisent parfois pendant la préparation des fichiers de données finals. Par exemple, des erreurs peuvent survenir lorsque les données sont codées, saisies, corrigées ou imputées. Le biais du codeur est habituellement le résultat d’une formation médiocre ou d’instructions incomplètes, d’une variance du rendement du codeur (c.-à-d. fatigue, maladie), d’erreurs d’entrées de données ou d’un mauvais fonctionnement de la machine (certaines erreurs de traitement sont causées par des erreurs dans les programmes informatiques). On peut dire la même chose au sujet des erreurs saisies. Parfois, des erreurs sont identifiées à tort au cours de l’étape de vérification. Même lorsque des erreurs sont découvertes, elles peuvent être corrigées incorrectement en raison de procédures d’imputation médiocres.
Statistique Canada et d’autres organismes de collecte de données consentent beaucoup d’effort à la conception et au suivi des enquêtes afin que ces dernières soient sans erreur dans la mesure du possible. Si on utilise une méthode d’estimation inappropriée, alors les résultats peuvent toujours être biaisés, malgré le fait que l’enquête était sans erreur avant l’estimation.
Voici un exemple d’une estimation possiblement inappropriée. Nous savons que le réchauffement de la terre est une question qui suscite beaucoup de débat. Pour s’assurer de bien mesurer ce phénomène, il faut être en mesure de trouver ce qui constitue une « moyenne de température planétaire » acceptable. La Figure 1 montre une représentation commune des données sur les changements climatiques. Elle indique une augmentation de la température moyenne du globe entre 0,3 ° et 0,6 °C sur approximativement 140 ans.

L’ensemble de données comprend des mesures qui ont été prises à diverses stations météorologiques partout dans le monde. Dans ce cas, la population est représentée par les mesures de la température à partir desquelles on tire un échantillon.
Certains scientifiques questionnent l’exactitude d’un diagramme comme la Figure 1, parce qu’ils croient que les estimations provenant de l’enquête-échantillon sont biaisées.
Ces scientifiques insistent sur le fait que les mesures de la température devraient refléter le ratio de la masse terrestre de la Terre par rapport à la masse d’eau. Par exemple, si la masse terrestre représente la moitié de la masse de l’eau (mers et océans), alors deux fois plus de mesures devraient provenir d’emplacements sur l’eau que d’emplacements sur terre. En fait, à la Figure 1, peu de mesures ont été prises à partir d’emplacements à la surface de l’eau, tandis que la grande majorité des mesures ont été prises à partir de stations météorologiques sur terre.
Pourquoi cela pourrait-il fausser les estimations de l’enquête-échantillon?
Les températures sur la terre ont tendance à être naturellement plus élevées que celles à la surface de l’eau, à cause du phénomène connu sous le nom d’« effet de l’îlot thermique urbain ». Si l’échantillon est trop lourdement pondéré en faveur des températures basées au sol, et que les estimations ne prennent pas cela en compte (ce que certains scientifiques déclarent), alors les résultats peuvent ne pas refléter réellement une moyenne mondiale.
Pour plus de renseignements, consultez la section sur l’estimation.
Les erreurs d’analyse comprennent toutes celles qui se produisent lorsqu’on utilise les mauvais outils d’analyse ou lorsqu’on fourni les résultats préliminaires au lieu des résultats finals. Les erreurs qui se produisent pendant la publication des résultats sont également considérées comme des erreurs d’analyse.