3.5 Estimation
3.5.3 Erreur non due à l'échantillonnage

Début du texte

L’erreur non due à l'échantillonnage réfère à toutes les sources d’erreur qui ne sont pas liées à l'échantillonnage. Les erreurs non dues à l'échantillonnage sont présentes dans tous les types d’enquête, incluant les recensements et les données administratives. Elles se produisent pour un certain nombre de raisons : la base de sondage peut être incomplète, certains répondants peuvent ne pas déclarer les données avec exactitude, les données peuvent manquer pour certains répondants, etc.

Les erreurs non dues à l'échantillonnage peuvent être classées en deux groupes : les erreurs aléatoires et les erreurs systématiques.

  • Les erreurs aléatoires sont des erreurs dont les effets s'annulent approximativement si l'on utilise un échantillon suffisamment grand, ce qui entraîne une augmentation de la variabilité.
  • Les erreurs systématiques sont des erreurs qui ont tendance à aller dans le même sens et donc qui s'accumulent sur l'ensemble de l'échantillon, entraînant un biais dans les résultats finaux. Contrairement aux erreurs aléatoires, ce biais n'est pas réduit par l'augmentation de la taille de l'échantillon. Les erreurs systématiques sont la principale cause d'inquiétude en ce qui concerne la qualité des données d'une enquête. Malheureusement, les erreurs non dues à l'échantillonnage sont souvent extrêmement difficiles, voire impossibles, à mesurer.

Types d'erreur non due à l'échantillonnage

Les erreurs non dues à l'échantillonnage peuvent se produire dans tous les aspects du processus d'enquête et peuvent être classées dans les catégories suivantes : erreur de couverture, erreur de mesure, erreur de non-réponse et erreur de traitement.

Erreur de couverture

L'erreur de couverture consiste en des omissions (sous-couverture), des inclusions erronées, des duplications et de mauvaises classifications (surcouverture) d'unités dans la base de sondage. Comme elles affectent chaque estimation produite par l'enquête, elles constituent l'un des types d'erreurs les plus importants. Dans le cas d'un recensement, elle peut être la principale source d'erreur. L'erreur de couverture peut avoir des dimensions à la fois spatiales et temporelles, et peut entraîner un biais dans les estimations. L'effet peut varier pour différents sous-groupes de la population. Cette erreur a tendance à être systématique et est généralement due à une sous-couverture, c'est pourquoi il est important de la réduire autant que possible.

Erreur de mesure

L'erreur de mesure, également appelée erreur de réponse, est la différence entre les valeurs mesurées et les vraies valeurs. Elle se compose d'un biais et d'une variance et résulte de données incorrectement demandées, fournies, reçues ou enregistrées. Ces erreurs peuvent être dues à des inefficacités du questionnaire, de l'intervieweur, du répondant ou du processus d'enquête.

  • Mauvaise conception du questionnaire
    Il est essentiel que les questions soient formulées avec soin afin d'éviter de créer des biais. Si les questions sont trompeuses ou prêtent à confusion, les réponses peuvent être faussées.
  • Biais de l'intervieweur
    Un intervieweur peut influencer la façon dont une personne répond aux questions de l'enquête. Cela peut se produire lorsque l'intervieweur est trop amical ou distant ou qu'il incite le répondant. Pour éviter cela, les intervieweurs doivent être formés pour rester neutres tout au long de l'interview. Ils doivent également faire très attention à la façon dont ils posent chaque question. Si l'intervieweur modifie la formulation d'une question, cela peut avoir un impact sur la réponse de la personne interrogée.
  • Erreur du répondant
    Les répondants peuvent également fournir des réponses incorrectes. Des souvenirs erronés, des tendances à exagérer ou à minimiser les événements, et des inclinations à donner des réponses qui semblent plus socialement acceptables sont plusieurs raisons pour lesquelles une personne interrogée peut donner une fausse réponse.
  • Problèmes liés au processus d'enquête
    Des erreurs peuvent également se produire en raison d'un problème lié au processus d'enquête lui-même. L'utilisation de réponses de substitution, c’est-à-dire des réponses obtenues d’une personne autre que le répondant, ou le manque de contrôle sur les procédures d'enquête ne sont que quelques-uns des facteurs qui augmentent le risque d’erreurs de réponse.

Erreur de non-réponse

Les estimations obtenues après l'observation d'une non-réponse et le recours à l'imputation pour traiter cette non-réponse ne sont généralement pas équivalentes aux estimations qui auraient été obtenues si toutes les valeurs souhaitées avaient été observées sans erreur. La différence entre ces deux types d'estimations s'appelle l'erreur de non-réponse. Il existe deux types d'erreurs de non-réponse : totale et partielle.

  • L'erreur de non-réponse totale se produit lorsque toutes les réponses ou presque d'une unité d'échantillonnage sont manquantes. Ceci peut survenir si le répondant n'est pas disponible ou temporairement absent, qu'il ne peut pas participer ou qu’il refuse de participer à l'enquête, ou si le logement est vacant. Si un nombre important d'unités échantillonnées ne répondent pas à une enquête, les résultats peuvent être biaisés puisque les caractéristiques des non-répondants peuvent différer de celles des participants.
  • L'erreur de non-réponse partielle se produit lorsque le répondant fournit des informations incomplètes. Pour certaines personnes, quelques questions peuvent être difficiles à comprendre, ou elles peuvent refuser ou oublier de répondre à une question. Un questionnaire mal conçu ou de mauvaises techniques d’entrevue peuvent également être à l'origine d'une erreur de non-réponse partielle. Pour réduire cette forme d'erreur, il convient d'apporter un soin particulier à la conception et au test des questionnaires. Une formation adéquate des intervieweurs et des stratégies de vérification et d'imputation appropriées contribueront également à minimiser cette erreur.

Erreur de traitement

L'erreur de traitement se produit pendant le traitement des données. Elle comprend toutes les activités de traitement des données après la collecte et avant l'estimation, telles que les erreurs de saisie, de codage, de vérification et de tabulation des données ainsi que d'affectation des poids de l'enquête.

  • Les erreurs de codage se produisent lorsque différents codeurs codent différemment la même réponse, ce qui peut être causé par une mauvaise formation, des instructions incomplètes, une variation de la performance du codeur (c'est-à-dire la fatigue, la maladie), des erreurs de saisie des données ou un mauvais fonctionnement de la machine (certaines erreurs de traitement sont causées par des erreurs dans les programmes informatiques).
  • Les erreurs de saisie de données se produisent lorsque les données ne sont pas saisies dans l'ordinateur exactement comme elles apparaissent sur le questionnaire. Cela peut être causé par la complexité des données alphanumériques et par le manque de clarté de la réponse fournie. La disposition physique du questionnaire lui-même ou des documents de codage peut provoquer des erreurs de saisie des données. La méthode de saisie des données, manuelle ou automatisée (par exemple, à l'aide d'un lecteur optique), peut également entraîner des erreurs.
  • Les erreurs de vérification et d'imputation peuvent être causées par la mauvaise qualité des données d'origine ou par leur structure complexe. Lorsque les processus de vérification et d'imputation sont automatisés, les erreurs peuvent également résulter de programmes défectueux insuffisamment testés. Le choix d'une méthode d'imputation inappropriée peut entraîner un biais. Les erreurs peuvent également résulter de la modification incorrecte de données qui se sont avérées erronées, ou de la modification par erreur de données correctes.

Date de modification :