Variance et biais

Variance et Biais Infographic
Description du graphique : Biais et variance

Pour comprendre la variance et le biais, comparons une enquête statistique à un tir effectué dans le but d'atteindre le centre d'une cible.

  1. Le centre de la cible représente le concept que l'on vise à mesurer au moyen de l'enquête, par exemple le nombre de personnes sans emploi ou les intentions de vote. Autrement dit, le centre de la cible correspond à la valeur réelle, qui peut être déterminée uniquement si chaque personne ou si chaque entreprise répond à un questionnaire. Une enquête fondée sur un échantillon aléatoire ne peut déterminer cette valeur avec certitude.
    {Visuel} : Une cible est représentée. Il y a  une marque sur l'anneau à côté de celui qui est le plus au centre.
  2. En fait, si l'on utilise un échantillon aléatoire différent pour mener l'enquête, les tirs (c'est-à-dire les estimations) vont atteindre des endroits différents. La fiabilité et la validité de l'enquête dépendent de l'endroit atteint par les tirs. La fiabilité et la validité de l'enquête dépendent de l'endroit atteint par les tirs.
    {Visuel} : Une cible sur laquelle il y a 15 marques est représentée.
  3. La variance et le biais déterminent l'efficacité de l'enquête.
  4. Le défi consiste à éviter le biais et à réduire le plus possible la variance. Par exemple, un échantillon de grande taille permettra de réduire la variance, mais pas de réduire le biais.
  5. La variance sert à mesurer si les tirs atteignent à peu près le même endroit sur la cible.
    {Visuel} : « La variance faible » est représentée par une cible avec sept marques entassées dans le coin en haut à droite. « La variance élevée » est représentée par une cible avec sept marques dispersées uniformément.
  6. Le biais sert à mesurer si l'endroit atteint est centré par rapport à la cible.
    {Visuel} : « Le biais élevé » est représenté par une cible avec sept marques entassées dans le coin en haut à droite. « Le biais faible  » est représenté par une cible avec sept marques situées dans le centre.
  7. Lorsque le biais est négligeable, le statisticien d'enquête peut établir, au moyen des lois de probabilités, que 95 % des tirs se situeront à l'intérieur d'une marge d'erreur correspondant à l'anneau le plus éloigné de la cible. Ce calcul est à l'origine de la déclaration que l'on entend souvent dans les médias, soit que les résultats d'une enquête se situent à l'intérieur d'une marge d'erreur donnée 19 fois sur 20, où 19 divisé par 20 donne 95 %. Une enquête bien conçue et bien menée produira la plus faible variance, ou marge d'erreur, possible.
    {Visuel} : Une cible est représentée avec 19 marques dispersées à l'intérieur des anneaux et d'une seule marque à l'extérieur et à gauche de la cible.

Statistique Canada produit des données sur de nombreux sujets de grand intérêt pour la population canadienne. Par exemple, le Recensement de la population permet de recueillir des données sur chaque personne afin de produire des chiffres très précis tous les cinq ans. Pour produire des données économiques et sociales exactes plus souvent et en temps plus opportun, Statistique Canada réalise normalement des enquêtes qui visent à recueillir des données auprès d'un échantillon aléatoire de personnes ou d'entreprises.

Par exemple, l'Enquête mensuelle sur les industries manufacturières (EMIM) publie les valeurs (en dollars canadiens) des ventes de produits fabriqués, des stocks et des commandes six semaines après la fin de chaque mois. Le 16 octobre 2014, l'EMIM a estimé que 52,1 milliards de dollars en produits fabriqués ont été vendus au Canada en août 2014. Statistique Canada a produit cette estimation en s'appuyant sur les données recueillies auprès d'un échantillon aléatoire de 10 500 établissements commerciaux à l'étendue du Canada.

Comme n'importe quelle autre enquête, l'EMIM cherche à produire les résultats les plus exacts possible. Comment pouvons-nous déterminer si l'estimation de l'EMIM de 52,1 milliards de dollars en ventes de produits fabriqués est effectivement proche du niveau réel des ventes en août 2014 au Canada? Pour ce faire, nous utilisons deux mesures de la précision : le biais et la variance.

La variance est relativement facile à mesurer dans une enquête, tandis que le biais est plus difficile. Par conséquent, dans une enquête qui se veut efficace, nous faisons tout notre possible pour éliminer le biais, de manière à ce que l'exactitude des résultats de l'enquête dépende de la variance seulement. L'EMIM ne fait pas exception à cette règle : en utilisant un questionnaire ayant fait l'objet d'essais approfondis, une méthodologie éprouvée, des intervieweurs spécialisés et un contrôle rigoureux de la qualité, et en assurant un suivi auprès des entreprises qui n'ont pas répondu à l'enquête initialement, nous pouvons réduire au minimum le biais de l'EMIM.

Une fois que nous avons réduit le biais, nous pouvons représenter adéquatement l'exactitude des résultats de l'enquête en fonction de la variance seulement. Nous pouvons exprimer la variance de plusieurs manières. Par exemple, le résultat de 52,1 milliards de dollars obtenu en août 2014 pour les ventes de produits fabriqués comportait une erreur type de 260 millions de dollars. L'erreur type représentait 0,5 % des biens vendus – ce pourcentage est appelé le coefficient de variation, et il est souvent utilisé par Statistique Canada pour exprimer la variance. Une autre méthode souvent utilisée par les médias pour exprimer la variance est la marge d'erreur, qui est également basée sur l'erreur type. Selon cette méthode, le résultat de l'EMIM d'août 2014 pourrait être exprimé dans le format familier suivant : « D'après l'Enquête mensuelle sur les industries manufacturières, Statistique Canada estime que 52,1 milliards de dollars de produits fabriqués ont été vendus en août 2014, avec une marge d'erreur de 520 millions de dollars, 19 fois sur 20 ». Dans cet énoncé, la marge d'erreur correspond au double de l'erreur type.

En conclusion, le biais et la variance sont des mesures clés de l'exactitude des résultats d'enquête. Lorsque nous réalisons une enquête en nous appuyant sur des principes d'assurance de la qualité robustes, nous évitons le biais. Lorsque nous fondons une enquête sur une base scientifique solide, nous pouvons calculer et contrôler la variance. Quelle que soit la façon dont nous déclarons la variance – comme une mesure de précision des résultats d'enquête – l'interprétation est toujours la même : plus la variance (ainsi que l'erreur type, le coefficient de variation et la marge d'erreur qui y sont associés) est petite, plus les résultats d'enquête correspondants sont considérés comme fiables.

Date de modification :