3. Des défauts dans la cuirasse : menaces croissantes pesant sur le paradigme des enquêtes

Constance F. Citro

Précédent | Suivant

Les enquêtes par échantillonnage probabiliste sont indispensables aux organismes statistiques officiels et autres pour de nombreux types de mesures : par exemple, pour suivre des phénomènes tels que l’approbation du public à l’égard du président des États-Unis ou les sentiments exprimés de bien-être. En outre, les enquêtes probabilistes visant principalement à produire des mesures de concept, comme le revenu du ménage, qui pourraient être obtenues à partir d’autres sources, offrent deux grands avantages : 1) elles permettent d’obtenir des données sur une grande variété de covariables pouvant être utilisées dans l’analyse de la ou des variables principales d’intérêt et 2) elles sont sous le contrôle de leur concepteur. Pourtant, les menaces qui pèsent sur le paradigme des enquêtes par échantillonnage probabiliste font boule de neige d’une façon qui ne présage rien de bon pour l’avenir. Manski (2014) va jusqu’à accuser les organismes statistiques d’enfouir sous le tapis les principaux problèmes liés à leurs données et de sous-estimer nettement l’incertitude présente dans leurs estimations. Il considère la non-réponse aux enquêtes comme un exemple d’« incertitude permanente ».

3.1  Caractérisation de la qualité des enquêtes

Une classification des erreurs et des autres problèmes qui peuvent compromettre la qualité des estimations d’enquête est essentielle à la compréhension et à l’amélioration des statistiques officielles. Brackstone (1999) a écrit un article majeur concernant le développement des cadres de qualité des données. Plus récemment, Biemer, Trewin, Bergdahl et Lilli (2014) ont passé en revue la littérature sur les cadres systématiques de la qualité, en soulignant, en particulier, les six dimensions proposées par Eurostat (2000), à savoir la pertinence, l’exactitude, l’actualité et la ponctualité, l’accessibilité et la clarté, la comparabilité (temporelle et géographique) et la cohérence (normes cohérentes). Iwig, Berning, Marck et Prell (2013) ont examiné les cadres de la qualité établis par Eurostat, l’Australian Bureau of Statistics, l’Office for National Statistics du Royaume-Uni, Statistique Canada et d’autres organismes, et élaboré des questions fondées sur six dimensions de la qualité de leur cru - la pertinence, l’accessibilité, la cohérence, l’intelligibilité, l’exactitude et l’environnement institutionnel - destinées à être utilisées par les organismes statistiques américains pour évaluer l’utilité des dossiers administratifs. Daas, Ossen, Tennekes et Nordholt (2012) ont construit un cadre d’évaluation de l’utilisation de dossiers administratifs pour produire des données de recensement pour les Pays-Bas.

Biemer et coll. (2014) sont allés plus loin et ont utilisé le cadre d’Eurostat (en combinant la comparabilité et la cohérence en une seule dimension) comme fondement pour concevoir, tester et mettre en œuvre un système de cotes numériques pour évaluer et améliorer continuellement la qualité des produits de données de Statistics Sweden. Pour que l’évaluation soit complète, elle devrait aussi porter sur les dimensions de la qualité en regard du coût et du fardeau de réponse. Utilement en ce qui concerne mes objectifs, Biemer et coll. ont décomposé la dimension d’« exactitude », conçue comme étant l’erreur totale d’enquête (ou l’erreur totale de produit pour les programmes statistiques non fondés sur des enquêtes, comme les comptes nationaux), en une erreur d’échantillonnage et sept types d’erreurs non dues à l’échantillonnage, à savoir 1) l’erreur de base de sondage, y compris le sous-dénombrement et le surdénombrement, ainsi que les variables auxiliaires manquantes ou erronées dans la base de sondage; 2) l’erreur due à la non-réponse (totale et partielle); 3) l’erreur de mesure (surdéclaration, sous-déclaration, autre); 4) l’erreur de traitement des données; 5) l’erreur de modélisation/estimation, telle que celle découlant de l’ajustement de modèles pour l’imputation ou de l’ajustement des valeurs des données afin qu’elles concordent avec les valeurs de référence; 6) l’erreur de révision (la différence entre les estimations publiées provisoires et définitives); et 7) l’erreur de spécification (la différence entre la variable réelle non observable et la variable indicatrice observée). Pour les enquêtes permanentes, j’ajouterais l’erreur de concept dépassé, qui est apparentée à l’erreur de spécification mais différente de celle-ci. Par exemple, le concept de revenu monétaire ordinaire du Census Bureau pour le calcul des estimations officielles du revenu des ménages et de la pauvreté d’après l’Annual Social et Economic Supplement (ASEC) de la CPS est devenu progressivement dépassé en raison de l’évolution des programmes d’imposition et de transferts des États-Unis (voir, par exemple, Czajka et Denmead 2012; National Research Council 1995).

3.2  Quatre sources d’erreur dans les statistiques américaines sur les ménages

3.2.1  Déficiences des bases de sondage

Obtenir une base de sondage complète et exacte pour les enquêtes peut être aussi difficile qu’obtenir des réponses auprès des unités sélectionnées dans l’échantillon à partir de la base de sondage et, dans de nombreux cas, la difficulté a persisté, voire même augmenté, au fil du temps. Joe Waksberg serait d’accord sur le problème des déficiences des bases de sondage : non seulement il a élaboré, en collaboration avec Warren Mitofsky, la méthode de composition aléatoire (CA) pour créer des bases de sondage et des échantillons pour réaliser des enquêtes téléphoniques résidentielles de haute qualité durant les années 1970 (voir Waksberg 1978; Tourangeau 2004), mais il a aussi assisté aux premiers signes de déclin de la popularité de la méthode en raison de phénomènes tels que l’existence de ménages ne possédant qu’un téléphone mobile.

L’une des bases de sondage utilisées fréquemment pour réaliser les enquêtes-ménages aux États-Unis est le Fichier maître des adresses (FMA) du Census Bureau élaboré pour le recensement décennal. Lors des quelques derniers recensements, la couverture nette des adresses résidentielles dans le FMA n’a cessé de s’améliorer, particulièrement pour les logements occupés (Mule et Konicki 2012). Le problème que continuent de poser les enquêtes-ménages est celui du sous-dénombrement des membres individuels dans les logements échantillonnés. Les ratios de couverture (c.‑à‑d. les estimations avant ajustement des ratios sur les chiffres de population de contrôle) dans le cas de la CPS de mars 2013, par exemple, ne sont que de 85 % pour l’ensemble de la population, et il existe des écarts prononcés entre les hommes et les femmes, les jeunes et les personnes âgées, ainsi que les blancs et les groupes minoritaires, les ratios de couverture étant aussi faibles que 61 % pour les hommes et les femmes de race noire âgés de 20 à 24 ans (voir http://www.census.gov/prod/techdoc/cps/cpsmar13.pdf [November 2014]). Aucune étude systématique de la série chronologique de ratios de couverture pour les enquêtes-ménages américaines n’a été réalisée, mais il existe des preuves que les ratios se sont dégradés.

Il est certes utile de corriger les erreurs de couverture pour tenir compte de l’âge, du sexe, de la race et du groupe ethnique, mais les ajustements des ratios effectués à l’heure actuelle pour les enquêtes-ménages ne fournissent indubitablement pas de correction pour d’autres écarts de couverture conséquents. (Les chiffres de contrôle pour l’ajustement des ratios, dans le cadre de l’un des usages les moins controversés et les plus anciens des dossiers administratifs dans les enquêtes-ménages des États-Unis, sont tirés des estimations démographiques produites d’après les données du recensement précédent et mises à jour au moyen de dossiers administratifs et de données d’enquête.) Donc, tout ce que l’on sait au sujet du sous-dénombrement au recensement décennal des États-Unis indique que, si l’on maintient constantes la race et l’origine ethnique, les populations désavantagées sur le plan socioéconomique sont moins bien dénombrées que les autres (voir, par exemple, National Research Council 2004, annexe D). Il est peu probable que de meilleurs résultats soient obtenus dans le cas des enquêtes-ménages - par exemple, Czajka, Jacobson et Cody (2004) constatent que la Survey of Income and Program Participation (SIPP) sous-représente considérablement les familles à revenu élevé comparativement à la Survey of Consumer Finances (SCF), qui comprend un échantillon de ménages à revenu élevé tiré d’une liste basée sur les dossiers fiscaux. En tenant compte des différences de couverture socioéconomique, Shapiro et Kostanich (1988) estiment au moyen de simulations que les estimations de la pauvreté présentent un important biais à la baisse pour les hommes noirs dans la CPS/ASEC. Par ailleurs, comparativement à l’échantillon ayant reçu le questionnaire complet du Recensement de 2000, Heckman et LaFontaine (2010) constatent que le sous-dénombrement au supplément d’octobre sur les études de la CPS de 2000 contribue peu à la sous-estimation des taux d’achèvement des études secondaires; d’autres facteurs sont plus importants.

3.2.2  Tendance à la baisse de la réponse totale

Un groupe d’étude du National Research Council des États-Unis (2013b) vient d’achever un examen complet des causes et conséquences de la non-réponse totale aux enquêtes-ménages, qui confirme le phénomène bien connu voulant que le public soit de moins en moins disponible et disposé à répondre aux enquêtes, même celles menées par les organismes statistiques officiels jugés fiables. Aux États-Unis, déjà durant les années 1980, il existait des preuves que les taux de réponse ont été à la baisse depuis pratiquement le début de l’usage répandu des enquêtes par échantillonnage probabiliste (voir, par exemple, Steeh 1981; Bradburn 1992). De Leeuw et De Heer (2002) ont estimé un taux séculaire de diminution de la participation aux enquêtes de 3 points de pourcentage par année en examinant les enquêtes permanentes menées dans 16 pays occidentaux du milieu des années 1980 à la fin des années 1990. Le taux de participation mesure la réponse des cas échantillonnés admissibles effectivement contactés; les taux de réponse (il existe plusieurs variantes acceptées) possèdent des dénominateurs plus généraux, comprenant les cas admissibles qui n’ont pas été rejoints (National Research Council 2013c, p. 9-12). Le National Research Council (2013b, tableaux 1 et 2, p. 104) fournit les taux de réponse initiaux ou à la présélection pour une gamme d’enquêtes américaines officielles pour 1990-1991 (alors que les taux de réponse avaient déjà diminué considérablement pour de nombreuses enquêtes) et pour 2007-2009 montrant clairement que le problème ne disparaît pas.

On a longtemps supposé que des taux de réponse plus faibles, même avec repondération pour tenir compte de la non-réponse, entraînent inévitablement un biais dans les estimations d’enquête. Selon des travaux de recherche récents (voir, par exemple, Groves et Peytcheva 2008), la relation entre la non-réponse et le biais est complexe. Lorsqu’on prend des mesures extraordinaires pour accroître le taux de réponse, il est possible qu’on augmente aussi le biais, par inadvertance, si l’on obtient une réponse plus importante auprès de certains groupes seulement et non d’autres (voir, par exemple, Fricker et Tourangeau 2010). Toutefois, il serait imprudent de la part des organismes officiels de statistique de supposer que l’accroissement de la non-réponse n’a que peu d’effet, voire aucun, sur l’exactitude des estimations, particulièrement si la non-réponse totale est couplée à la non-réponse partielle. Par exemple, on estime que les non-répondants aux enquêtes sur la santé sont en moins bonne santé, en moyenne, que les répondants, et que les non-répondants aux enquêtes sur le bénévolat sont moins susceptibles de faire du bénévolat que les répondants (National Research Council 2013b, p. 44-45). De surcroît, les études des effets de la non-réponse sur les associations bivariées ou multivariées ou sur la variance sont peu nombreuses, sauf en ce qui concerne le fait évident - et non sans importance - que la non-réponse totale réduit la taille effective de l’échantillon.

3.2.3  Réponse partielle souvent faible et à la baisse

Ni les enquêtes ni les recensements ne peuvent s’attendre à obtenir que les répondants fournissent une réponse à chacune des questions. Dans le cas du recensement des États-Unis, la vérification de certaines questions pour s’assurer de la cohérence est une pratique de longue date, mais jusqu’au milieu du 20e siècle, aucun ajustement n’était effectué pour la non-réponse partielle - les tableaux contenaient des lignes intitulées « pas de réponse » ou un énoncé similaire. Le premier recours à l’imputation a eu lieu en 1940 quand Deming a élaboré une méthode « cold deck » pour imputer l’âge en sélectionnant aléatoirement une valeur d’âge dans un ensemble approprié de cartes sélectionnées en fonction des autres renseignements connus au sujet de la personne dont l’âge manquait. À partir de 1960, grâce à l’émergence des ordinateurs à haute vitesse, des méthodes d’imputation « hot deck » ont été utilisées pour imputer les valeurs manquantes pour de nombreuses questions du recensement (Citro 2012). La méthode hot deck consiste à utiliser la valeur la plus récente enregistrée dans une matrice pour la personne ou le ménage traité précédemment et, par conséquent, ne requiert pas l’hypothèse que les données manquent entièrement au hasard (MCAR pour missing completely at random), bien qu’il soit nécessaire de supposer que les données manquent au hasard (MAR pour missing at random) dans les catégories définies par les variables dans la matrice hot deck. Des méthodes d’imputation fondées sur un modèle ne nécessitant pas d’aussi fortes hypothèses que celles de type MAR ou MCAR ont été élaborées (voir National Research Council 2010b), mais leur usage n’est pas très répandu dans les enquêtes-ménages aux États-Unis. Font exception la Survey of Consumer Finances (SCF) (Kennickell 2011) et la Consumer Expenditure (CE) Interview Survey (Passero 2009).

Quelle que soit la méthode, l’imputation a l’avantage de créer un enregistrement de données complet pour chaque répondant, ce qui facilite l’analyse multivariée et réduit la probabilité que les chercheurs utilisent différentes méthodes de traitement des données manquantes donnant des résultats différents. Cependant, l’imputation peut introduire un biais dans les estimations, et la mesure dans laquelle des données manquent accentuera vraisemblablement l’importance de tout biais. Par conséquent, il est troublant de constater que la non-réponse a augmenté pour des questions importantes des enquêtes-ménages, comme celles sur le revenu, les actifs, les impôts et les dépenses de consommation, qui obligent les répondants à fournir des montants en dollars - par exemple, Czajka (2009, tableau A-8) compare les taux d’imputation d’une question pour le revenu total et pour plusieurs sources de revenus dans le cas de la CPS/ASEC et la SIPP pour 1993, 1997 et 2002 - un bon tiers des données sur le revenu sont imputées à l’heure actuelle dans le cas de la CPS/ASEC, en hausse par rapport à environ le quart en 1993 - et la situation n’est pas meilleure pour la SIPP. Clairement, étant donné des taux d’imputation aussi élevés, il est impératif de procéder à une évaluation minutieuse des effets des méthodes d’imputation. Hoyakem, Bollinger et Ziliak (2014), par exemple, estiment que la méthode d’imputation hot deck pour les revenus dans la CPS/ASEC a systématiquement entraîné une sous-estimation de un point de pourcentage, en moyenne, de la pauvreté en se basant sur l’évaluation des revenus manquants dans les enregistrements des revenus de la CPS/ASEC et de la sécurité sociale.

3.2.4  L’erreur de mesure pose problème et n’est pas bien étudiée

Même en cas de déclaration complète, ou, plus fréquemment, d’ajustements pour tenir compte de la non-réponse totale et partielle, les estimations d’après les données d’enquête contiendront encore une erreur découlant des déclarations inexactes faites par les répondants qui devinent la réponse, évitent délibérément de donner une réponse correcte ou ne comprennent pas l’intention de la question. Même si les organismes statistiques reconnaissent l’existence de l’erreur de mesure, la portée de celle-ci est habituellement moins bien étudiée que celle de l’erreur d’échantillonnage ou des données manquantes. De nombreuses études de l’erreur de mesure comparent les estimations agrégées provenant d’une enquête à des estimations similaires provenant d’une autre enquête ou à un ensemble approprié de dossiers administratifs, ajustés autant qu’il est possible pour qu’ils soient comparables. Il est impossible de dégager de ces études le rôle joué par l’erreur de mesure comparativement à d’autres facteurs, mais les résultats indiquent l’ordre de grandeur des problèmes. Les auteurs de certaines études arrivent à apparier des enregistrements individuels et par conséquent à examiner les composantes de l’erreur de mesure.

Il est connu qu’une erreur de mesure importante affecte les estimations socioéconomiques clés produites d’après les enquêtes-ménages américaines. Donc, une foule d’études ont donné des preuves, enquête après enquête, d’une sous-estimation nette du revenu des ménages américains et, constatation encore plus troublante, d’une diminution de la complétude des déclarations, même après imputation et pondération. Ainsi, Fixler et Johnson (2012, tableau 2) ont estimé qu’entre 1999 et 2010, les estimations moyennes et médianes calculées d’après la CPS/ASEC sont devenues progressivement inférieures aux estimations des National Income and Product Accounts (NIPA) en raison de facteurs tels que 1) la sous-représentation des ménages à revenu très élevé dans l’échantillon de la CPS/ASEC, 2) la non-déclaration ou la sous-déclaration par les ménages à revenu élevé qui sont inclus dans l’échantillon et 3) la non-déclaration ou la sous-déclaration par les ménages à revenu moyen ou faible. Les études portant sur les sources individuelles de revenu révèlent une erreur encore pire. Par exemple, Meyer et Goerge (2011) constatent, en appariant les enregistrements du Supplemental Nutrition Assistance Program (SNAP) obtenus dans deux États, que près de 35 % et 50 %, respectivement, de véritables bénéficiaires ne déclarent pas avoir reçu des prestations dans le cadre de l’American Community Survey (ACS) ou de la CPS/ASEC. De même, Meyer, Mok et Sullivan (2009) fournissent des preuves d’écarts importants et souvent croissants entre les estimations d’enquête et les estimations fondées sur les dossiers administratifs correctement ajustés des bénéficiaires du revenu et des montants totaux pour de nombreuses sources.

La richesse est, comme on le sait, difficile à mesurer dans les enquêtes-ménages, et de nombreux organismes n’essaient pas de le faire. Czajka (2009, p. 143-145) résume les travaux de recherche sur la qualité des estimations de la richesse d’après la SIPP en les comparant aux estimations d’après la SCF et la Panel Study of Income Dynamics (PSID). En simplifiant considérablement les résultats, historiquement, la SIPP s’est avérée assez efficace pour mesurer les éléments de passif, comme la dette hypothécaire, et la valeur d’éléments d’actif possédés tels que les logements, les véhicules et les obligations d’épargne. Par contre, la SIPP n’a pas fourni de bonnes mesures de la valeur des actifs détenus principalement par les ménages à revenu élevé, comme les actions, les fonds communs de placement, ainsi que les comptes IRA et KEOGH, tandis que la PSID a donné d’un peu meilleurs résultats. Sur une base nette, la SIPP sous-estime considérablement la valeur nette.

Une étude menée par le National Research Council (2013a) sur la CE Interview and Diary Surveys du BLS sur les dépenses de consommation comportant une interview et la tenue d’un journal a révélé des différences de qualité de la déclaration de divers types de dépenses comparativement aux estimations des dépenses de consommation personnelles (PCE pour personal consumption expenditure) ajustées de manière appropriée provenant des NIPA. Bee, Meyer et Sullivan (2012, tableau 2) ont également constaté une diminution de la déclaration de certaines dépenses - par exemple, la déclaration des dépenses en essence dans l’estimation des dépenses de consommation des ménages est passée de plus de 100 % de l’estimation des PCE comparables en 1986 à un peu moins de 80 % en 2010, tandis que la déclaration des dépenses en meubles et accessoires d’ameublement est passée de 77 % à 44 % au cours d’une période comparable.

Précédent | Suivant

Date de modification :