Recherche par

4. Étude de cas

Jeroen Pannekoek et Li-Chun Zhang

4.1 Imputation et ajustement des données sur les pâturages

La population cible du « questionnaire principal » du Recensement de l’agriculture de la Norvège de 2010 contient environ 45 000 unités. Les questions 22 à 24 ont trait à la superficie des pâturages :

La question 22 demande quelles sont les unités qui possèdent des pâturages productifs.
La question 23 demande quelle est la superficie totale des pâturages productifs en 2010.
La question 24 demande la composition de la superficie des pâturages en fonction de la dernière fois où ils ont été ensemencés : 1) 2006 à 2010, 2) 2001 à 2005, et 3) 2000 ou antérieurement.

Désignons par $x_{0,1}, x_{0,2}$ et $x_{0,3}$ les trois catégories de superficie des pâturages déclarées à la question 24. Soit $x_{0} = \sum_{j = 1}^{3} x_{0, j}$ la somme qui est le sujet de la question 23. Ce total peut aussi être obtenu auprès de l’organisme gouvernemental qui administre la subvention pertinente. À l’étape de la vérification, la valeur déclarée de $x_{0}$ est remplacée par le chiffre administratif, désigné par $\tilde{x},$ et maintenue fixe par la suite. Ensuite, la réponse à la question 22 peut être inférée en sachant $\tilde{x}$ et maintenue fixe par la suite, de sorte qu’il ne reste qu’à traiter la question 24.

Ci-après nous décrivons le traitement des 34 480 unités possédant une superficie de pâturages productifs selon leurs profils d’observation respectifs (tableau 4.1, où l’indice d’unité $i$ de toutes les variables a été omis pour faciliter l’exposé).

10 378 unités ont déclaré une superficie totale des pâturages conforme aux données de la source administrative : il s’agit des donneurs potentiels; aucun ajustement n’est nécessaire.
11 827 unités ont déclaré un total supérieur à la valeur connue : elles présentent un problème d’incohérence de microniveau. Naturellement, il pourrait aussi s’agir de valeurs manquantes si $\sum_{j} r_{j} < 3,$ mais les chances sont faibles, si bien que nous supposerons qu’il n’y a pas de valeurs manquantes parmi ces unités. Toutes les valeurs observées sont ajustables, de sorte que l’équation comptable est donnée par

$\sum_{j; r_{j} = 1} {\tilde{x}}_{j} = \tilde{x} .$

L’approche RG donne simplement l’ajustement proportionnel $\tilde{x} / \sum_{j; r_{j} = 1} x_{0, j} .$ Le même ajustement est donné par l’approche MCP avec $w_{j} = 1 / x_{0, j}$ si $r_{j} = 1,$ ainsi que par l’approche KL. Nous notons qu’il n’existe aucune raison particulière d’envisager des ajustements additifs pour ces données.
3 876 unités n’ont pas déclaré de superficie des pâturages d’aucune sorte, alors qu’elles possèdent une superficie de pâturages productifs selon la source administrative : il s’agit d’enregistrements avec données totalement manquantes. Le donneur qui est le plus proche voisin (PPV) est trouvé en fonction de $\tilde{x},$ dans chacune des 12 « formes d’agriculture », qui représentent une classification connue pour l’ensemble de la population. Dans le cas de donneurs PPV multiples, nous avons choisi celui pour lequel la distance physique était la plus courte, ce qui rend l’imputation PPV entièrement déterministe, étant donné toutes les valeurs $\tilde{x} .$ Enfin, un ajustement proportionnel des valeurs du donneur est effectué afin de satisfaire l’équation comptable

$\sum_{j; r_{j}^{*} = 1} {\tilde{x}}_{j} = \tilde{x}$

où $r_{j}^{*}$ est l’indicateur d’observation/déclaration associé au donneur.
3 019 unités ont déclaré des superficies de pâturages de chacun des trois types, mais dont la somme est inférieure au total connu : ces unités présentent un problème d’incohérence de microniveau. Un ajustement proportionnel est appliqué à toutes les valeurs déclarées en ce qui concerne l’équation comptable $\sum_{j = 1}^{3} {\tilde{x}}_{j} = \tilde{x} .$
Le dernier groupe comprend les 2 703 unités qui ont déclaré une catégorie de superficie de pâturages et les 2 677 unités qui ont déclaré deux catégories de superficie de pâturages. Manifestement, ici, le fait que le total déclaré est inférieur à la valeur connue peut être causé par des valeurs incohérentes et/ou manquantes. Pour éviter d’introduire un profil systématique dû à la vérification, nous laissons la décision dépendre du donneur. Prenons une unité ayant déclaré une seule catégorie de superficie des pâturages. Premièrement, les donneurs potentiels sont limités à ceux provenant de la même « forme d’agriculture », ainsi qu’ayant au moins la même catégorie de superficie des pâturages. Le donneur PPV est alors choisi parmi les donneurs potentiels de manière à minimiser

$\max (| {\tilde{x}}^{*} / \tilde{x} - 1 |, {| x_{j}^{*} / {\tilde{x}}^{*} - x_{0, j} / \tilde{x} |}_{j; r_{j} = 1})$

où $(x_{1}^{*}, x_{2}^{*}, x_{3}^{*})$ et ${\tilde{x}}^{*}$ sont les valeurs du donneur potentiel. Autrement dit, le donneur PPV est choisi en ce qui concerne à la fois la différence relative entre les superficies totales des pâturages et la proportion de la catégorie déclarée de superficie des pâturages par rapport au total correspondant. Soit le donneur PPV associé à $x^{*}$ et à $r^{*} .$ Si $\sum_{j} r_{j}^{*} > 1 = \sum_{j} r_{j},$ alors nous supposons qu’il existe des valeurs manquantes où $r_{j}^{*} = 1$ mais $r_{j} = 0;$ tandis que si $\sum_{j} r_{j}^{*} = \sum_{j} r_{j},$ alors nous supposons qu’il existe uniquement un problème d’incohérence. Les opérations d’imputation et d’ajustement restantes sont simples. Le même traitement est appliqué aux unités ayant déclaré deux catégories de superficie des pâturages, avec les modifications évidentes dues au fait que $\sum_{j} r_{j} = 2.$

Tableau 4.1
Profil d’observation parmi les unités avec superficie de pâturages productifs : $r_{j} = 1$ si $x_{0, j}$ est déclaré, $r_{j} = 0$ autrement; $j = 1, 2, 3$ pour les trois catégories de superficie de pâturages
Sommaire du tableau
Le tableau montre les résultats de Profil d’observation parmi les unités avec superficie de pâturages productifs : x si x est déclaré. Les données sont présentées selon Total (titres de rangée) et $\sum_{j} r_{j} x_{0, j} = \tilde{x}$ et $\sum_{j} r_{j} x_{0, j} > \tilde{x}$ et $\sum_{j} r_{j} x_{0, j} < \tilde{x}$ (figurant comme en-tête de colonne).
Total	$\sum_{j} r_{j} x_{0, j} = \tilde{x}$	$\sum_{j} r_{j} x_{0, j} > \tilde{x}$	$\sum_{j} r_{j} x_{0, j} < \tilde{x}$
Total	$\sum_{j} r_{j} x_{0, j} = \tilde{x}$	$\sum_{j} r_{j} x_{0, j} > \tilde{x}$	$\sum_{j} r_{j} = 0$	$\sum_{j} r_{j} = 1$	$\sum_{j} r_{j} = 2$	$\sum_{j} r_{j} = 3$
34 480	10 378	11 827	3 876	2 703	2 677	3 019

Les totaux de sous-population et de population basés sur l’imputation avec ajustement sont donnés au tableau 4.2, comparativement aux totaux des données brutes et aux totaux du fichier de recensement. Nos constatations sont les suivantes. a) Le fichier de recensement a été vérifié de la façon « conventionnelle » qui requiert beaucoup de travail manuel (environ 1,5 personne-année en tout). Par contre, ici, les procédures de vérification sont entièrement automatisées, et tout le travail (c’est-à-dire analyse exploratoire, décision concernant les traitements, programmation et traitement) a été effectué en moins de deux jours. Même si les questions concernant les superficies des pâturages ne sont qu’au nombre de 3 sur un total de 36 questions du « questionnaire principal », il est évident que l’économie de temps possible pourrait être énorme. b) Les différences entre les totaux imputés et les totaux de recensement sont faibles pour toutes les sous-populations, comparativement à celles observées entre les données brutes et les totaux de recensement. Tous les changements par rapport aux données brutes vont dans la « bonne » direction, si l’on en juge d’après les résultats du recensement. On peut conclure que les procédures de vérification automatisées ont abouti à la plupart des résultats de vérification du recensement. c) Il est possible d’ajouter des contraintes d’étalonnage. À titre d’exemple, nous avons utilisé les totaux de sous-population du fichier de recensement pour les 3 876 enregistrements avec données totalement manquantes, en plus de la superficie totale connue des pâturages pour chacun d’eux. La convergence a été atteinte en 23 itérations en utilisant le critère MCP. d) Pour les 5 380 unités pouvant contenir des données manquantes partielles, l’imputation des valeurs « manquantes » a été effectuée pour environ 25 % d’entre elles dans le cadre du traitement du recensement, tandis que la proportion est d’environ 75 % pour la procédure de vérification décrite ici. Le nombre de cas de données partiellement manquantes est probablement sous-estimé dans le fichier du recensement parce que ce nombre est fondé sur des vérifications manuelles sélectives. Quoi qu’il en soit, malgré les différences entre les traitements individuels, les totaux vérifiés sont assez proches de chacun (tableau 4.2, sous $0 < \sum_{j} r_{j} < 3) .$

Tableau 4.2 Superficies totales des pâturages des sous-populations et de la population fondées sur les données brutes, l’imputation avec ajustement et les données de production du recensement (tous les chiffres ×10⁵)

4.2 Estimation approximative de l’erreur quadratique moyenne

À titre de mesure de l’incertitude des données sur la superficie des pâturages, nous utilisons ici l’erreur quadratique moyenne de prédiction (EQMP) donnée par

${EQMP}_{j} = E {{({\tilde{X}}_{j} - X_{j})}^{2} | R_{U}, {\tilde{X}}_{U}}$

où $X_{j} = \sum_{i \in U} x_{i j}$ est le total de population cible et ${\tilde{X}}_{j} = \sum_{i \in U} {\tilde{x}}_{i j}$ est le total correspondant fondé sur l’imputation avec ajustement, pour $j = 1, 2, 3.$ En outre, ${\tilde{X}}_{U} = {({\tilde{x}}_{i})}_{i \in U}$ contient les totaux connus des superficies de pâturages dans la population, et $R_{U}$ est la matrice des indicateurs de données manquantes dont la $i^{e}$ ligne est donnée par $(r_{i 1}, r_{i 2}, r_{i 3}) .$

Or, même s’il est habituel de parler d’imputation lorsque l’on fait référence aux ajustements dus aux incohérences dans les microdonnées dans le cadre de la vérification de données statistiques, l’éventuelle incertitude qui y est associée est généralement « ignorée » par la suite. Cela revient à supposer que ${\tilde{x}}_{i j} = x_{i j}$ si $r_{i j} = 1.$ Ce qu’il reste à expliquer est l’incertitude associée à l’imputation des valeurs manquantes et à l’ajustement subséquent des valeurs du donneur, sous l’hypothèse que ni l’imputation ni l’ajustement n’introduit un biais dans la valeur finale. Cela revient à supposer que $E ({\tilde{x}}_{i j} - x_{i j}) = 0$ si $r_{i j} = 0.$ Sous ces deux hypothèses, nous avons

$\begin{array}{l} {EQMP}_{j} & = & E {{(\sum_{i \in U} (1 - r_{i j}) {\tilde{x}}_{i j} - \sum_{i \in U} (1 - r_{i j}) x_{i j})}^{2}} \\ = & V (\sum_{i \in U; r_{i} = 1, d_{i j} \geq 1} d_{i j} δ_{i j} x_{i j}) + V (\sum_{i \in U; r_{i j} = 0} x_{i j}) \\ \approx & \sum_{i \in U; r_{i} = 1, d_{i j} \geq 1} d_{i j}^{2} V (δ_{i j} x_{i j}) + \sum_{i \in U; r_{i j} = 0} V (x_{i j}) \end{array}$

où $d_{i j}$ est le nombre de fois que $x_{i j}$ est utilisée comme valeur du donneur pour l’imputation des données manquantes, et la décomposition de la variance est vérifiée à condition que les distributions des unités soient indépendantes les unes des autres. En outre, à condition que $d_{i j} \geq 1,$

$δ_{i j} = \sum_{k \in U; x_{k j}^{*} = x_{i j}} {\tilde{x}}_{k j} / (d_{i j} x_{i j})$

où $x_{k j}^{*} = x_{i j}$ signifie que $x_{i j}$ est utilisée comme valeur du donneur pour $x_{k j},$ et ${\tilde{x}}_{k j}$ est la valeur finale après ajustement. Autrement dit, $δ_{i j}$ est l’ajustement combiné fait à $d_{i j} x_{i j},$ où $d_{i j} x_{i j}$ aurait été la contribution de $x_{i j}$ à ${\tilde{X}}_{j}$ par imputation s’il s’était agi d’une imputation par donneur sans ajustement. Notons que $d_{i j}$ peut être traitée comme une constante dans la dernière équation (approximative) à condition que l’identification du donneur dépende uniquement de $R_{U}$ et ${\tilde{X}}_{U} .$ Cela est vrai pour les 3 876 enregistrements avec données totalement manquantes, mais pas exactement pour les 5 380 unités pour lesquelles des données pourraient être partiellement manquantes. Comme il est expliqué à la section 4.1, l’identification du PPV dépend en fait aussi des valeurs observées $x_{i j} .$ Pour cette raison, la dernière équation n’est vérifiée qu’approximativement.

Un modèle de ratio pour la variance conditionnelle de $x_{i j}$ semble naturel ici, c’est-à-dire

$x_{i j} = β_{j} x_{i} + ε_{i j} où E (ε_{i j}) = 0 et V (ε_{i j}) = σ_{j}^{2} x_{i}^{α_{j}}$

où $(β_{j}, σ_{j}^{2}, α_{j})$ peut varier en fonction de la composition des superficies des pâturages, désignée par $q = (1, 1, 1), (1, 1, 0), (1, 0, 1) et (0, 1, 1),$ où $q_{i j} = 1$ si l’unité $i$ possède le $j^{e}$ type de pâturage et $0$ autrement. Notons que, dans le cas de $\sum_{j} q_{i j} = 1,$ nous avons $x_{i j} = \tilde{x}$ si $q_{i j} = 1,$ de sorte que la variance conditionnelle est nulle. Les paramètres de ce modèle de ratio peuvent être estimés d’après les 10 378 donneurs potentiels satisfaisant $\sum_{j} r_{j} x_{0, j} = \tilde{x} .$ L’analyse exploratoire des données montre que $α_{j} = 2$ est un choix raisonnable dans tous les cas de sorte que, dans les calculs qui suivent, seules $β_{j}$ et $σ_{j}^{2}$ varient en fonction du profil d’observation, désigné par $(β_{j; h}, σ_{j; h}^{2})$ pour $h = 1, ..., 4.$ Notons qu’en raison de $α_{j} \equiv 2,$ on obtiendra le même ${\hat{σ}}_{j; h}^{2}$ quel que soit $j$ quand $\sum_{j} q_{i j} = 2.$ Par exemple, si nous prenons $q = {(1,1,0)}^{T},$ nous avons ${\hat{β}}_{1} + {\hat{β}}_{2} = 1,$ de sorte que les résidus prédits « centrés réduits » sont donnés par ${\hat{ε}}_{i 1} / {\tilde{x}}_{i} = x_{i 1} / {\tilde{x}}_{i} - {\hat{β}}_{1}$ et ${\hat{ε}}_{i 2} / {\tilde{x}}_{i} = x_{i 2} / {\tilde{x}}_{i} - {\hat{β}}_{2} = ({\tilde{x}}_{i} - x_{i 1}) / {\tilde{x}}_{i} - (1 - {\hat{β}}_{1}) = - {\hat{ε}}_{i 1} / {\tilde{x}}_{i} .$ De toute façon, nous obtenons ${\hat{V}}_{h} (x_{i j}) = {\hat{σ}}_{j; h}^{2} {\tilde{x}}_{i}^{2}$ pour l’unité $i$ ayant la composition $h .$

Le facteur d’ajustement $δ_{i j}$ semble difficile à modéliser d’avance. Mais sa moyenne et sa variance, notées $μ_{δ} = E (δ_{i j})$ et $σ_{δ}^{2} = V (δ_{i j})$ respectivement, peuvent être estimées empiriquement après avoir effectué l’imputation et l’ajustement. En outre, nous supposons que $δ_{i j}$ est indépendant de $x_{i j}$ sachant ${\tilde{x}}_{i} .$ Cela semble une hypothèse plausible, puisque le premier dépend principalement de la distribution de $x$ dans le « voisinage » de $x = \tilde{x},$ tandis que la seconde dépend de la variation sur $j$ étant donné que la somme est égale à $\tilde{x} .$ Par exemple, asymptotiquement, à mesure que la chance de trouver un donneur dans tout voisinage arbitrairement proche tend vers l’unité, le facteur d’ajustement $δ_{i j}$ tend vers 1 en probabilité, indépendamment des valeurs de $x_{i j} .$ Il s’ensuit alors que, sachant la composition $h,$ une estimation de la variance correspondante $V_{h} (δ_{i j} x_{i j})$ est donnée par

${\hat{V}}_{h} (δ_{i j} x_{i j}) = {\hat{σ}}_{j; h}^{2} {\tilde{x}}_{i}^{2} {\hat{σ}}_{δ}^{2} + {({\hat{β}}_{j; h} {\tilde{x}}_{i})}^{2} {\hat{σ}}_{δ}^{2} + {\hat{σ}}_{j; h}^{2} {\tilde{x}}_{i}^{2} {\hat{μ}}_{δ}^{2} .$

Enfin, en combinant tous les éléments susmentionnés, nous obtenons une estimation approximative de l’EQMP sous la forme

${\hat{EQMP}}_{j} \approx \sum_{h} \sum_{i \in U_{h}; r_{i} = 1} d_{i j}^{2} {\hat{V}}_{h} (δ_{i j} x_{i j}) + \sum_{h} \sum_{i \in U_{h}; r_{i j} =0} {\hat{V}}_{h} (x_{i j}) .$

Les résultats de l’estimation approximative de la variance sont donnés au tableau 4.3. Nous savons d’avance que le coefficient de régression du modèle de ratio doit varier en fonction de la composition de la superficie des pâturages, mais les estimations de $σ_{j; h}^{2}$ donnent à penser qu’il était raisonnable de permettre que le paramètre de variance dépende de $h .$ La moyenne estimée de $δ_{i j}$ est proche de l’unité pour toutes les catégories de superficie des pâturages, ne donnant donc aucun indice que les hypothèses concernant les facteurs d’ajustement ne sont pas raisonnables. La variance de $δ_{i j}$ est clairement la plus grande pour $j = 2,$ ce que reflète aussi le fait que l’EQMP estimée dans ce cas présente l’augmentation la plus importante par rapport à l’imputation PPV sans ajustement. Les racines carrées relatives de l’EQMP sont trop faibles pour expliquer les différences réelles entre les totaux de recensement et les totaux imputés (donnés au tableau 4.2). Cela illustre l’impression générale qui suit concernant l’évaluation de l’incertitude due à la vérification. Les effets systématiques pour ce qui est des moments d’ordre un des statistiques résultantes sont habituellement les éléments qui dominent l’incertitude globale due à la vérification. Mais ils sont aussi plus difficiles à quantifier que les propriétés de variance d’ordre deux. Ici, cela concerne les deux hypothèses d’« ordre un » faites au début, c’est-à-dire ${\tilde{x}}_{i j} = x_{i j}$ si $r_{i j} = 1$ et $E ({\tilde{x}}_{i j} - x_{i j}) = 0$ si $r_{i j} = 0.$ Des hypothèses plus complexes au sujet du mécanisme d’erreur des ajustements de cohérence dans la vérification sont nécessaires afin d’aller au-delà de cette approche « optimiste ».

Tableau 4.3
Estimation de la variance approximative pour l’imputation avec ajustement. REQMP : racine carrée de l’EQMP. REQMP pour l’imputation PPV sans ajustement entre parenthèses
Sommaire du tableau
Le tableau montre les résultats de Estimation de la variance approximative pour l’imputation avec ajustement. REQMP : racine carrée de l’EQMP. REQMP pour l’imputation PPV sans ajustement entre parenthèses $j = 1$ , $j = 2$ et $j = 3$ (figurant comme en-tête de colonne).
		$j = 1$	$j = 2$	$j = 3$
${\hat{β}}_{j}$	$q = (1,1,1)$	0,312	0,359	0,329
	$q = (1,1,0)$	0,346	0,654	-
	$q = (1,0,1)$	0,407	-	0,593
	$q = (0,1,1)$	-	0,567	0,433
${\hat{σ}}_{j}^{2}$	$q = (1,1,1)$	0,0248	0,0511	0,0364
	$q = (1,1,0)$	0,0478	0,0478	-
	$q = (1,0,1)$	0,0464	-	0,0464
	$q = (0,1,1)$	-	0,0798	0,0798
	$({\hat{μ}}_{δ}; {\hat{σ}}_{δ}^{2})$	(0,992; 0,0248)	(1,020; 0,0994)	(1,003; 0,0236)
	$\hat{REQMP}$	3 267 (3 134)	4 190 (3 530)	3 111 (2 925)
	$\hat{REQMP} / \sum_{i; r_{i j} = 0} {\tilde{x}}_{i j}$	1,41 %	1,79 %	0,93 %
	$\hat{REQMP} / {\tilde{X}}_{j}$	0,24 %	0,34 %	0,15 %

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

4. Étude de cas

4.1 Imputation et ajustement des données sur les pâturages

4.2 Estimation approximative de l’erreur quadratique moyenne