4. Étude de cas
Jeroen Pannekoek et Li-Chun Zhang
Précédent | Suivant
4.1 Imputation et ajustement des données sur les pâturages
La population cible du « questionnaire
principal » du Recensement de l’agriculture de la Norvège de 2010 contient
environ 45 000 unités. Les questions 22 à 24 ont trait à la
superficie des pâturages :
-
La question 22 demande quelles
sont les unités qui possèdent des pâturages productifs.
-
La question 23 demande quelle
est la superficie totale des pâturages productifs en 2010.
-
La question 24 demande la composition
de la superficie des pâturages en fonction de la dernière fois où ils ont été
ensemencés : 1) 2006 à 2010, 2) 2001 à 2005, et 3) 2000 ou
antérieurement.
Désignons par
et
les trois catégories de superficie
des pâturages déclarées à la question 24. Soit
la somme qui est le sujet de
la question 23. Ce total peut aussi être obtenu auprès de l’organisme
gouvernemental qui administre la subvention pertinente. À l’étape de la vérification,
la valeur déclarée de
est remplacée par le chiffre administratif,
désigné par
et maintenue fixe par la
suite. Ensuite, la réponse à la question 22 peut être inférée en sachant
et maintenue fixe par la
suite, de sorte qu’il ne reste qu’à traiter la question 24.
Ci-après nous décrivons le traitement des
34 480 unités possédant une superficie de pâturages productifs selon
leurs profils d’observation respectifs (tableau 4.1, où l’indice d’unité
de toutes les variables a été omis pour
faciliter l’exposé).
-
10 378 unités ont
déclaré une superficie totale des pâturages conforme aux données de la source administrative :
il s’agit des donneurs potentiels; aucun ajustement n’est nécessaire.
-
11 827 unités ont
déclaré un total supérieur à la valeur connue : elles présentent un
problème d’incohérence de microniveau. Naturellement, il pourrait aussi s’agir
de valeurs manquantes si
mais les chances sont faibles, si
bien que nous supposerons qu’il n’y a pas de valeurs manquantes parmi ces
unités. Toutes les valeurs observées sont ajustables, de sorte que l’équation
comptable est donnée par
L’approche RG donne simplement l’ajustement
proportionnel
Le même ajustement
est donné par l’approche MCP avec
si
ainsi que par
l’approche KL. Nous notons qu’il n’existe aucune raison particulière d’envisager
des ajustements additifs pour ces données.
-
3 876 unités n’ont pas déclaré de superficie
des pâturages d’aucune sorte, alors qu’elles possèdent une superficie de
pâturages productifs selon la source administrative : il s’agit
d’enregistrements avec données totalement manquantes. Le donneur qui est le
plus proche voisin (PPV) est trouvé en fonction de
dans chacune des 12 « formes
d’agriculture », qui représentent une classification connue pour
l’ensemble de la population. Dans le cas de donneurs PPV multiples, nous avons
choisi celui pour lequel la distance physique était la plus courte, ce qui rend
l’imputation PPV entièrement déterministe, étant donné toutes les valeurs
Enfin, un ajustement proportionnel des valeurs du
donneur est effectué afin de satisfaire l’équation comptable
où
est l’indicateur
d’observation/déclaration associé au donneur.
-
3 019 unités ont déclaré
des superficies de pâturages de chacun des trois types, mais dont la
somme est inférieure au total connu : ces unités présentent un problème
d’incohérence de microniveau. Un ajustement proportionnel est appliqué à toutes
les valeurs déclarées en ce qui concerne l’équation comptable
-
Le dernier groupe comprend les 2 703 unités
qui ont déclaré une catégorie de superficie de pâturages et les 2 677 unités
qui ont déclaré deux catégories de superficie de pâturages. Manifestement, ici,
le fait que le total déclaré est inférieur à la valeur connue peut être causé
par des valeurs incohérentes et/ou manquantes. Pour éviter d’introduire un
profil systématique dû à la vérification, nous laissons la décision dépendre du
donneur. Prenons une unité ayant déclaré une seule catégorie de superficie des
pâturages. Premièrement, les donneurs potentiels sont limités à ceux provenant
de la même « forme d’agriculture », ainsi qu’ayant au moins la
même catégorie de superficie des pâturages. Le donneur PPV est alors choisi
parmi les donneurs potentiels de manière à minimiser
où
et
sont les valeurs
du donneur potentiel. Autrement dit, le donneur PPV est choisi en ce qui
concerne à la fois la différence relative entre les superficies totales des
pâturages et la proportion de la catégorie déclarée de superficie des pâturages
par rapport au total correspondant. Soit le donneur PPV associé à
et à
Si
alors nous
supposons qu’il existe des valeurs manquantes où
mais
tandis que si
alors nous
supposons qu’il existe uniquement un problème d’incohérence. Les opérations d’imputation
et d’ajustement restantes sont simples. Le même traitement est appliqué aux unités
ayant déclaré deux catégories de superficie des pâturages, avec les modifications
évidentes dues au fait que
Tableau 4.1
Profil d’observation parmi les unités avec superficie de pâturages productifs : si est déclaré, autrement; pour les trois catégories de superficie de pâturages
Sommaire du tableau
Le tableau montre les résultats de Profil d’observation parmi les unités avec superficie de pâturages productifs : x si x est déclaré. Les données sont présentées selon Total (titres de rangée) et
et et (figurant comme en-tête de colonne).
Total |
|
|
|
|
|
|
|
34 480 |
10 378 |
11 827 |
3 876 |
2 703 |
2 677 |
3 019 |
Les totaux de sous-population et de population
basés sur l’imputation avec ajustement sont donnés au tableau 4.2, comparativement
aux totaux des données brutes et aux totaux du fichier de recensement. Nos
constatations sont les suivantes. a) Le fichier de recensement a été
vérifié de la façon « conventionnelle » qui requiert beaucoup de
travail manuel (environ 1,5 personne-année en tout). Par contre, ici, les
procédures de vérification sont entièrement automatisées, et tout le travail (c’est-à-dire
analyse exploratoire, décision concernant les traitements, programmation et traitement)
a été effectué en moins de deux jours. Même si les questions concernant les
superficies des pâturages ne sont qu’au nombre de 3 sur un total de 36 questions
du « questionnaire principal », il est évident que l’économie de
temps possible pourrait être énorme. b) Les différences entre les totaux
imputés et les totaux de recensement sont faibles pour toutes les sous-populations,
comparativement à celles observées entre les données brutes et les totaux de
recensement. Tous les changements par rapport aux données brutes vont dans la
« bonne » direction, si l’on en juge d’après les résultats du
recensement. On peut conclure que les procédures de vérification automatisées
ont abouti à la plupart des résultats de vérification du recensement. c) Il
est possible d’ajouter des contraintes d’étalonnage. À titre d’exemple, nous
avons utilisé les totaux de sous-population du fichier de recensement pour les 3 876 enregistrements
avec données totalement manquantes, en plus de la superficie totale connue des
pâturages pour chacun d’eux. La convergence a été atteinte en 23 itérations
en utilisant le critère MCP. d) Pour les 5 380 unités pouvant contenir des données manquantes partielles, l’imputation
des valeurs « manquantes » a été effectuée pour environ 25 % d’entre
elles dans le cadre du traitement du recensement, tandis que la proportion est d’environ
75 % pour la procédure de vérification décrite ici. Le nombre de cas de
données partiellement manquantes est probablement sous-estimé dans le fichier
du recensement parce que ce nombre est fondé sur des vérifications manuelles sélectives.
Quoi qu’il en soit, malgré les différences entre les traitements individuels, les
totaux vérifiés sont assez proches de chacun (tableau 4.2, sous
4.2 Estimation approximative de l’erreur
quadratique moyenne
À titre de mesure de l’incertitude des
données sur la superficie des pâturages, nous utilisons ici l’erreur
quadratique moyenne de prédiction (EQMP) donnée par
où
est le total de population
cible et
est le total
correspondant fondé sur l’imputation avec ajustement, pour
En outre,
contient les
totaux connus des superficies de pâturages dans la population, et
est la matrice des
indicateurs de données manquantes dont la
ligne est donnée
par
Or, même s’il est habituel de parler
d’imputation lorsque l’on fait référence aux ajustements dus aux incohérences dans
les microdonnées dans le cadre de la vérification de données statistiques, l’éventuelle
incertitude qui y est associée est généralement « ignorée » par la
suite. Cela revient à supposer que
si
Ce qu’il reste à expliquer
est l’incertitude associée à l’imputation des valeurs manquantes et à
l’ajustement subséquent des valeurs du donneur, sous l’hypothèse que ni l’imputation
ni l’ajustement n’introduit un biais dans la valeur finale. Cela revient à
supposer que
si
Sous ces deux hypothèses, nous
avons
où
est le nombre de
fois que
est utilisée
comme valeur du donneur pour l’imputation des données manquantes, et la décomposition
de la variance est vérifiée à condition que les distributions des unités soient
indépendantes les unes des autres. En outre, à condition que
où
signifie que
est utilisée comme
valeur du donneur pour
et
est la valeur finale
après ajustement. Autrement dit,
est l’ajustement
combiné fait à
où
aurait été la contribution
de
à
par imputation s’il
s’était agi d’une imputation par donneur sans ajustement. Notons que
peut être
traitée comme une constante dans la dernière équation (approximative) à
condition que l’identification du donneur dépende uniquement de
et
Cela est vrai
pour les 3 876 enregistrements avec données totalement manquantes, mais
pas exactement pour les 5 380 unités pour lesquelles des données
pourraient être partiellement manquantes. Comme il est expliqué à la section 4.1,
l’identification du PPV dépend en fait aussi des valeurs observées
Pour cette
raison, la dernière équation n’est vérifiée qu’approximativement.
Un modèle de ratio pour la variance conditionnelle
de
semble naturel ici, c’est-à-dire
où
peut varier en fonction
de la composition des superficies des pâturages, désignée par
où
si l’unité
possède le
type de
pâturage et autrement. Notons que, dans le cas de
nous avons
si
de sorte que la variance
conditionnelle est nulle. Les paramètres de ce modèle de ratio peuvent être estimés
d’après les 10 378 donneurs potentiels satisfaisant
L’analyse
exploratoire des données montre que
est un choix
raisonnable dans tous les cas de sorte que, dans les calculs qui suivent,
seules
et
varient en
fonction du profil d’observation, désigné par
pour
Notons qu’en
raison de
on obtiendra le
même
quel que soit
quand
Par exemple, si
nous prenons
nous avons
de sorte que les
résidus prédits « centrés réduits » sont donnés par
et
De toute façon, nous
obtenons
pour l’unité
ayant la composition
Le facteur d’ajustement
semble difficile à modéliser d’avance.
Mais sa moyenne et sa variance, notées
et
respectivement, peuvent être
estimées empiriquement après avoir effectué l’imputation et l’ajustement.
En outre, nous supposons que
est indépendant de
sachant
Cela semble une hypothèse
plausible, puisque le premier
dépend principalement de la distribution de
dans le
« voisinage » de
tandis que la seconde dépend de
la variation sur
étant donné que la somme est égale
à
Par exemple, asymptotiquement,
à mesure que la chance de trouver un donneur dans tout voisinage arbitrairement
proche tend vers l’unité, le facteur d’ajustement
tend vers 1 en probabilité, indépendamment des
valeurs de
Il s’ensuit alors que, sachant
la composition
une estimation de la variance
correspondante
est donnée par
Enfin,
en combinant tous les éléments susmentionnés, nous obtenons une estimation approximative
de l’EQMP sous la forme
Les résultats de l’estimation approximative
de la variance sont donnés au tableau 4.3. Nous savons d’avance que le coefficient
de régression du modèle de ratio doit varier en fonction de la composition de
la superficie des pâturages, mais les estimations de
donnent à penser qu’il était
raisonnable de permettre que le paramètre de variance dépende de
La moyenne estimée de
est proche de l’unité pour
toutes les catégories de superficie des pâturages, ne donnant donc aucun indice
que les hypothèses concernant les facteurs d’ajustement ne sont pas
raisonnables. La variance de
est clairement la plus grande
pour
ce que reflète aussi le fait
que l’EQMP estimée dans ce cas présente l’augmentation la plus importante par
rapport à l’imputation PPV sans ajustement. Les racines carrées relatives de
l’EQMP sont trop faibles pour expliquer les différences réelles entre les
totaux de recensement et les totaux imputés (donnés au tableau 4.2). Cela
illustre l’impression générale qui suit concernant l’évaluation de
l’incertitude due à la vérification. Les effets systématiques pour ce qui est
des moments d’ordre un des statistiques résultantes sont habituellement les
éléments qui dominent l’incertitude globale due à la vérification. Mais ils
sont aussi plus difficiles à quantifier que les propriétés de variance d’ordre
deux. Ici, cela concerne les deux hypothèses d’« ordre un » faites au
début, c’est-à-dire
si
et
si
Des hypothèses plus complexes
au sujet du mécanisme d’erreur des ajustements de cohérence dans la
vérification sont nécessaires afin d’aller au-delà de cette approche
« optimiste ».
Tableau 4.3
Estimation de la variance approximative pour l’imputation avec ajustement. REQMP : racine carrée de l’EQMP. REQMP pour l’imputation PPV sans ajustement entre parenthèses
Sommaire du tableau
Le tableau montre les résultats de Estimation de la variance approximative pour l’imputation avec ajustement. REQMP : racine carrée de l’EQMP. REQMP pour l’imputation PPV sans ajustement entre parenthèses
,
et (figurant comme en-tête de colonne).
|
|
|
|
|
|
|
0,312 |
0,359 |
0,329 |
|
0,346 |
0,654 |
- |
|
0,407 |
- |
0,593 |
|
- |
0,567 |
0,433 |
|
|
0,0248 |
0,0511 |
0,0364 |
|
0,0478 |
0,0478 |
- |
|
0,0464 |
- |
0,0464 |
|
- |
0,0798 |
0,0798 |
|
(0,992; 0,0248) |
(1,020; 0,0994) |
(1,003; 0,0236) |
|
3 267
(3 134) |
4 190
(3 530) |
3 111
(2 925) |
|
1,41 % |
1,79 % |
0,93 % |
|
0,24 % |
0,34 % |
0,15 % |
Précédent | Suivant