1. Introduction
Jeroen Pannekoek et Li-Chun Zhang
Précédent | Suivant
Notre propos est de rapprocher les valeurs
contradictoires dans les microdonnées imputées. En guise d’exemple, considérons
une petite partie d’un enregistrement provenant d’une enquête structurelle sur
les entreprises présentée au tableau 1.1. Postulons deux schémas de
réponse, l’un où nous observons seulement le chiffre d’affaires et l’autre où nous
observons aussi l’effectif et la rémunération. Les moyens d’imputer les valeurs
manquantes dans un tel enregistrement receveur sont nombreux et les méthodes
d’ajustement que nous proposons s’appliquent quelle que soit la méthode
d’imputation choisie. L’utilisation de l’imputation partielle par donneur est
illustrée au tableau 1.1, où l’enregistrement donneur est le « plus proche voisin » issu de la même
catégorie d’activité économique que l’enregistrement receveur et est le plus
proche de ce dernier en ce qui concerne le chiffre d’affaires pour le schéma de
réponse (I), et en ce qui concerne l’effectif, le chiffre d’affaires et la
rémunération pour le schéma de réponse (II). L’imputation est dite partielle
parce qu’une valeur du donneur est transférée au receveur si et uniquement si la
valeur correspondante manque dans l’enregistrement receveur.
Les enregistrements de données des
entreprises doivent généralement respecter un certain nombre de contraintes
comptables et logiques. Dans le contexte de la vérification de la validité d’un
enregistrement, ces contraintes sont appelées règles de vérification. Pour
l’enregistrement choisi comme exemple ici, supposons que
les trois règles de vérification suivantes sont formulées :
L’imputation
partielle par donneur entraîne la violation de ces trois règles de vérification,
situation que nous nommons problème de cohérence (de microniveau): pour le schéma de réponse (I),
les deux premières règles de vérification portant sur le chiffre d’affaires sont
enfreintes; pour le schéma de réponse (II), les trois règles de
vérification sont enfreintes. Pour obtenir un enregistrement cohérent, certaines des huit valeurs (c’est-à-dire incluant les valeurs observées ainsi qu’imputées)
doivent être modifiées. Or, dans les deux cas examinés ici, il est possible de
ne remplacer que les valeurs imputées pour satisfaire à toutes les règles de
vérification, donc considérons pour le moment les ajustements des valeurs
imputées.
Tableau 1.1
Données, données manquantes et valeurs du donneur pour les variables d’un enregistrement d’entreprise. Effectif (nombre d’employés); chiffre d’affaires principal (chiffre d’affaires de l’activité principale); autre chiffre d’affaires (chiffre d’affaires d’autres activités); chiffre d’affaires (chiffre d’affaires total); rémunération (coûts des salaires et traitements)
Sommaire du tableau
Le tableau montre les résultats de Données. Les données sont présentées selon Variable (titres de rangée) et Nom, Réponse (I), Réponse (II) et Valeurs du donneur(figurant comme en-tête de colonne).
Variable |
Nom |
Réponse (I) |
Réponse (II) |
Valeurs du donneur |
|
Profit |
|
|
330 |
|
Effectif |
|
25 |
20 |
|
Chiffre d’affaires principal |
|
|
1 000 |
|
Autre chiffre d’affaires |
|
|
30 |
|
Chiffre d’affaires |
950 |
950 |
1 030 |
|
Rémunération |
|
550 |
500 |
|
Autres coûts |
|
|
200 |
|
Total des coûts |
|
|
700 |
Les méthodes d’ajustement habituelles, telles
que l’ajustement proportionnel mis en œuvre dans le logiciel Banff (Banff Support Team 2008), sont conçues pour traiter une contrainte à la fois. Dans
le cas du schéma de réponse (I), la méthode d’ajustement proportionnel pourrait
se dérouler comme il suit : 1) ajuster les valeurs imputées pour le total
des coûts et le profit d’un facteur 950/1 030 afin que leur somme soit
égale au chiffre d’affaires observé, 2) ajuster du même facteur les valeurs
imputées pour le chiffre d’affaires principal et l’autre chiffre d’affaires pour
satisfaire la deuxième règle de vérification et 3) ajuster les valeurs
imputées de la rémunération et des autres coûts, de nouveau du même facteur,
afin que leur somme soit égale à la valeur ajustée précédente du total des
coûts.
Pour le schéma de réponse (II), les
étapes (1) et (2) peuvent être exécutées comme auparavant, mais
l’étape (3) doit être modifiée à moins que la rémunération observée doive être
«écrasée ». Notons que le total des coûts figure dans deux règles de
vérification :
et
Quand le total des coûts imputé
est ajusté uniquement en fonction de
à l’étape (1), l’information
pertinente dans la rémunération observée est ignorée. En effet, selon les
valeurs disponibles, il peut même arriver que le total des coûts soit ajusté à
la baisse à l’étape (1) au point qu’il ne reste aucune solution non
négative acceptable pour les autres coûts à l’étape (3). En général, l’ajustement
d’une variable qui figure dans plusieurs règles de vérification en fonction de
l’une d’elles seulement est non seulement sous-optimal en théorie, mais
requiert aussi un choix arbitraire de l’ordre dans lequel les règles de
vérification doivent être appliquées, ce qui peut entraîner inutilement une
panne de la procédure.
Sous l’hypothèse que l’incohérence n’est
pas due à des erreurs systématiques, nous proposons une approche d’optimisation
où toutes les contraintes sont traitées simultanément. À cette fin, il est
commode d’exprimer les contraintes de vérification en notation matricielle, sous
la forme
où
est la matrice des contraintes (ou restrictions), et
est un vecteur constant. Pour
les contraintes
à
nous avons
Les éléments non nuls dans une ligne de la matrice des contraintes identifient
toutes les variables qui interviennent dans la contrainte de vérification
correspondante, et les éléments non nuls dans une colonne de la matrice
des contraintes identifient les contraintes
de vérification qui font intervenir la variable correspondante.
En outre, il existe souvent des
contraintes d’inégalité linéaire. Le cas le plus simple est la non-négativité de
la plupart des variables économiques. Les contraintes peuvent alors être
formulées sous la forme
et
qui correspondent aux contraintes d’égalité et
d’inégalité. Pour simplifier l’exposé, nous adopterons, sans autre notation, l’expression
compacte
Comme nous l’avons mentionné plus haut,
les valeurs ne doivent ou ne devraient pas être toutes ajustées. Nous faisons
donc une distinction générale entre les variables libres (ou ajustables)
et fixes (non ajustables). Cela inclut comme cas particulier la situation
où toutes les valeurs des données sont
considérées ajustables. Nous insistons sur le fait que la distinction ne porte
pas nécessairement sur celle entre les variables imputées et observées, et que
l’imputation peut avoir été effectuée pour des valeurs manquantes ainsi que pour
des valeurs observées incorrectes. Par exemple, certaines valeurs imputées peuvent
être maintenues fixes parce qu’elles sont dérivées selon un raisonnement
logique, comme dans l’imputation déductive, ou parce qu’elles ont été obtenues de
sources externes qui sont considérées comme étant plus fiables. Par contre,
certaines valeurs observées peuvent être considérées comme non fiables et il
est permis de les modifier. Étant donné l’absence d’erreurs systématiques, une
approche générale consiste à repérer les variables ajustables par « localisation
des erreurs » (par exemple, de Waal,
Pannekoek et Scholtus 2011), en traitant les valeurs imputées et
observées comme étant aussi sujettes à erreur les unes que les autres. Néanmoins,
dans la suite du texte, nous traiterons la plupart du temps les valeurs
imputées comme étant ajustables et les valeurs observées, comme étant fixes, afin
de faciliter l’exposé.
Étant donné les variables libres et
fixes, l’enregistrement de données complet est partitionné en conséquence en sous-vecteurs
et
et la matrice des contraintes, en
et
contenant les colonnes de
qui correspondent à
et
respectivement. Les contraintes
pour les variables ajustables sont alors données par
ou, de façon équivalente, par
où la
matrice
représente les contraintes sur
les variables libres et est appelée matrice comptable, et
représente le
vecteur constant pour ces contraintes. Notons que la matrice des contraintes
est dérivée a priori d’après les règles de
vérification seulement, sans référence aux données réelles, et est la même pour
tous les enregistrements, tandis que la matrice comptable
diffère
généralement d’un enregistrement à l’autre, puisque la distinction entre les
variables libres et fixes varie entre les unités.
Notre stratégie en vue de remédier au
problème d’incohérence de microniveau dans les données imputées consiste à apporter
aux variables ajustables des ajustements qui sont minimaux selon une mesure de distance
(ou de divergence) choisie, de façon que l’enregistrement ajusté satisfasse toutes
les règles de vérification. Toutes les contraintes sont traitées simultanément en
supposant qu’il n’y a pas d’erreurs systématiques.
Le reste de l’article est présenté
comme il suit. À la section 2, nous décrivons l’approche d’optimisation. Nous
considérons différentes mesures de distance (ou de divergence), ainsi que les
ajustements auxquels elles donnent lieu, et nous illustrons leurs propriétés et
leurs interprétations en utilisant l’exemple d’enregistrement décrit plus haut.
À la section 3, nous discutons des extensions possibles de l’approche élémentaire
aux ajustements fondés sur des hypothèses statistiques en plus des contraintes
logiques, au traitement des données catégoriques, à l’imputation totale avec
ajustement, et aux ajustements pour des contraintes d’étalonnage de macroniveau
combinées aux contraintes de cohérence de microniveau. À la section 4, nous
examinons les données sur la superficie des pâturages provenant du Recensement
de l’agriculture de la Norvège de 2010, y compris une approche d’évaluation de
l’incertitude due à la vérification. Enfin, nous concluons par un bref résumé à
la section 5.
Précédent | Suivant