Recherche par

1. Introduction

Jeroen Pannekoek et Li-Chun Zhang

Notre propos est de rapprocher les valeurs contradictoires dans les microdonnées imputées. En guise d’exemple, considérons une petite partie d’un enregistrement provenant d’une enquête structurelle sur les entreprises présentée au tableau 1.1. Postulons deux schémas de réponse, l’un où nous observons seulement le chiffre d’affaires et l’autre où nous observons aussi l’effectif et la rémunération. Les moyens d’imputer les valeurs manquantes dans un tel enregistrement receveur sont nombreux et les méthodes d’ajustement que nous proposons s’appliquent quelle que soit la méthode d’imputation choisie. L’utilisation de l’imputation partielle par donneur est illustrée au tableau 1.1, où l’enregistrement donneur est le « plus proche voisin » issu de la même catégorie d’activité économique que l’enregistrement receveur et est le plus proche de ce dernier en ce qui concerne le chiffre d’affaires pour le schéma de réponse (I), et en ce qui concerne l’effectif, le chiffre d’affaires et la rémunération pour le schéma de réponse (II). L’imputation est dite partielle parce qu’une valeur du donneur est transférée au receveur si et uniquement si la valeur correspondante manque dans l’enregistrement receveur.

Les enregistrements de données des entreprises doivent généralement respecter un certain nombre de contraintes comptables et logiques. Dans le contexte de la vérification de la validité d’un enregistrement, ces contraintes sont appelées règles de vérification. Pour l’enregistrement choisi comme exemple ici, supposons que les trois règles de vérification suivantes sont formulées :

$\begin{array}{l} a l : & x_{1} - x_{5} + x_{8} = 0 & (profit = chiffre d ’ affaires - total des coûts) \\ a 2 : & x_{5} - x_{3} - x_{4} = 0 & (chiffre d ’ affaires = chiffre d ’ affaires principal + autre chiffre d ’ affaires) \\ a 3 : & x_{8} - x_{6} - x_{7} = 0 & (total des coûts = rémunération + autres coûts) . \end{array}$

L’imputation partielle par donneur entraîne la violation de ces trois règles de vérification, situation que nous nommons problème de cohérence (de microniveau): pour le schéma de réponse (I), les deux premières règles de vérification portant sur le chiffre d’affaires sont enfreintes; pour le schéma de réponse (II), les trois règles de vérification sont enfreintes. Pour obtenir un enregistrement cohérent, certaines des huit valeurs (c’est-à-dire incluant les valeurs observées ainsi qu’imputées) doivent être modifiées. Or, dans les deux cas examinés ici, il est possible de ne remplacer que les valeurs imputées pour satisfaire à toutes les règles de vérification, donc considérons pour le moment les ajustements des valeurs imputées.

Tableau 1.1
Données, données manquantes et valeurs du donneur pour les variables d’un enregistrement d’entreprise. Effectif (nombre d’employés); chiffre d’affaires principal (chiffre d’affaires de l’activité principale); autre chiffre d’affaires (chiffre d’affaires d’autres activités); chiffre d’affaires (chiffre d’affaires total); rémunération (coûts des salaires et traitements)
Sommaire du tableau
Le tableau montre les résultats de Données. Les données sont présentées selon Variable (titres de rangée) et Nom, Réponse (I), Réponse (II) et Valeurs du donneur(figurant comme en-tête de colonne).
Variable	Nom	Réponse (I)	Réponse (II)	Valeurs du donneur
$x_{1}$	Profit			330
$x_{2}$	Effectif		25	20
$x_{3}$	Chiffre d’affaires principal			1 000
$x_{4}$	Autre chiffre d’affaires			30
$x_{5}$	Chiffre d’affaires	950	950	1 030
$x_{6}$	Rémunération		550	500
$x_{7}$	Autres coûts			200
$x_{8}$	Total des coûts			700

Les méthodes d’ajustement habituelles, telles que l’ajustement proportionnel mis en œuvre dans le logiciel Banff (Banff Support Team 2008), sont conçues pour traiter une contrainte à la fois. Dans le cas du schéma de réponse (I), la méthode d’ajustement proportionnel pourrait se dérouler comme il suit : 1) ajuster les valeurs imputées pour le total des coûts et le profit d’un facteur 950/1 030 afin que leur somme soit égale au chiffre d’affaires observé, 2) ajuster du même facteur les valeurs imputées pour le chiffre d’affaires principal et l’autre chiffre d’affaires pour satisfaire la deuxième règle de vérification et 3) ajuster les valeurs imputées de la rémunération et des autres coûts, de nouveau du même facteur, afin que leur somme soit égale à la valeur ajustée précédente du total des coûts.

Pour le schéma de réponse (II), les étapes (1) et (2) peuvent être exécutées comme auparavant, mais l’étape (3) doit être modifiée à moins que la rémunération observée doive être «écrasée ». Notons que le total des coûts figure dans deux règles de vérification : $a 1$ et $a 3.$ Quand le total des coûts imputé est ajusté uniquement en fonction de $a 1$ à l’étape (1), l’information pertinente dans la rémunération observée est ignorée. En effet, selon les valeurs disponibles, il peut même arriver que le total des coûts soit ajusté à la baisse à l’étape (1) au point qu’il ne reste aucune solution non négative acceptable pour les autres coûts à l’étape (3). En général, l’ajustement d’une variable qui figure dans plusieurs règles de vérification en fonction de l’une d’elles seulement est non seulement sous-optimal en théorie, mais requiert aussi un choix arbitraire de l’ordre dans lequel les règles de vérification doivent être appliquées, ce qui peut entraîner inutilement une panne de la procédure.

Sous l’hypothèse que l’incohérence n’est pas due à des erreurs systématiques, nous proposons une approche d’optimisation où toutes les contraintes sont traitées simultanément. À cette fin, il est commode d’exprimer les contraintes de vérification en notation matricielle, sous la forme $C x = d,$ où $C$ est la matrice des contraintes (ou restrictions), et $d$ est un vecteur constant. Pour les contraintes $a 1$ à $a 3,$ nous avons

$C = (\begin{array}{r} 1 & 0 & 0 & 0 & - 1 & 0 & 0 & 1 \\ 0 & 0 & - 1 & - 1 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & - 1 & - 1 & 1 \end{array}) et d = 0 .$

Les éléments non nuls dans une ligne de la matrice des contraintes identifient toutes les variables qui interviennent dans la contrainte de vérification correspondante, et les éléments non nuls dans une colonne de la matrice des contraintes identifient les contraintes de vérification qui font intervenir la variable correspondante.

En outre, il existe souvent des contraintes d’inégalité linéaire. Le cas le plus simple est la non-négativité de la plupart des variables économiques. Les contraintes peuvent alors être formulées sous la forme $C_{ég} x = d_{ég}$ et $C_{inég} x < d_{inég},$ qui correspondent aux contraintes d’égalité et d’inégalité. Pour simplifier l’exposé, nous adopterons, sans autre notation, l’expression compacte $C x \leq d .$

Comme nous l’avons mentionné plus haut, les valeurs ne doivent ou ne devraient pas être toutes ajustées. Nous faisons donc une distinction générale entre les variables libres (ou ajustables) et fixes (non ajustables). Cela inclut comme cas particulier la situation où toutes les valeurs des données sont considérées ajustables. Nous insistons sur le fait que la distinction ne porte pas nécessairement sur celle entre les variables imputées et observées, et que l’imputation peut avoir été effectuée pour des valeurs manquantes ainsi que pour des valeurs observées incorrectes. Par exemple, certaines valeurs imputées peuvent être maintenues fixes parce qu’elles sont dérivées selon un raisonnement logique, comme dans l’imputation déductive, ou parce qu’elles ont été obtenues de sources externes qui sont considérées comme étant plus fiables. Par contre, certaines valeurs observées peuvent être considérées comme non fiables et il est permis de les modifier. Étant donné l’absence d’erreurs systématiques, une approche générale consiste à repérer les variables ajustables par « localisation des erreurs » (par exemple, de Waal, Pannekoek et Scholtus 2011), en traitant les valeurs imputées et observées comme étant aussi sujettes à erreur les unes que les autres. Néanmoins, dans la suite du texte, nous traiterons la plupart du temps les valeurs imputées comme étant ajustables et les valeurs observées, comme étant fixes, afin de faciliter l’exposé.

Étant donné les variables libres et fixes, l’enregistrement de données complet est partitionné en conséquence en sous-vecteurs $x_{libre}$ et $x_{fixe},$ et la matrice des contraintes, en $C_{libre}$ et $C_{fixe}$ contenant les colonnes de $C$ qui correspondent à $x_{libre}$ et $x_{fixe},$ respectivement. Les contraintes pour les variables ajustables sont alors données par $C_{libre} x_{libre} \leq d - C_{fixe} x_{fixe}$ ou, de façon équivalente, par

$A x_{libre} \leq b (1.1)$

où la matrice $A$ représente les contraintes sur les variables libres et est appelée matrice comptable, et $b$ représente le vecteur constant pour ces contraintes. Notons que la matrice des contraintes $C$ est dérivée a priori d’après les règles de vérification seulement, sans référence aux données réelles, et est la même pour tous les enregistrements, tandis que la matrice comptable $A$ diffère généralement d’un enregistrement à l’autre, puisque la distinction entre les variables libres et fixes varie entre les unités.

Notre stratégie en vue de remédier au problème d’incohérence de microniveau dans les données imputées consiste à apporter aux variables ajustables des ajustements qui sont minimaux selon une mesure de distance (ou de divergence) choisie, de façon que l’enregistrement ajusté satisfasse toutes les règles de vérification. Toutes les contraintes sont traitées simultanément en supposant qu’il n’y a pas d’erreurs systématiques.

Le reste de l’article est présenté comme il suit. À la section 2, nous décrivons l’approche d’optimisation. Nous considérons différentes mesures de distance (ou de divergence), ainsi que les ajustements auxquels elles donnent lieu, et nous illustrons leurs propriétés et leurs interprétations en utilisant l’exemple d’enregistrement décrit plus haut. À la section 3, nous discutons des extensions possibles de l’approche élémentaire aux ajustements fondés sur des hypothèses statistiques en plus des contraintes logiques, au traitement des données catégoriques, à l’imputation totale avec ajustement, et aux ajustements pour des contraintes d’étalonnage de macroniveau combinées aux contraintes de cohérence de microniveau. À la section 4, nous examinons les données sur la superficie des pâturages provenant du Recensement de l’agriculture de la Norvège de 2010, y compris une approche d’évaluation de l’incertitude due à la vérification. Enfin, nous concluons par un bref résumé à la section 5.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

1. Introduction