1. Introduction

Jeroen Pannekoek et Li-Chun Zhang

Précédent | Suivant

Notre propos est de rapprocher les valeurs contradictoires dans les microdonnées imputées. En guise d’exemple, considérons une petite partie d’un enregistrement provenant d’une enquête structurelle sur les entreprises présentée au tableau 1.1. Postulons deux schémas de réponse, l’un où nous observons seulement le chiffre d’affaires et l’autre où nous observons aussi l’effectif et la rémunération. Les moyens d’imputer les valeurs manquantes dans un tel enregistrement receveur sont nombreux et les méthodes d’ajustement que nous proposons s’appliquent quelle que soit la méthode d’imputation choisie. L’utilisation de l’imputation partielle par donneur est illustrée au tableau 1.1, où l’enregistrement donneur est le « plus proche voisin » issu de la même catégorie d’activité économique que l’enregistrement receveur et est le plus proche de ce dernier en ce qui concerne le chiffre d’affaires pour le schéma de réponse (I), et en ce qui concerne l’effectif, le chiffre d’affaires et la rémunération pour le schéma de réponse (II). L’imputation est dite partielle parce qu’une valeur du donneur est transférée au receveur si et uniquement si la valeur correspondante manque dans l’enregistrement receveur.

Les enregistrements de données des entreprises doivent généralement respecter un certain nombre de contraintes comptables et logiques. Dans le contexte de la vérification de la validité d’un enregistrement, ces contraintes sont appelées règles de vérification. Pour l’enregistrement choisi comme exemple ici, supposons que les trois règles de vérification suivantes sont formulées :

a l : x 1 x 5 + x 8 = 0 ( profit = chiffre d affaires total des coûts ) a 2 : x 5 x 3 x 4 = 0 ( chiffre d affaires = chiffre d affaires principal + autre chiffre d affaires ) a 3 : x 8 x 6 x 7 = 0 ( total des coûts = rémunération + autres coûts ) . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpC0xe9LqFf0xe9 vqaqFeFr0xbba9Fa0P0RWFb9fq0FXxbbf9=e0dfrpm0dXdirVu0=vr 0=vr0=fdbaqaaeGacaGaaiaabeqaamaabaabaaGcbaqbaeaabmWaaa qaaiaadggacaqGSbGaaGjbVlaabQdaaeaacaqG4bWaaSbaaSqaaiaa igdaaeqaaOGaeyOeI0IaaeiEamaaBaaaleaacaaI1aaabeaakiabgU caRiaabIhadaWgaaWcbaGaaGioaaqabaGccqGH9aqpcaaIWaaabaWa aeWaaeaaqaaaaaaaaaWdbiaabchacaqGYbGaae4BaiaabAgacaqGPb GaaeiDaiaabccacaqG9aGaaeiiaiaabogacaqGObGaaeyAaiaabAga caqGMbGaaeOCaiaabwgacaqGGaGaaeizaGqaaiaa=LbicaqGHbGaae OzaiaabAgacaqGHbGaaeyAaiaabkhacaqGLbGaae4CaiabgkHiTiaa bshacaqGVbGaaeiDaiaabggacaqGSbGaaeiiaiaabsgacaqGLbGaae 4CaiaabccacaqGJbGaae4BaiaabUpacaqG0bGaae4CaaWdaiaawIca caGLPaaaaeaacaWGHbGaaeOmaiaaysW7caqG6aaabaGaaeiEamaaBa aaleaacaaI1aaabeaakiabgkHiTiaabIhadaWgaaWcbaGaaG4maaqa baGccqGHsislcaqG4bWaaSbaaSqaaiaaisdaaeqaaOGaeyypa0JaaG imaaqaamaabmaabaWdbiaabogacaqGObGaaeyAaiaabAgacaqGMbGa aeOCaiaabwgacaqGGaGaaeizaiaa=LbicaqGHbGaaeOzaiaabAgaca qGHbGaaeyAaiaabkhacaqGLbGaae4CaiaabccacaqG9aGaaeiiaiaa bogacaqGObGaaeyAaiaabAgacaqGMbGaaeOCaiaabwgacaqGGaGaae izaiaa=LbicaqGHbGaaeOzaiaabAgacaqGHbGaaeyAaiaabkhacaqG LbGaae4CaiaabccacaqGWbGaaeOCaiaabMgacaqGUbGaae4yaiaabM gacaqGWbGaaeyyaiaabYgacaqGGaGaae4kaiaabccacaqGHbGaaeyD aiaabshacaqGYbGaaeyzaiaabccacaqGJbGaaeiAaiaabMgacaqGMb GaaeOzaiaabkhacaqGLbGaaeiiaiaabsgacaWFzaIaaeyyaiaabAga caqGMbGaaeyyaiaabMgacaqGYbGaaeyzaiaabohaa8aacaGLOaGaay zkaaaabaGaamyyaiaabodacaaMe8UaaeOoaaqaaiaabIhadaWgaaWc baGaaGioaaqabaGccqGHsislcaqG4bWaaSbaaSqaaiaaiAdaaeqaaO GaeyOeI0IaaeiEamaaBaaaleaacaaI3aaabeaakiabg2da9iaaicda aeaadaqadaqaa8qacaqG0bGaae4BaiaabshacaqGHbGaaeiBaiaabc cacaqGKbGaaeyzaiaabohacaqGGaGaae4yaiaab+gacaqG7dGaaeiD aiaabohacaqGGaGaaeypaiaabccacaqGYbGaaey6aiaab2gacaqG1b GaaeOBaiaabMoacaqGYbGaaeyyaiaabshacaqGPbGaae4Baiaab6ga caqGGaGaae4kaiaabccacaqGHbGaaeyDaiaabshacaqGYbGaaeyzai aabohacaqGGaGaae4yaiaab+gacaqG7dGaaeiDaiaabohaa8aacaGL OaGaayzkaaGaaiOlaaaaaaa@F6AE@

L’imputation partielle par donneur entraîne la violation de ces trois règles de vérification, situation que nous nommons problème de cohérence (de microniveau): pour le schéma de réponse (I), les deux premières règles de vérification portant sur le chiffre d’affaires sont enfreintes; pour le schéma de réponse (II), les trois règles de vérification sont enfreintes. Pour obtenir un enregistrement cohérent, certaines des huit valeurs (c’est-à-dire incluant les valeurs observées ainsi qu’imputées) doivent être modifiées. Or, dans les deux cas examinés ici, il est possible de ne remplacer que les valeurs imputées pour satisfaire à toutes les règles de vérification, donc considérons pour le moment les ajustements des valeurs imputées.

Tableau 1.1
Données, données manquantes et valeurs du donneur pour les variables d’un enregistrement d’entreprise. Effectif (nombre d’employés); chiffre d’affaires principal (chiffre d’affaires de l’activité principale); autre chiffre d’affaires (chiffre d’affaires d’autres activités); chiffre d’affaires (chiffre d’affaires total); rémunération (coûts des salaires et traitements)
Sommaire du tableau
Le tableau montre les résultats de Données. Les données sont présentées selon Variable (titres de rangée) et Nom, Réponse (I), Réponse (II) et Valeurs du donneur(figurant comme en-tête de colonne).
Variable Nom Réponse (I) Réponse (II) Valeurs du donneur
x 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaigdaaeqaaaaa@3C6A@ Profit     330
x 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaikdaaeqaaaaa@3C6B@ Effectif   25 20
x 3 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaiodaaeqaaaaa@3C6C@ Chiffre d’affaires principal     1 000
x 4 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaisdaaeqaaaaa@3C6D@ Autre chiffre d’affaires     30
x 5 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaiwdaaeqaaaaa@3C6E@ Chiffre d’affaires 950 950 1 030
x 6 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaiAdaaeqaaaaa@3C6F@ Rémunération   550 500
x 7 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaiEdaaeqaaaaa@3C70@ Autres coûts     200
x 8 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqG4bWaaS baaSqaaiaaiIdaaeqaaaaa@3C71@ Total des coûts     700

Les méthodes d’ajustement habituelles, telles que l’ajustement proportionnel mis en œuvre dans le logiciel Banff (Banff Support Team 2008), sont conçues pour traiter une contrainte à la fois. Dans le cas du schéma de réponse (I), la méthode d’ajustement proportionnel pourrait se dérouler comme il suit : 1) ajuster les valeurs imputées pour le total des coûts et le profit d’un facteur 950/1 030 afin que leur somme soit égale au chiffre d’affaires observé, 2) ajuster du même facteur les valeurs imputées pour le chiffre d’affaires principal et l’autre chiffre d’affaires pour satisfaire la deuxième règle de vérification et 3) ajuster les valeurs imputées de la rémunération et des autres coûts, de nouveau du même facteur, afin que leur somme soit égale à la valeur ajustée précédente du total des coûts.

Pour le schéma de réponse (II), les étapes (1) et (2) peuvent être exécutées comme auparavant, mais l’étape (3) doit être modifiée à moins que la rémunération observée doive être «écrasée ». Notons que le total des coûts figure dans deux règles de vérification : a 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGHbGaaG ymaaaa@3A06@  et a 3. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGHbGaaG 4maiaac6caaaa@3ABA@  Quand le total des coûts imputé est ajusté uniquement en fonction de a 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGHbGaaG ymaaaa@3A06@  à l’étape (1), l’information pertinente dans la rémunération observée est ignorée. En effet, selon les valeurs disponibles, il peut même arriver que le total des coûts soit ajusté à la baisse à l’étape (1) au point qu’il ne reste aucune solution non négative acceptable pour les autres coûts à l’étape (3). En général, l’ajustement d’une variable qui figure dans plusieurs règles de vérification en fonction de l’une d’elles seulement est non seulement sous-optimal en théorie, mais requiert aussi un choix arbitraire de l’ordre dans lequel les règles de vérification doivent être appliquées, ce qui peut entraîner inutilement une panne de la procédure.

Sous l’hypothèse que l’incohérence n’est pas due à des erreurs systématiques, nous proposons une approche d’optimisation où toutes les contraintes sont traitées simultanément. À cette fin, il est commode d’exprimer les contraintes de vérification en notation matricielle, sous la forme C x = d , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbGaaC iEaiabg2da9iaahsgacaGGSaaaaa@3CD5@  où C MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbaaaa@3931@  est la matrice des contraintes (ou restrictions), et d MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHKbaaaa@3952@  est un vecteur constant. Pour les contraintes a 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGHbGaaG ymaaaa@3A06@  à a 3 , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGHbGaaG 4maiaacYcaaaa@3AB8@  nous avons

C = ( 1 0 0 0 1 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 1 1 1 )  et   d = 0 . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbGaey ypa0ZaaeWaaeaafaqaceWaiaaaaaqaaiaaigdaaeaacaaIWaaabaGa aGimaaqaaiaaicdaaeaacqGHsislcaaIXaaabaGaaGimaaqaaiaaic daaeaacaaIXaaabaGaaGimaaqaaiaaicdaaeaacqGHsislcaaIXaaa baGaeyOeI0IaaGymaaqaaiaaigdaaeaacaaIWaaabaGaaGimaaqaai aaicdaaeaacaaIWaaabaGaaGimaaqaaiaaicdaaeaacaaIWaaabaGa aGimaaqaaiabgkHiTiaaigdaaeaacqGHsislcaaIXaaabaGaaGymaa aaaiaawIcacaGLPaaacaqGGaGaaeyzaiaabshacaqGGaGaaeiiaiaa hsgacqGH9aqpcaWHWaGaaiOlaaaa@592B@

Les éléments non nuls dans une ligne de la matrice des contraintes identifient toutes les variables qui interviennent dans la contrainte de vérification correspondante, et les éléments non nuls dans une colonne de la matrice des contraintes identifient les contraintes de vérification qui font intervenir la variable correspondante.

En outre, il existe souvent des contraintes d’inégalité linéaire. Le cas le plus simple est la non-négativité de la plupart des variables économiques. Les contraintes peuvent alors être formulées sous la forme C ég x = d ég MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbWaaS baaSqaaiaabMoacaqGNbaabeaakiaahIhacqGH9aqpcaWHKbWaaSba aSqaaiaabMoacaqGNbaabeaaaaa@4133@  et C inég x < d inég , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbWaaS baaSqaaiaabMgacaqGUbGaaey6aiaabEgaaeqaaOGaaCiEaiabgYda 8iaahsgadaWgaaWcbaGaaeyAaiaab6gacaqGPdGaae4zaaqabaGcca GGSaaaaa@45A5@  qui correspondent aux contraintes d’égalité et d’inégalité. Pour simplifier l’exposé, nous adopterons, sans autre notation, l’expression compacte C x d . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbGaaC iEaiabgsMiJkaahsgacaGGUaaaaa@3D86@

Comme nous l’avons mentionné plus haut, les valeurs ne doivent ou ne devraient pas être toutes ajustées. Nous faisons donc une distinction générale entre les variables libres (ou ajustables) et fixes (non ajustables). Cela inclut comme cas particulier la situation où toutes les valeurs des données sont considérées ajustables. Nous insistons sur le fait que la distinction ne porte pas nécessairement sur celle entre les variables imputées et observées, et que l’imputation peut avoir été effectuée pour des valeurs manquantes ainsi que pour des valeurs observées incorrectes. Par exemple, certaines valeurs imputées peuvent être maintenues fixes parce qu’elles sont dérivées selon un raisonnement logique, comme dans l’imputation déductive, ou parce qu’elles ont été obtenues de sources externes qui sont considérées comme étant plus fiables. Par contre, certaines valeurs observées peuvent être considérées comme non fiables et il est permis de les modifier. Étant donné l’absence d’erreurs systématiques, une approche générale consiste à repérer les variables ajustables par « localisation des erreurs » (par exemple, de Waal, Pannekoek et Scholtus 2011), en traitant les valeurs imputées et observées comme étant aussi sujettes à erreur les unes que les autres. Néanmoins, dans la suite du texte, nous traiterons la plupart du temps les valeurs imputées comme étant ajustables et les valeurs observées, comme étant fixes, afin de faciliter l’exposé.

Étant donné les variables libres et fixes, l’enregistrement de données complet est partitionné en conséquence en sous-vecteurs x libre MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWH4bWaaS baaSqaaiaabYgacaqGPbGaaeOyaiaabkhacaqGLbaabeaaaaa@3E2F@  et x fixe , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWH4bWaaS baaSqaaiaabAgacaqGPbGaaeiEaiaabwgaaeqaaOGaaiilaaaa@3E04@  et la matrice des contraintes, en C libre MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbWaaS baaSqaaiaabYgacaqGPbGaaeOyaiaabkhacaqGLbaabeaaaaa@3DFA@  et C fixe MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbWaaS baaSqaaiaabAgacaqGPbGaaeiEaiaabwgaaeqaaaaa@3D15@  contenant les colonnes de C MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbaaaa@3931@  qui correspondent à x libre MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWH4bWaaS baaSqaaiaabYgacaqGPbGaaeOyaiaabkhacaqGLbaabeaaaaa@3E2F@  et x fixe , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWH4bWaaS baaSqaaiaabAgacaqGPbGaaeiEaiaabwgaaeqaaOGaaiilaaaa@3E04@  respectivement. Les contraintes pour les variables ajustables sont alors données par C libre x libre d C fixe x fixe MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbWaaS baaSqaaiaabYgacaqGPbGaaeOyaiaabkhacaqGLbaabeaakiaahIha daWgaaWcbaGaaeiBaiaabMgacaqGIbGaaeOCaiaabwgaaeqaaOGaey izImQaaCizaiabgkHiTiaahoeadaWgaaWcbaGaaeOzaiaabMgacaqG 4bGaaeyzaaqabaGccaWH4bWaaSbaaSqaaiaabAgacaqGPbGaaeiEai aabwgaaeqaaaaa@5106@  ou, de façon équivalente, par

A x libre b ( 1.1 ) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHbbGaaC iEamaaBaaaleaacaqGSbGaaeyAaiaabkgacaqGYbGaaeyzaaqabaGc cqGHKjYOcaWHIbGaaGzbVlaaywW7caaMf8UaaGzbVlaaywW7caGGOa GaaGymaiaac6cacaaIXaGaaiykaaaa@4CE9@

où la matrice A MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHbbaaaa@392F@  représente les contraintes sur les variables libres et est appelée matrice comptable, et b MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHIbaaaa@3950@  représente le vecteur constant pour ces contraintes. Notons que la matrice des contraintes C MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHdbaaaa@3931@  est dérivée a priori d’après les règles de vérification seulement, sans référence aux données réelles, et est la même pour tous les enregistrements, tandis que la matrice comptable A MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWHbbaaaa@392F@  diffère généralement d’un enregistrement à l’autre, puisque la distinction entre les variables libres et fixes varie entre les unités.

Notre stratégie en vue de remédier au problème d’incohérence de microniveau dans les données imputées consiste à apporter aux variables ajustables des ajustements qui sont minimaux selon une mesure de distance (ou de divergence) choisie, de façon que l’enregistrement ajusté satisfasse toutes les règles de vérification. Toutes les contraintes sont traitées simultanément en supposant qu’il n’y a pas d’erreurs systématiques.

Le reste de l’article est présenté comme il suit. À la section 2, nous décrivons l’approche d’optimisation. Nous considérons différentes mesures de distance (ou de divergence), ainsi que les ajustements auxquels elles donnent lieu, et nous illustrons leurs propriétés et leurs interprétations en utilisant l’exemple d’enregistrement décrit plus haut. À la section 3, nous discutons des extensions possibles de l’approche élémentaire aux ajustements fondés sur des hypothèses statistiques en plus des contraintes logiques, au traitement des données catégoriques, à l’imputation totale avec ajustement, et aux ajustements pour des contraintes d’étalonnage de macroniveau combinées aux contraintes de cohérence de microniveau. À la section 4, nous examinons les données sur la superficie des pâturages provenant du Recensement de l’agriculture de la Norvège de 2010, y compris une approche d’évaluation de l’incertitude due à la vérification. Enfin, nous concluons par un bref résumé à la section 5.

Précédent | Suivant

Date de modification :