Appariement statistique par imputation fractionnaire 1. Introduction

L’échantillonnage d’enquête est un outil scientifique permettant de faire des inférences à propos de la population cible. Toutefois, il arrive souvent que toutes les données nécessaires ne soient pas recueillies dans le cadre d’une même enquête, à cause de contraintes de temps et de coût. Dans ce cas, on souhaite exploiter le plus possible les données existantes provenant d’autres sources portant sur la même population cible. L’appariement statistique, que l’on appelle parfois « fusion de données » (Baker, Harris et O’Brien 1989) ou « combinaison de données » (Ridder et Moffit 2007), vise à intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. D’Orazio, Zio et Scanu (2006) ainsi que Leulescu et Agafitei (2013) présentent un bon aperçu des techniques d’appariement statistique dans l’échantillonnage d’enquête.

L’appariement statistique peut être considéré comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. Moriarity et Scheuren (2001) proposent un cadre théorique pour l’appariement statistique en vertu d’une hypothèse de normalité multivariée. Rässler (2002) a mis au point des techniques d’imputation multiple pour l’appariement statistique à l’aide de valeurs prédéterminées pour les paramètres non identifiables. Lahiri et Larsen (2005) traitent de l’analyse par régression à l’aide de données couplées. Ridder et Moffit (2007) présentent un traitement rigoureux des hypothèses et des approches pour l’appariement statistique dans le domaine de l’économétrie.

L’appariement statistique vise à construire des fichiers de données entièrement augmentées pour effectuer des analyses conjointes statistiquement valides. Pour simplifier la mise en situation, supposons que deux enquêtes, l’enquête A et l’enquête B, offrent des données partielles à propos de la population, et que l’on observe x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG4baaaa@3896@ et y 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaaigdaaeqaaaaa@397E@ dans l’échantillon de l’enquête A et x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG4baaaa@3896@ et y 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaaikdaaeqaaaaa@397F@ dans l’échantillon de l’enquête B. Le tableau 1.1 illustre une structure de données simple pour l’appariement. Si l’échantillon de l’enquête B (échantillon B) est un sous-ensemble de l’échantillon de l’enquête A (échantillon A), on peut employer les techniques de couplage d’enregistrements (Herzog, Scheuren et Winkler 2007) pour obtenir les valeurs de y 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaaigdaaeqaaaaa@397E@ pour l’échantillon de l’enquête B. Toutefois, dans de nombreux cas, un tel appariement parfait n’est pas possible (par exemple, parce que les échantillons peuvent contenir des sous-ensembles non chevauchants); on dépend alors d’une méthode probabiliste d’identification des « jumeaux statistiques » de l’autre échantillon, c’est-à-dire que l’on doit créer y 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaaigdaaeqaaaaa@397E@ pour chaque élément de l’échantillon B en trouvant son plus proche voisin dans l’échantillon A. L’imputation par la méthode du plus proche voisin a été examinée par de nombreux auteurs, dont Chen et Shao (2001) et Beaumont et Bocci (2009), dans le contexte des réponses manquantes.

Tableau 1.1
Structure de données simple pour l’appariement
Sommaire du tableau
Le tableau montre les résultats de Structure de données simple pour l’appariement XXXX(figurant comme en-tête de colonne).
  X MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meqabeqadiqaceGabeqabeWabeqaeeaakeaacaWGybaaaa@3AB0@ Y 1 MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meqabeqadiqaceGabeqabeWabeqaeeaakeaacaWGzbWaaS baaSqaaiaaigdaaeqaaaaa@3B98@ Y 2 MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meqabeqadiqaceGabeqabeWabeqaeeaakeaacaWGzbWaaS baaSqaaiaaikdaaeqaaaaa@3B99@
Échantillon A o o Cette cellule ne contient aucune données
Échantillon B o Cette cellule ne contient aucune données o

La détermination du plus proche voisin repose souvent sur la « proximité » en fonction de la valeur de x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG4baaaa@3896@ seulement. Ainsi, dans de nombreux cas, l’appariement statistique est fondé sur l’hypothèse que y 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaaigdaaeqaaaaa@397E@ et y 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaaikdaaeqaaaaa@397F@ sont indépendants, conditionnellement à x , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWG4bGaai ilaaaa@3946@ c’est-à-dire

y 1 y 2 | x . ( 1.1 ) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaabcaqaai aadMhadaWgaaWcbaGaaGymaaqabaGccqGHLkIxcaWG5bWaaSbaaSqa aiaaikdaaeqaaOGaaGPaVdGaayjcSdGaaGPaVlaadIhacaaIUaGaaG zbVlaaywW7caaMf8UaaGzbVlaaywW7caGGOaGaaGymaiaac6cacaaI XaGaaiykaaaa@4ED0@

L’hypothèse (1.1) est souvent appelée « hypothèse d’indépendance conditionnelle (IC) » et est très utilisée dans la pratique.

Dans le présent article, nous examinons une autre approche, qui ne repose pas sur l’hypothèse d’IC. Nous présentons les hypothèses à la section 2, puis les méthodes proposées à la section 3. Nous examinons en outre deux extensions de l’approche, l’une aux plans de sondage à questionnaire scindé (section 4) et l’autre aux modèles d’erreur de mesure (section 5). Les résultats de deux études par simulation sont présentés à la section 6. La section 7 conclut l’article.

Date de modification :