Recherche par

1. Introduction

Jae-kwang Kim, Seunghwan Park et Seo-young Kim

Combiner des données provenant de diverses sources est un problème important en statistique. Dans le contexte des sondages, combiner les données de plusieurs enquêtes peut améliorer la qualité des estimations sur petits domaines. Les données peuvent provenir d'un échantillon probabiliste sur lequel sont faites des mesures directes, d'un autre échantillon probabiliste sur lequel sont faites des mesures indirectes (comme l'état de santé autodéclaré), ou d'information auxiliaire au niveau du domaine. Bon nombre d'approches de combinaison de données, telles que les méthodes à bases de sondage multiples et les méthodes d'appariement statistique, requièrent l'accès à des données au niveau individuel, ce qui n'est pas toujours possible en pratique.

Nous considérons une approche de l'estimation sur petits domaines basée sur un modèle au niveau du domaine lorsqu'il existe plusieurs sources d'information auxiliaire. Pfeffermann (2002) et Rao (2003) ont procédé à une recension détaillée des méthodes utilisées en estimation sur petits domaines. Lohr et Prasad (2003) ont utilisé des modèles multivariés pour combiner l'information provenant de plusieurs enquêtes. Ybarra et Lohr (2008) ont considéré le problème de l'estimation sur petits domaines quand les données auxiliaires au niveau du domaine contiennent des erreurs de mesure. Merkouris (2010) a discuté de l'estimation sur petits domaines lorsque l'on combine des données provenant de plusieurs enquêtes. Raghunathan, Xie, Schenker, Parsons, Davis, Dodd et Feuer (2007), ainsi que Manzi, Spiegelhalter, Turner, Flowers et Thompson (2011) se sont servi de modèles hiérarchiques bayésiens pour combiner les données provenant de plusieurs enquêtes pour l'estimation sur petits domaines. Kim et Rao (2012) ont examiné une approche fondée sur le plan de sondage pour combiner les données provenant de deux enquêtes indépendantes.

Afin de décrire la situation, supposons que la population finie est constituée de $H$ sous-populations, désignées par $U_{1}, \dots, U_{H},$ et que nous souhaitons estimer les totaux de sous-population $X_{h} = \sum_{i \in U_{h}} x_{i}$ d'une variable $x$ pour chaque domaine $h .$ Nous supposons qu'il existe une enquête conçue pour mesurer $x_{i}$ à partir de l'échantillon, mais que la taille de cet échantillon n'est pas suffisamment grande pour obtenir des estimations de $X_{h}$ d'une précision raisonnable. Considérons l'une des enquêtes, appelée enquête $A,$ comme étant l'enquête principale, et soit ${\hat{X}}_{h}$ un estimateur convergent sous le plan de $X_{h}$ obtenu à partir de l'enquête $A .$ Souvent, nous calculons ${\hat{X}}_{h} = \sum_{i \in A_{h}} w_{i a} x_{i},$ où $A_{h}$ est le jeu d'unités de l'échantillon $A$ pour la sous-population $h$ et $w_{i a}$ est le poids de l'unité $i$ dans l'échantillon $A .$

En plus de l'enquête principale, supposons qu'il en existe une autre, appelée enquête $B,$ donnant une mesure qui est une estimation grossière de $x_{i} .$ Soit $y_{1 i}$ la mesure prise au moyen de l'enquête $B .$ Nous pouvons supposer que $y_{1 i}$ est une mesure grossière de $x_{i}$ présentant un certain niveau d'erreur de mesure. Donc, nous pouvons émettre l'hypothèse que

$y_{1 i} = β_{0} + β_{1} x_{i} + e_{1 i} (1.1)$

pour certains paramètres $(β_{0}, β_{1}),$ où $e_{1 i} \sim (0, σ_{e 1}^{2}) .$ Le modèle (1.1) étant propre à la variable, l'hypothèse de régression linéaire ou les hypothèses de variance égale peuvent être relâchées plus tard. Si $(β_{0}, β_{1}) = (0,1),$ alors le modèle (1.1) signifie qu'il n'y a pas de biais de mesure. Notons que, dans (1.1), les paramètres du modèle $(β_{0}, β_{1})$ ne sont pas propres au domaine, mais peuvent différer pour des groupes de domaines, comme il est démontré dans l'application à l'enquête coréenne sur la population active présentée à la section 5. La spécification de modèles de régression distincts pour différents groupes peut donner lieu à de plus petites erreurs de modélisation et donc accroître l'efficacité statistique de la méthode proposée. Partant de l'enquête $B,$ nous pouvons obtenir un autre estimateur ${\hat{Y}}_{1 h} = \sum_{i \in B_{h}} w_{i b} y_{1 i}$ de $X_{h},$ où $w_{i b}$ est le poids de l'unité $i$ dans l'échantillon de l'enquête $B,$ et $B_{h}$ est l'échantillon $B$ pour la sous-population $h .$ Notons que l'on peut obtenir ${\hat{Y}}_{1 h}$ pour chaque domaine, si les mêmes domaines sont définis dans les deux enquêtes $A$ et $B .$ Le modèle (1.1) peut être utilisé pour combiner l'information provenant des deux enquêtes.

Enfin, les données de recensement peuvent représenter une autre source d'information. Les données de recensement ne souffrent pas d'une erreur de couverture ni d'une erreur d'échantillonnage. Toutefois, elles peuvent présenter des erreurs de mesure et ne fournissent pas d'information mise à jour pour chaque mois ou chaque année. Soit $y_{2 i}$ la mesure de l'unité $i$ d'après le recensement. Le total de sous-population $Y_{2 h} = \sum_{i \in C_{h}} y_{2 i}$ est disponible quand $C_{h}$ est le jeu d'unités du recensement $C$ pour la sous-population $h .$

Le tableau 1.1 résume les principales sources d'information que nous pouvons prendre en considération dans l'estimation sur petits domaines.

Tableau 1.1
Information disponible pour l’estimation sur petits domaines
Sommaire du tableau
Le tableau montre les résultats de Information disponible pour l’estimation sur petits domaines. Les données sont présentées selon Données (titres de rangée) et Observation, Estimation au niveau du domaine et Propriétés(figurant comme en-tête de colonne).
Données	Observation	Estimation au niveau du domaine	Propriétés
Enquête $A$	Observation directe $(x_{i})$	${\hat{X}}_{h}, \hat{V} ({\hat{X}}_{h})$	Erreur d’échantillonnage (grande)
Enquête $B$	Observation auxiliaire $(y_{1 i})$	${\hat{Y}}_{1 h}, \hat{V} ({\hat{Y}}_{1 h})$	Biais Erreur de mesure Erreur d’échantillonnage
Recensement	Observation auxiliaire $(y_{2 i})$	$Y_{2 h}$	Erreur de mesure Pas d’information mise à jour

Dans le présent article, nous considérons une approche d'estimation sur petits domaines au moyen d'un modèle au niveau du domaine combinant toute l'information disponible. L'approche proposée est basée sur les modèles d'erreur de mesure, dans lesquels les erreurs d'échantillonnage des estimateurs directs sont traitées comme des erreurs de mesure, et toutes les autres données auxiliaires sont combinées au moyen d'un ensemble de modèles de lien. L'approche proposée est appliquée au problème de l'estimation sur petits domaines dans le cas des enquêtes sur la population active en Corée, où trois estimations sont combinées pour produire des estimations sur petits domaines des taux de chômage.

La présentation de l'article est la suivante. À la section 2, nous exposons la théorie de base et nous envisageons le problème d'estimation sur petits domaines comme un problème de prédiction d'un modèle d'erreur de mesure. À la section 3, nous discutons de l'estimation des paramètres du modèle d'estimation sur petits domaines au niveau du domaine. À la section 4, nous décrivons brièvement l'estimation de l'erreur quadratique moyenne. À la section 5, nous appliquons la méthode proposée aux données de l'enquête sur la population active en Corée. Enfin, à la section 6, nous présentons nos conclusions.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

1. Introduction