1. Introduction
Jae-kwang Kim, Seunghwan Park et Seo-young Kim
Précédent | Suivant
Combiner des données provenant de diverses
sources est un problème important en statistique. Dans le contexte des sondages,
combiner les données de plusieurs enquêtes peut améliorer la qualité des estimations
sur petits domaines. Les données peuvent provenir d'un échantillon probabiliste
sur lequel sont faites des mesures directes, d'un autre échantillon
probabiliste sur lequel sont faites des mesures indirectes (comme l'état de
santé autodéclaré), ou d'information auxiliaire au niveau du domaine. Bon
nombre d'approches de combinaison de données, telles que les méthodes à bases
de sondage multiples et les méthodes d'appariement statistique, requièrent l'accès
à des données au niveau individuel, ce qui n'est pas toujours possible en
pratique.
Nous considérons une approche de l'estimation
sur petits domaines basée sur un modèle au niveau du domaine lorsqu'il existe plusieurs
sources d'information auxiliaire. Pfeffermann
(2002) et Rao (2003) ont procédé à une
recension détaillée des méthodes utilisées en estimation sur petits domaines. Lohr et Prasad
(2003) ont utilisé des modèles multivariés pour combiner l'information provenant
de plusieurs enquêtes. Ybarra et Lohr (2008) ont considéré le problème de
l'estimation sur petits domaines quand les données auxiliaires au niveau du
domaine contiennent des erreurs de mesure. Merkouris
(2010) a discuté de l'estimation sur petits domaines lorsque l'on combine des
données provenant de plusieurs enquêtes. Raghunathan,
Xie, Schenker, Parsons, Davis, Dodd et Feuer
(2007), ainsi que Manzi, Spiegelhalter, Turner,
Flowers et Thompson (2011) se sont
servi de modèles hiérarchiques bayésiens pour combiner les données provenant de
plusieurs enquêtes pour l'estimation sur petits domaines. Kim et Rao
(2012) ont examiné une approche fondée sur le plan de sondage pour combiner les
données provenant de deux enquêtes indépendantes.
Afin de décrire la situation, supposons
que la population finie est constituée de
sous-populations, désignées par et que nous souhaitons estimer
les totaux de sous-population d'une variable pour chaque domaine Nous supposons qu'il existe
une enquête conçue pour mesurer à partir de l'échantillon, mais
que la taille de cet échantillon n'est pas suffisamment grande pour obtenir des
estimations de d'une précision raisonnable.
Considérons l'une des enquêtes, appelée enquête comme étant l'enquête
principale, et soit un estimateur convergent sous
le plan de obtenu à partir de l'enquête Souvent, nous
calculons où est le jeu d'unités de
l'échantillon pour la sous-population et est le poids de l'unité dans l'échantillon
En plus de l'enquête principale, supposons
qu'il en existe une autre, appelée enquête donnant une mesure qui est
une estimation grossière de
Soit la mesure prise au moyen de l'enquête Nous pouvons supposer que est une mesure grossière de présentant un certain niveau
d'erreur de mesure. Donc, nous pouvons émettre l'hypothèse que
pour certains paramètres
où Le modèle (1.1) étant propre à
la variable, l'hypothèse de régression linéaire ou les hypothèses de variance
égale peuvent être relâchées plus tard. Si alors le modèle (1.1) signifie qu'il
n'y a pas de biais de mesure. Notons que, dans (1.1), les paramètres du modèle ne sont pas propres au domaine, mais
peuvent différer pour des groupes de domaines, comme il est démontré dans
l'application à l'enquête coréenne sur la population active présentée à la
section 5. La spécification de modèles de régression distincts pour différents
groupes peut donner lieu à de plus petites erreurs de modélisation et donc accroître
l'efficacité statistique de la méthode proposée. Partant de l'enquête nous
pouvons obtenir un autre estimateur de où est le poids de l'unité dans l'échantillon de
l'enquête et est l'échantillon pour la
sous-population Notons que l'on peut obtenir pour chaque domaine, si les mêmes
domaines sont définis dans les deux enquêtes et Le modèle (1.1) peut
être utilisé pour combiner l'information provenant des deux enquêtes.
Enfin, les données de recensement
peuvent représenter une autre source d'information. Les données de recensement
ne souffrent pas d'une erreur de couverture ni d'une erreur d'échantillonnage. Toutefois,
elles peuvent présenter des erreurs de mesure et ne fournissent pas d'information
mise à jour pour chaque mois ou chaque année. Soit
la mesure de l'unité d'après le recensement. Le
total de sous-population est disponible quand est le jeu d'unités du recensement pour la sous-population
Le tableau 1.1 résume les
principales sources d'information que nous pouvons prendre en considération dans
l'estimation sur petits domaines.
Tableau 1.1
Information disponible pour l’estimation sur petits domaines
Sommaire du tableau
Le tableau montre les résultats de Information disponible pour l’estimation sur petits domaines. Les données sont présentées selon Données (titres de rangée) et Observation, Estimation au niveau du domaine et Propriétés(figurant comme en-tête de colonne).
Données |
Observation |
Estimation au niveau du domaine |
Propriétés |
Enquête |
Observation directe
|
|
Erreur d’échantillonnage (grande) |
Enquête |
Observation auxiliaire
|
|
Biais
Erreur de mesure
Erreur d’échantillonnage |
Recensement |
Observation auxiliaire
|
|
Erreur de mesure
Pas d’information mise à jour |
Dans le présent article, nous
considérons une approche d'estimation sur petits domaines au moyen d'un modèle
au niveau du domaine combinant toute l'information disponible. L'approche
proposée est basée sur les modèles d'erreur de mesure, dans lesquels les erreurs d'échantillonnage des estimateurs directs
sont traitées comme des erreurs de mesure, et toutes les autres données
auxiliaires sont combinées au moyen d'un ensemble de modèles de lien. L'approche
proposée est appliquée au problème de l'estimation sur petits domaines dans le
cas des enquêtes sur la population active en Corée, où trois estimations sont combinées pour produire des estimations
sur petits domaines des taux de chômage.
La présentation de l'article est la
suivante. À la section 2, nous exposons la théorie de base et nous
envisageons le problème d'estimation sur petits domaines comme un problème de
prédiction d'un modèle d'erreur de mesure. À la section 3, nous discutons
de l'estimation des paramètres du modèle d'estimation sur petits domaines au
niveau du domaine. À la section 4, nous décrivons brièvement l'estimation de
l'erreur quadratique moyenne. À la section 5, nous appliquons la méthode
proposée aux données de l'enquête sur la population active en Corée. Enfin, à
la section 6, nous présentons nos conclusions.
Précédent | Suivant