Estimation de la variance dans le calage à plusieurs phases
Section 3. Calage avec la distance MCG
Le
calage requiert la spécification d’une fonction de distance mesurant la
distance entre les poids initiaux et les nouveaux poids calés. Plusieurs
fonctions de distance ont été étudiées, certaines étant résumées dans Deville
et Särndal (1992). Nous nous concentrons sur la mesure de distance par les
moindres carrés généralisée (MCG). La forme classique du calage à plusieurs
phases sous la fonction de distance MCG consiste à trouver les valeurs
pour l’ensemble
qui minimisent l’expression
sous la contrainte
(autrement, on peut écrire
au lieu de
où les
sont les poids initiaux au début
de la phase
c’est-à-dire les poids calés
obtenus à la phase
les
sont les poids calés de la phase
que nous voulons obtenir; et les
sont les facteurs positifs
spécifiés utilisés pour contrôler l’importance relative que nous voulons
attribuer à chacun des éléments de la somme en fonction de l’information
auxiliaire disponible pour
Pour
simplifier la notation, supposons à partir de maintenant que
pour tout
Les poids résultant de ce
scénario de calage sont
où
avec
D’où, les facteurs de calage
dans ce processus agissent multiplicativement pour donner un facteur de calage
global
pour
à la fin de la phase
La mesure de distance (3.1) peut être
critiquée, parce que les facteurs
pour une phase
pourraient ne pas être
forcément tous finis et positifs, car les termes
qui figurent dans
au dénominateur peuvent être
nuls ou négatifs, ce qui contredit la notion de distance. Un autre choix de
fonction de distance, et celui que nous utiliserons dans notre analyse,
consiste à remplacer (3.1) par
c’est-à-dire par des poids non calés au dénominateur. Il est facile de vérifier que
les poids calés globaux résultant de la minimisation de (3.3) sous la
contrainte (3.2) sont (pour
voir Hidiroglou et Särndal 1998)
où
pour
avec
Le choix d’une mesure de
distance dans la construction des estimateurs calés n’est pas critique, puisque
les estimateurs résultants pour une large gamme de mesures de distance sont
asymptotiquement équivalents à celui qui utilise la mesure de distance MCG
(3.1), Deville et Särndal (1992). Il en est de même de la mesure de distance
(3.3). Puisque l’estimateur de Horvitz-Thompson
est sans biais pour
avec un écart-type d’ordre de
grandeur
alors
pour tout
et donc
Par induction,
pour tout
et découlant de (3.4),
en probabilité avec
Suggérant de nouvelles
techniques en vue d’améliorer l’estimation, Farrell et Singh (2002) ont proposé
d’autres types de fonction de distance du khi carré pénalisée.
3.1 Estimation
L’analyse qui suit est motivée par la
nature récursive de
dans (3.4), où les poids calés des phases
antérieures
sont emboîtés dans chaque facteur
ce qui requiert le calcul séquentiel des poids
calés; autrement dit, il faut calculer tous les poids calés des phases
antérieures pour obtenir ceux des phases ultérieures. Soient
et
les estimateurs de
le coefficient de régression
de
sur
La différence entre les deux
estimateurs tient au fait que, tandis que
utilise l’ensemble complet
d’unités connues pour
qui est obtenu dans
utilise uniquement le
sous-ensemble
et, donc, plus de variables
que
Soit
la différence entre les deux
coefficients estimés qui converge vers zéro. Notons aussi
pour
et
pour
Soit
et
les deux estimateurs de
Horvitz-Thompson pour
fondés sur les unités
obtenues dans les échantillons
et
respectivement. Notons que
tous les estimateurs définis dans le présent paragraphe utilisent les poids de
sondage globaux
et non les poids calés. Dans
le lemme qui suit, nous donnons une représentation de
le vecteur de poids calés
après
phases de calage, qui dépend
uniquement des poids de sondage connus au préalable
Lemme 3.1 Considérons un plan
d’échantillonnage à plusieurs phases avec un scénario de calage qui produit des
facteurs g additifs comme il est défini dans (3.3). Une représentation des
poids calés à la phase
fondée entièrement sur les poids
de sondage est
où
Preuve. Voir l’annexe A.
Notons la forme « inclusion-exclusion » de
dans le lemme 3.1. La
sommation comprend
opérandes
pour lesquels chaque
contient
opérandes. Soit, un total de
opérandes. Le nombre global
de termes dans (3.6) est par conséquent
comme il est montré dans la
preuve du lemme. Notons aussi que les termes
comprennent le produit des
composantes
et
ayant toutes deux une
espérance nulle, de sorte que le poids calé
est égal à
le poids de sondage global,
plus les termes de correction d’ordres de grandeur plus faibles, et maintient
la caractéristique bien connue des poids calés. Jusqu’à présent, nous nous
sommes limités dans notre discussion à une représentation du vecteur des poids
dans un processus de calage à plusieurs phases qui fait intervenir uniquement
des paramètres du plan de sondage et n’inclut pas les facteurs
Or, partant de cette
représentation de
il est possible de déduire un
estimateur novateur pour la variance des estimateurs calés en plusieurs phases.
Soit
une variable d’intérêt pour
laquelle nous voulons estimer le total de population
Soit
le coefficient de régression
de
sur
et
l’estimateur de
Horvitz-Thompson non calé, calculé sur les éléments compris dans
Le réarrangement des termes
dans (3.6) produit une représentation plus classique de l’estimateur calé en
plusieurs phases
sous forme d’un estimateur
par la régression multivariée
où
L’établissement d’un estimateur
convergent de la variance des estimateurs calés en plusieurs phases est
maintenant simple en ce sens qu’il suit à peu près les étapes utilisées dans le
calcul de la variance sous un scénario de calage multivarié à une phase.
Théorème 3.1 Soit
pour
et
Un estimateur convergent de la variance de
est
où
et
La preuve comprend l’évaluation des
ordres de grandeur les plus élevés et l’estimation de leur variance. Une
attention particulière est accordée à l’évaluation de la probabilité conjointe
des événements
et à l’estimation de la covariance
entre les unités provenant de différentes phases d’échantillonnage.
Preuve. À la première étape,
nous allons voir que le remplacement des estimateurs des coefficients
par leurs valeurs réelles
affecte l’estimation de la
variance d’un facteur
et, donc, n’affecte pas la
convergence de l’estimateur substitué. À cette fin, notons que
sont tous deux convergents vers
Écrivons
de sorte que
Rappelons que
où
est basé sur
tandis que
est basé sur son sous-échantillon
et, donc,
et, par conséquent,
est borné par
De même,
est
parce que
est observé uniquement à la
dernière phase d’échantillonnage
Donc,
est convergent vers
pour tout
où les
dans
sont remplacés par
dans
La convergence n’implique pas
nécessairement la convergence des moments et, en particulier, pas de la
variance. Cependant, pour une population finie, c’est-à-dire un espace de
probabilité fini, les concepts coïncident. Il s’ensuit que, pour
suffisamment grand,
et
sont asymptotiquement
équivalents et selon la discussion qui précède, la différence peut être
quantifiée par
L’estimateur
est une sommation sur les unités
comprises dans
tandis que
est une sommation sur
En réarrangeant les termes, la
variance dans le deuxième membre de l’équation peut s’écrire
ce qui est égal à
de sorte qu’un estimateur basé sur
l’échantillon serait
Pour calculer la covariance entre les indicateurs
et
nous devons connaître la
probabilité conjointe des événements
Si
alors
est égale à la probabilité
conjointe que les deux unités
soient dans l’échantillon
multipliée par la probabilité
conditionnelle que l’unité
soit dans l’échantillon
sachant qu’il appartient à
Formellement, si
alors
ce qui élimine la dépendance
à l’égard de
entre les crochets dans (3.9)
et le résultat s’ensuit.
Un autre moyen d’écrire (3.8) est
Quand
les termes
coïncident avec les unités de
variation obtenues de la décomposition de l’erreur d’échantillonnage de l’estimateur
en deux étapes de Breidt et Fuller (1993). Des estimations convergentes
pour les écarts-types des estimations calées des sous-totaux de population sont
calculées de façon ordinaire en multipliant la variable cible par une variable
indicatrice pour la sous-population particulière.
Jusqu’à présent dans notre discussion,
nous avons donné une représentation du vecteur de poids calés de laquelle nous
avons dérivé un nouvel estimateur convergent pour la variance des estimateurs
calés en plusieurs phases. Cependant, dans certains cas, les estimateurs
peuvent être simplifiés davantage sans perte d’exactitude. Nous discuterons
brièvement ici de deux scénarios qui dépendent du fait que
est ou non significativement
plus petit que
c’est-à-dire du fait que,
pour tout
le sous-échantillon
est ou non significativement
plus petit que
Un cas type du premier
scénario est celui où l’on possède un ensemble de fichiers administratifs
emboîtés dont les tailles diminuent significativement. Le premier ensemble peut
être, par exemple, un fichier de registre de population qui contient un nombre
limité de variables au sujet de l’ensemble de la population, comme l’âge, le
sexe, etc. Le deuxième ensemble peut correspondre à des données d’échantillons
provenant d’une enquête de portée nationale dans le cadre de laquelle des
données complètes sur les ménages ont été recueillies auprès de toutes les
unités échantillonnées, mais en utilisant un questionnaire supplémentaire pour
un sous-groupe de ces unités (disons, une unité sur dix). Les données pour ce
sous-groupe d’unités peuvent alors être calées sur celles provenant des deux
sources d’information précédentes. Un exemple du second scénario est la
situation où une ou deux phases de calage sont effectuées sur le même ensemble
de données. Autrement dit, contrairement au processus à plusieurs phases habituel,
l’élément d’échantillonnage est présent à la première phase seulement, mais non
aux phases ultérieures. Un tel scénario peut avoir lieu si nous voulons caler
les données d’une enquête sur de nombreuses variables pour lesquelles nous
connaissons seulement les totaux de marge, mais ne possédons pas les totaux
transversaux. Dans ces conditions, une série de calages sur le même
échantillon, mais en utilisant un ensemble différent de variables auxiliaires à
chaque phase, en attribuant habituellement aux dernières phases les variables
les plus importantes, pourrait être un compromis satisfaisant. Une meilleure
façon de caractériser ce scénario serait de le dire séquentiel. Sous ces
scénarios,
et sa variance peuvent être
simplifiés considérablement. Ces scénarios peuvent être énoncés comme des
corollaires de notre analyse, mais nous choisissons de ne pas les prendre en
considération ici afin de nous concentrer sur nos résultats courants.
3.2 Exemples : Calage à deux phases et à trois
phases
Calage à deux phases. Nous utiliserons le cas particulier du calage à deux phases
pour démontrer la nouvelle
méthodologie et ce qui la distingue de l’autre estimateur habituellement
utilisé dans la littérature. En notation matricielle, l’estimateur calé est
donné, selon (3.7), par
où
et
Explicitement, sous forme non
matricielle,
où
Cet estimateur produit des estimations
identiques à l’estimateur calé en deux phases utilisé dans Hidiroglou et
Särndal (1998) ou dans Särndal et coll. (1992), section 9.7. Cependant,
une fois que l’estimateur des paramètres
est calculé, la
représentation de
devient simple et
informative, car elle possède la structure d’un simple estimateur par la
régression multivariée. Cet estimateur linéaire est fondé sur les coefficients
qui englobent l’effet total
de la variable
qu’ils multiplient et, donc,
diffèrent légèrement des coefficients
englobe l’effet global que le
calage sur la variable
a sur l’estimation de
Dans le cas général, il tient
compte de la projection de
sur
de la projection de
sur
multipliée par la projection
de
sur
et ainsi de suite. En outre,
comme nous allons le montrer, les estimateurs de variance diffèrent
significativement en ce qui concerne tant les estimations que la représentation.
Étant donné la complexité de l’évaluation de la variance des estimateurs qui
comprennent des facteurs
jusqu’à présent dans la
littérature sur le calage à deux phases, il était d’usage pratique de commencer
par donner aux facteurs
la valeur approximative
de 1, puis d’utiliser la loi de la variation totale pour obtenir deux
composantes, une pour chaque phase, conformément à
où les termes d’erreur
et
sont tous deux définis pour
parce que
est observé uniquement sur
et on notera la représentation
simple des termes d’erreur sous la notation faisant appel aux coefficients
Les facteurs
sont définis comme dans (3.5).
La valeur approximative de 1 donnée aux facteurs
dans le calcul de (3.10) peut
indubitablement aboutir à des estimations imprévisibles, car ces facteurs
s’écartent de l’unité précisément dans les situations où le calage est
essentiel. Par ailleurs, l’estimateur de variance proposé en (3.8) pour un
estimateur calé en deux phases est donné par
La différence entre les estimateurs de
variance issus des deux méthodes représentées par les équations (3.10) et
(3.11) est fondamentale. Elle se manifeste sous divers aspects. Tandis que le
terme d’erreur de la deuxième phase est le même dans les deux méthodes,
c’est-à-dire
le terme d’erreur de la
première phase diffère.
est fondé sur la différence
entre
et le prédicteur de
régression
tandis que
est basé sur la différence
entre deux prédicteurs de
provenant des phases un et
deux
Cette modification fait que
le premier opérande dans (3.11) est calculé sur
et non sur
où l’échantillon est plus
grand. Comme on le voit, l’estimateur (3.11) comprend un troisième opérande qui
contient le produit des deux termes d’erreur provenant des deux phases et n’a
pas de parallèle dans (3.10). Bien que ce produit soit souvent proche de zéro
quand les termes d’erreur ne sont pas fortement corrélés, il peut être non
négligeable quand
est fortement corrélé avec
Un avantage évident est
l’absence des facteurs
qui rend l’estimateur plus
simple à calculer, c’est-à-dire qu’une fois que nous avons calculé les
estimations des paramètres
l’estimateur (3.11) peut être
calculé en utilisant les paramètres du plan uniquement, sans impliquer les
facteurs
provenant de toutes les
phases du calage. Enfin, aspect peut-être le plus important du point de vue
opérationnel, comme nous le montrerons aussi dans l’étude en simulation,
l’avantage de (3.11) est que, pour une grande gamme de plans de sondage, le
deuxième opérande représente la majorité absolue de la variance, tandis que
dans (3.10), les opérandes sont habituellement du même ordre de grandeur. Cette
caractéristique découle du fait que le terme
qui comprend les poids
d’échantillonnage totaux, est très grand comparativement à
ou
Dans l’estimateur de
variance, la fonction
atteint son maximum sur la
diagonale
où elle est proportionnelle à
et puis elle est multipliée
par le carré de son reste
qui est un terme non négatif.
D’où, quand le taux d’échantillonnage de la seconde phase est suffisamment
élevé, il accroît fortement les termes qui dépendent des poids totaux
de cette phase,
comparativement à un terme parallèle provenant de la phase précédente. Donc, le
deuxième opérande peut, pratiquement à lui seul, être un bon estimateur de la
variance de l’estimateur calé.
Calage à trois phases. Le calage à plusieurs phases peut être mis en œuvre quand, dans
une série d’échantillons de taille décroissante (non croissante), chaque
paire de phases consécutives présente certaines variables communes. Il peut
être effectué que les échantillons soient emboîtés, c’est-à-dire si
est un sous-échantillon de
ou non. En pratique, le cas
le plus simple et le plus fréquent est évidemment le calage à deux phases où un
plus petit échantillon (emboîté ou non) est calé sur un échantillon beaucoup
plus grand, comme celui d’une Enquête sur la population active, qui est à son
tour fréquemment calé sur un fichier administratif contenant des variables
démographiques. Cependant, étant donné la faisabilité des calculs et les
progrès méthodologiques, les plans comportant un plus grand nombre de phases de
calage demeurent répandus et les plans à trois phases occupent le second rang
quant à la simplicité et à la mise en œuvre. Par conséquent, cela vaut la peine
de s’étendre un peu plus sur l’estimateur pour ce cas.
L’approximation (3.8) contient six termes
différents, trois pour les trois phases d’échantillonnage et trois autres pour
la covariance entre les phases. Nous désignons ces termes par
et
respectivement. Chacun
correspond à la multiplication d’un terme qui comprend les poids
d’échantillonnage par les restes pour les phases pertinentes. Les formules pour
le calage à trois phases sont présentées à l’annexe B. Comme nous l’avons
exposé pour le cas à deux phases, quand
les
suivent vraisemblablement un
ordre clair
et
deviendra d’autant plus
dominant que les taux d’échantillonnage de la troisième phase seront grands.
Cette situation est représentée par le cas 3 dans le tableau 3.1, et
dans notre simulation, cela se manifeste aux lignes 2 et 6 du
tableau 4.2, où
est égal à 10 et à 5,
respectivement. Ce n’est manifestement pas très souvent le cas en réalité, car
l’approximation dépend aussi des tailles des termes de reste, qui dépendent du
choix des variables de calage et de leurs corrélations particulières qui sont
parfois très fortes. Le cas échéant, les restes seront très petits et il serait
préférable d’utiliser tous les termes de (3.8). Comme pour les termes de
covariance, même si
comprend les poids globaux
il est peu probable qu’il
ajoute une valeur importante à la variance totale en raison de la corrélation
généralement faible entre les restes des phases 1 et 3. Par ailleurs, le
terme
même s’il est pondéré par les
poids globaux de
phase seulement, peut être
significatif en raison de la forte corrélation entre les restes des
phases 2 et 3, car ils contiennent tous deux le terme
pour
L’importance relative des
termes pour certains plans généraux est spécifiée dans le tableau 3.1. Les
coefficients
qui englobent l’effet total
des variables
qu’ils multiplient, prennent
maintenant une forme plus intéressante et compliquée. Par exemple,
tient compte des projections
de
sur
et de
sur
mais avec déduction de la
projection de
sur la projection de
sur
Tableau 3.1
Une représentation générale de l’importance relative de chacun des termes dans (3.8) pour certains scénarios. Les points noirs indiquent une forte dominance, les points gris foncé, une dominance modérée et les points gris clair, une non-dominance
Sommaire du tableau
Le tableau montre les résultats de Une représentation générale de l’importance relative de chacun des termes dans (3.8) pour certains scénarios. Les points noirs indiquent une forte dominance. Les données sont présentées selon Cas (titres de rangée) et Description et (figurant comme en-tête de colonne).
Cas |
Description |
V1 |
V2 |
V3 |
C12 |
C13 |
C23 |
1 |
Pratiquement aucun échantillonnage supplémentaire aux deuxième et troisième phases :
|
Ceci est un cercle gris foncé |
Ceci est un cercle gris foncé |
Ceci est un cercle gris foncé |
Ceci est un cercle gris pâle |
Ceci est un cercle gris foncé |
Ceci est un cercle gris pâle |
2 |
Les poids
sont de taille modérée. |
Ceci est un cercle gris pâle |
Ceci est un cercle gris moyen |
Ceci est un cercle gris foncé |
Ceci est un cercle gris pâle |
Ceci est un cercle gris foncé |
Ceci est un cercle gris pâle |
3 |
nettement plus petit que
indépendamment des tailles de
|
Ceci est un cercle gris pâle |
Ceci est un cercle gris pâle |
Ceci est un cercle gris foncé |
Ceci est un cercle gris pâle |
Ceci est un cercle gris pâle |
Ceci est un cercle gris pâle |