3. Extensions possibles des problèmes d’ajustement connexes
Jeroen Pannekoek et Li-Chun Zhang
Précédent | Suivant
3.1 Ajustement par le ratio généralisé
Habituellement, on utilise le modèle du
ratio pour pondérer les cas dans les enquêtes auprès des entreprises en
supposant que les variables économiques peuvent toutes être reliées proportionnellement
à une mesure de taille commune de l’unité commerciale, voir par exemple, Särndal, Swensson et Wretman (1992). Motivés
par le modèle du ratio, nous pourrions multiplier toutes les valeurs du donneur
par 950/1 030 pour obtenir les valeurs imputées pour l’enregistrement pris
comme exemple sous le schéma de réponse (I), y compris la variable Effectif
pour laquelle la valeur
imputée initiale de 20 n’enfreint formellement aucune contrainte. Cela montre
qu’il existe peut-être des situations où,
en plus des contraintes logiques et comptables, des ajustements pourraient être
introduits en se fondant sur des hypothèses statistiques.
Pour le schéma de réponse (II), les
variables observées Effectif
Chiffre d’affaires
et Rémunération
peuvent en principe être
chacune utilisées comme variable de mesure de taille dans un modèle de ratio, de
sorte que l’on ne peut pas dégager un ajustement par le ratio unique. Cependant,
nous pouvons postuler l’existence d’un ratio commun entre les enregistrements
receveur et donneur sous le modèle du ratio, et considérer les ratios observés (c’est-à-dire,
20/25 pour l’effectif, 950/1 030 pour le chiffre d’affaires et 550/500 pour
la rémunération) comme les manifestations aléatoires de ce ratio commun. Donc,
il semble qu’une approche plausible consiste à déterminer ce ratio commun comme
étant la valeur qui minimise la variance, ou toute autre mesure de dispersion jugée
appropriée, des trois ratios individuels. Enfin, dans la mesure où le ratio commun
a trait aux autres variables, il devient possible d’ajuster celles-ci en
utilisant l’approche du ratio généralisé (RG).
Supposons le modèle d’ajustement
multiplicatif
où chaque
est une manifestation aléatoire
d’un ratio commun théorique. Soit la fonction de distance
où
est le vecteur des
et
est leur moyenne.
Pour toutes les variables auxquelles est appliqué le ratio commun, incluant
celles qui sont libres ainsi que celles qui sont fixes, nous effectuons
maintenant l’ajustement en deux étapes. La première est une étape conceptuelle,
où nous imaginons qu’un ajustement
est apporté aux variables
fixes : si
est observée et
fixe, alors
tandis que
si
est la valeur
imputée
mais devant être
maintenue fixe pour un ajustement « supplémentaire ». À la deuxième
étape, les ajustements sont effectués sur les valeurs initiales des variables
libres par résolution du problème d’optimisation (2.1) en utilisant (3.1) comme
fonction de distance. Cela donne les ajustements RG des trois variables libres
concernées.
Une condition importante de l’approche
RG est qu’au moins l’un des
doit avoir trait à une variable fixe. Sinon,
serait une solution triviale, parce que cela
donnera toujours
Notons que nous avons supprimé la notation
dans (3.1) et utilisé un peu abusivement les
notations
et
introduites pour (2.1). Prenons le schéma de
réponse (I) dans le tableau 1.1, la valeur fixe
doit être incluse dans (3.1), ce qui donne
La résolution de (2.1) pour toutes les autres
variables donne alors
et
Par contre, sans inclure
nous aurions obtenu
à
et
pour
Les ajustements RG pour le schéma de
réponse (II) sont donnés au tableau 2.1. Les trois
observés pour
et sont inclus dans (3.1) et maintenus
fixes pour le problème d’optimisation. On voit que les résultats sont proches
des ajustements MCP/KL. La variance empirique des facteurs multiplicatifs vaut
0,0270 pour les ajustements RG, 0,0276 pour les ajustements MCP/KL et 0,1434
pour les ajustements MCO. La somme relative des carrés des écarts, c’est-à-dire
deux fois la distance MCP, vaut 50,6 pour
les ajustements MCP/KL, 51,6 pour les ajustements RG et 78,0 pour les
ajustements MCO. Enfin, la somme non pondérée des carrés des écarts, c’est-à-dire
deux fois la distance MCO, est de
20 925 pour les ajustements MCO, de 23 976 pour les ajustements
MCP/KL et de 25 090 pour les ajustements RG. Donc, en ce qui concerne les
trois fonctions de distance, les ajustements RG sont plus proches des
ajustements MCP/KL que des ajustements MCO.
Or, les mesures de distance (ou de
divergence) prises en considération à la section 2.2 pourraient être
caractérisées comme étant décomposables, puisque la distance globale
entre deux vecteurs est donnée par une somme (pondérée) des « distances »
entre les composantes correspondantes. L’une des conséquences est qu’une
variable ne figurant dans aucune des contraintes retiendra sa valeur initiale
sous l’approche de l’ajustement minimal. Par contre, la distance (3.1) est non
décomposable, chaque ajustement dépendant
des autres ajustements. Par conséquent, même les valeurs qui n’interviennent explicitement
dans aucune contrainte seront ajustées si elles sont incluses dans la fonction
de distance, en raison des changements apportés aux variables qui sont liées
aux contraintes. La variable Effectif dans le tableau 2.1 en est un
exemple. L’approche RG offre donc la possibilité de faire des ajustements fondés
sur des hypothèses statistiques en plus des contraintes logiques et comptables.
En effet, si une seule variable fixe est incluse dans (3.1), les ajustements RG
se réduisent à un ajustement proportionnel commun, conformément ici à la notion
intuitive d’ajustement par le ratio. Si plusieurs variables fixes sont incluses,
l’approche RG vise à produire une forme d’ajustements les plus uniformes en
tant que généralisation du modèle de ratio unique. Pour le schéma de
réponse (II) du tableau 1.1, l’approche tient compte d’un seul coup
des trois ratios observés. Arriver au même résultat en formulant un modèle
statistique explicite précisément pour ce schéma de réponse n’est pas aussi
pratique dans des conditions de production.
3.2 Ajustements portant sur des données
catégoriques
Une variable catégorique est associée à
des contraintes différentes de celles d’une variable continue. Il vaut donc la
peine d’examiner la mesure dans laquelle les variables catégoriques peuvent
être incorporées dans l’approche d’optimisation. Nous distinguons trois types de
données catégoriques que l’on rencontre fréquemment en pratique.
Premièrement, nous disons qu’une
variable catégorique/discrète est pseudo-continue si, en pratique, elle
peut être traitée comme s’il s’agissait d’une variable continue. Des exemples types
de variables pseudo-continues sont l’âge, le nombre d’employés, la taille du
ménage, etc. La pseudo-continuité
peut avoir une incidence sur le choix du modèle d’ajustement et de la fonction
de distance. Par exemple, des ajustements additifs ainsi que proportionnels
peuvent être acceptables pour le nombre d’employés, tandis qu’un ajustement
proportionnel de la taille du ménage ou de l’âge ne paraît pas naturel. Néanmoins,
après avoir choisi le modèle d’ajustement et la fonction de distance, on peut
traiter une variable pseudo-continue tout comme une vraie variable continue. Un
arrondissement est nécessaire par après et son effet doit être surveillé.
Deuxièmement, nous appelons variable
catégorique nominale une variable qui indique si une unité rentre dans
une catégorie particulière. Une variable nominale avec
catégories, étiquetées
est associée à la contrainte
Cependant, les étiquettes (par exemple,
1 = tomates, 2 = haricots, 3 = concombres) ne
conviennent pas pour des opérations telles que l’addition, la multiplication ou
l’arrondissement. En outre, une valeur nominale de 3 n’est pas plus distante
de 1 que la valeur 2. Par conséquent, la contrainte (3.2) ne peut pas
être prise en compte sous l’approche d’ajustement minimal qui suppose des
mesures sur une échelle d’intervalle. L’ajustement d’une valeur observée qui ne
satisfait pas (3.2) doit être traité en marquant cette valeur comme étant
manquante, puis en imputant une valeur admissible ainsi qu’appropriée, c’est-à-dire
tout comme dans le cas où la valeur manque
dès le départ.
Troisièmement, une variable peut être
définie comme étant nulle pour les unités qui ne sont pas admissibles. Selon
que la mesure est pseudo-continue ou nominale quand l’unité est admissible, nous
avons une variable semi-continue/-nominale ayant une probabilité non
nulle d’être nulle. La différence par rapport à la pseudo-continuité susmentionnée
est qu’une variable semi-continue peut nécessiter une contrainte supplémentaire
de non-négativité dans la matrice comptable. Considérons alors une variable
semi-nominale. En pratique, dans la conception des questionnaires, une telle variable
est souvent divisée en deux, disons
et
Soit
si l’unité s’adonne à une certaine
activité, disons, la production de légumes en serre, et
autrement. Soit
une mesure nominale de l’activité
quand
et
autrement. Formellement, la
contrainte logique peut être exprimée par
Considérons
tous les schémas de données possibles, y compris quand une valeur manque (indiqué par «
»):
-
la valeur
peut être déduite à condition
que
soit admissible, c’est-à-dire
vaut 0 ou satisfait (3.2), sinon
la situation devient le cas
décrit plus bas.
-
si
alors
si
alors (3.3) se réduit à (3.2) mentionnée
plus haut.
-
les deux valeurs doivent être imputées
par des valeurs qui satisfont (3.3).
il y a violation de (3.3), par exemple
si
ou si
et
Nous avons le cas
décrit plus haut si
est fixe,
si
est fixe, ou
si ni l’une ni l’autre n’est
fixe.
En résumé, les contraintes (3.2) et
(3.3) ne peuvent pas être traitées par l’approche d’ajustement minimal avec les
contraintes linéaires examinées plus haut. Elles doivent plutôt être traitées
par la méthode d’imputation. Souvent, l’imputation par donneur (par exemple,
le logiciel SCANCIR de Statistique Canada qui applique la méthode d’imputation par
le plus proche voisin, MIPPV) peut être conçue pour imputer des données
catégoriques de manière que les contraintes spécifiées par l’utilisateur soient
satisfaites, voir par exemple, Bankier,
Lachance et Poirier (2000).
3.3 Ajustement de l’imputation totale par donneur
Dans l’imputation totale par donneur,
toutes les valeurs de l’enregistrement proviennent du donneur choisi. Cette
approche offre des avantages par rapport à la modélisation conjointe de toutes
les variables cibles si celles-ci sont nombreuses. Chen et Shao (2000) établissent la cohérence de l’estimateur selon
l’enquête fondé sur l’imputation par le plus proche voisin (IPPV) sous des conditions
faibles. L’hypothèse clé est que la différence entre les espérances conditionnelles
d’une variable cible dans un enregistrement donneur et un enregistrement receveur,
sachant les variables sur lesquelles la mesure de distance est calculée, est bornée
par la « distance » entre ces enregistrements. Autrement dit, si la
« distance » entre eux est nulle, ils ont les mêmes espérances
respectivement pour chacune des variables statistiques.
Il est donc nécessaire d’ajuster
l’imputation totale par donneur quand la « distance » entre le
receveur et le donneur n’est pas nulle. Pour illustrer ceci au moyen de
l’enregistrement choisi comme exemple au tableau 1.1, supposons que le chiffre
d’affaires
est toujours connu à partir
d’une source administrative et qu’il est utilisé pour trouver le donneur, de
sorte que l’imputation partielle sous le schéma de réponse (I) devienne
une imputation totale. Puisque le chiffre d’affaires de l’enregistrement
receveur diffère de celui de l’enregistrement donneur, la distance entre les
deux enregistrements n’est pas nulle, et il paraît naturel que les valeurs du
donneur soient ajustées pour tenir compte de cette différence. En effet, maintenant
qu’il existe des contraintes faisant intervenir le chiffre d’affaires, des
ajustements sont nécessaires de toute façon.
Posons que
contient les variables qui peuvent être
manquantes. Posons que
contient les variables connues
qui sont utilisées pour trouver le donneur. Soit
le vecteur combiné de variables.
L’imputation totale (sachant
peut être considérée comme
une imputation partielle du sous-vecteur
manquant
de
L’ajustement de l’imputation
totale peut être nécessaire s’il existe des règles de vérification qui font
intervenir à la fois les valeurs de
et
et/ou s’il n’y a pas
concordance exacte des valeurs de
entre le donneur et le receveur. En fait, l’imputation
totale sans ajustement pourrait plutôt être considérée comme exceptionnelle en
pratique.
3.4 Étalonnage de macroniveau en plus des
contraintes de microniveau
Un recensement des entreprises doit
faire appel à l’imputation et à la vérification afin d’obtenir un ensemble de
données complet pour la production de statistiques. Ou bien, un registre
statistique peut être créé en se basant sur une combinaison de données administratives
et de données provenant d’une ou de plusieurs enquêtes. La vérification et l’imputation
sont de nouveau nécessaires. Une caractéristique commune est que, contrairement
au sondage, aucune pondération n’est nécessaire.
Durant le traitement de telles données,
des contraintes d’étalonnage de macroniveau sont fréquemment imposées
pour des raisons d’efficacité statistique et/ou de cohérence de macroniveau avec
les sources externes. Une contrainte d’étalonnage est satisfaite si la somme
des données complètes correspond au total d’étalonnage donné, qui peut se
rapporter à différents niveaux d’agrégation, c’est-à-dire contenant des totaux pour la population ainsi
que pour des sous-populations. Par exemple, certains totaux nationaux clés peuvent
être estimés par une méthode appropriée
et imposés comme contraintes d’étalonnage par la suite. Ou, un ensemble de contraintes d’étalonnage au niveau du domaine
peut être obtenu par une technique d’estimation sur petits domaines. En outre,
des contraintes d’étalonnage provenant de sources externes sont fréquentes dans
les statistiques structurelles sur les entreprises
un exemple tiré du Recensement de l’agriculture de la Norvège
de 2010 sera décrit à la section 4.
Les méthodes d’imputation sous
contraintes d’étalonnage ont été étudiées par Beaumont
(2005), Chambers et Ren (2004), Zhang (2009) et Pannekoek, Shlomo et de Waal
(2013). L’approche adoptée ici est similaire à celle suivie dans les deux
premiers articles. Dans ces deux articles, une distance selon les moindres
carrés pondérés entre les valeurs imputées initiales (ou les valeurs aberrantes
dans le cas de Chambers et Ren 2004) et les
valeurs imputées ajustées est minimisée sous la contrainte que les totaux
pondérés par les poids de sondage basés sur les données ajustées soient égaux
aux totaux d’étalonnage. Ici, nous supposons qu’une méthode d’imputation appropriée
a été appliquée pour produire l’ensemble de données de population complet
initial, qui peut ou non être étalonné. Le problème d’incohérence de microniveau
implique que des ajustements de l’ensemble de données complet initial seront en
général nécessaires.
Désignons par
l’ensemble de données complet
d’intérêt, où chaque ligne correspond à
un enregistrement au niveau de l’unité tel que celui du tableau 1.1, et chaque
colonne correspond à une variable particulière. Soit
l’ensemble de données complet
initial après imputation et
l’ensemble de données ajusté.
Chaque contrainte d’étalonnage s’applique à un vecteur-colonne particulier de
et aux unités qui sont
comprises dans son domaine. Autrement dit, cela peut s’exprimer génériquement
sous la forme
où
est le vecteur-colonne d’intérêt,
et
est le vecteur d’indicateurs
indiquant si une unité appartient au domaine d’intérêt, et
est le total d’étalonnage. De
cette façon, toutes les contraintes d’étalonnage peuvent être résumées comme
où chaque
colonne de
correspond à une contrainte d’étalonnage, et chaque
colonne de
au vecteur
d’indicateurs correspondant, et
est le vecteur de
tous les totaux d’étalonnage. Notons la similarité entre (3.4) et (1.1). Une approche
d’ajustement minimal s’ensuit en spécifiant les valeurs ajustables et fixes, ainsi
que la fonction de distance (ou de divergence).
Tant les contraintes d’étalonnage que
les contraintes de microniveau peuvent être considérées comme des contraintes linéaires
sur le très long vecteur contenant tous les éléments de
disons. Conceptuellement, toutes
les contraintes regroupées peuvent donc être exprimées sous la forme (1.1). La
matrice des contraintes de cette formulation est, cependant, énorme et très
éparse. Les lignes correspondant aux contraintes de microniveau peuvent
contenir des valeurs non nulles concordant avec les valeurs de l’enregistrement
auxquelles elles s’appliquent et des zéros pour toutes les autres valeurs de
et les lignes correspondant
aux contraintes d’étalonnage contiennent des éléments non nuls concordant
uniquement avec les valeurs de
qui contribuent au total
d’étalonnage en question. En pratique, le problème d’optimisation généré par
(3.4) en plus des contraintes de microniveau peut être traité en utilisant l’algorithme
SPA, c’est-à-dire une contrainte à la
fois et en opérant uniquement sur les éléments de
correspondant à des éléments non
nuls dans la contrainte en question, sans former effectivement cette matrice
des contraintes énorme et éparse. Pour les contraintes d’étalonnage, nous
devons uniquement traiter les colonnes de
une par une, et pour les
contraintes de microniveau, nous traitons chaque enregistrement au niveau de
l’unité un à la fois. Ces ajustements minimaux itératifs le long des colonnes et
des lignes de
ressemblent à l’algorithme d’ajustement proportionnel
itératif (ou de raking) pour
l’ajustement des modèles log-linéaires sur des données de tableau de contingence
et pour l’ajustement des tableaux (de contingence) sur de nouvelles marges, ce
qui est formellement identique à un algorithme SPA avec les contraintes de divergence
KL et d’égalité seulement.
Précédent | Suivant