Recherche par

3. Extensions possibles des problèmes d’ajustement connexes

Jeroen Pannekoek et Li-Chun Zhang

3.1 Ajustement par le ratio généralisé

Habituellement, on utilise le modèle du ratio pour pondérer les cas dans les enquêtes auprès des entreprises en supposant que les variables économiques peuvent toutes être reliées proportionnellement à une mesure de taille commune de l’unité commerciale, voir par exemple, Särndal, Swensson et Wretman (1992). Motivés par le modèle du ratio, nous pourrions multiplier toutes les valeurs du donneur par 950/1 030 pour obtenir les valeurs imputées pour l’enregistrement pris comme exemple sous le schéma de réponse (I), y compris la variable Effectif $(x_{2})$ pour laquelle la valeur imputée initiale de 20 n’enfreint formellement aucune contrainte. Cela montre qu’il existe peut-être des situations où, en plus des contraintes logiques et comptables, des ajustements pourraient être introduits en se fondant sur des hypothèses statistiques.

Pour le schéma de réponse (II), les variables observées Effectif $(x_{2}),$ Chiffre d’affaires $(x_{5})$ et Rémunération $(x_{6})$ peuvent en principe être chacune utilisées comme variable de mesure de taille dans un modèle de ratio, de sorte que l’on ne peut pas dégager un ajustement par le ratio unique. Cependant, nous pouvons postuler l’existence d’un ratio commun entre les enregistrements receveur et donneur sous le modèle du ratio, et considérer les ratios observés (c’est-à-dire, 20/25 pour l’effectif, 950/1 030 pour le chiffre d’affaires et 550/500 pour la rémunération) comme les manifestations aléatoires de ce ratio commun. Donc, il semble qu’une approche plausible consiste à déterminer ce ratio commun comme étant la valeur qui minimise la variance, ou toute autre mesure de dispersion jugée appropriée, des trois ratios individuels. Enfin, dans la mesure où le ratio commun a trait aux autres variables, il devient possible d’ajuster celles-ci en utilisant l’approche du ratio généralisé (RG).

Supposons le modèle d’ajustement multiplicatif ${\tilde{x}}_{j} = x_{0, j} δ_{j},$ où chaque $δ_{j}$ est une manifestation aléatoire d’un ratio commun théorique. Soit la fonction de distance

$D (\tilde{x}, x_{0}) = 1 / 2 (δ^{T} δ - {\bar{δ}}^{2}) (3.1)$

où $δ$ est le vecteur des $δ_{j}$ et $\bar{δ}$ est leur moyenne. Pour toutes les variables auxquelles est appliqué le ratio commun, incluant celles qui sont libres ainsi que celles qui sont fixes, nous effectuons maintenant l’ajustement en deux étapes. La première est une étape conceptuelle, où nous imaginons qu’un ajustement ${\tilde{x}}_{j} / x_{0, j}$ est apporté aux variables fixes : si ${\tilde{x}}_{j} = x_{j}$ est observée et fixe, alors $δ_{j} = x_{j} / x_{0, j},$ tandis que $δ_{j} = 1$ si ${\tilde{x}}_{j}$ est la valeur imputée $x_{0, j}$ mais devant être maintenue fixe pour un ajustement « supplémentaire ». À la deuxième étape, les ajustements sont effectués sur les valeurs initiales des variables libres par résolution du problème d’optimisation (2.1) en utilisant (3.1) comme fonction de distance. Cela donne les ajustements RG des trois variables libres concernées.

Une condition importante de l’approche RG est qu’au moins l’un des $δ_{j}$ doit avoir trait à une variable fixe. Sinon, ${\tilde{x}}_{j} \equiv x_{0, j}$ serait une solution triviale, parce que cela donnera toujours $D = 0.$ Notons que nous avons supprimé la notation $J$ dans (3.1) et utilisé un peu abusivement les notations $x_{0}$ et $\tilde{x}$ introduites pour (2.1). Prenons le schéma de réponse (I) dans le tableau 1.1, la valeur fixe $x_{5} = 950$ doit être incluse dans (3.1), ce qui donne $δ_{5} = {\tilde{x}}_{5} / x_{0, j} = x_{5} / x_{0, j} = 950 / 1 030 .$ La résolution de (2.1) pour toutes les autres variables donne alors $δ_{j} \equiv 950 / 1 030$ et $D = 0.$ Par contre, sans inclure $δ_{5},$ nous aurions obtenu $D = 0$ à $δ_{j} = 1$ et ${\tilde{x}}_{j} = x_{0, j}$ pour $j \neq 5.$

Les ajustements RG pour le schéma de réponse (II) sont donnés au tableau 2.1. Les trois $δ_{j}$ observés pour $j = 2, 5$ et $6$ sont inclus dans (3.1) et maintenus fixes pour le problème d’optimisation. On voit que les résultats sont proches des ajustements MCP/KL. La variance empirique des facteurs multiplicatifs vaut 0,0270 pour les ajustements RG, 0,0276 pour les ajustements MCP/KL et 0,1434 pour les ajustements MCO. La somme relative des carrés des écarts, c’est-à-dire deux fois la distance MCP, vaut 50,6 pour les ajustements MCP/KL, 51,6 pour les ajustements RG et 78,0 pour les ajustements MCO. Enfin, la somme non pondérée des carrés des écarts, c’est-à-dire deux fois la distance MCO, est de 20 925 pour les ajustements MCO, de 23 976 pour les ajustements MCP/KL et de 25 090 pour les ajustements RG. Donc, en ce qui concerne les trois fonctions de distance, les ajustements RG sont plus proches des ajustements MCP/KL que des ajustements MCO.

Or, les mesures de distance (ou de divergence) prises en considération à la section 2.2 pourraient être caractérisées comme étant décomposables, puisque la distance globale entre deux vecteurs est donnée par une somme (pondérée) des « distances » entre les composantes correspondantes. L’une des conséquences est qu’une variable ne figurant dans aucune des contraintes retiendra sa valeur initiale sous l’approche de l’ajustement minimal. Par contre, la distance (3.1) est non décomposable, chaque ajustement dépendant des autres ajustements. Par conséquent, même les valeurs qui n’interviennent explicitement dans aucune contrainte seront ajustées si elles sont incluses dans la fonction de distance, en raison des changements apportés aux variables qui sont liées aux contraintes. La variable Effectif dans le tableau 2.1 en est un exemple. L’approche RG offre donc la possibilité de faire des ajustements fondés sur des hypothèses statistiques en plus des contraintes logiques et comptables. En effet, si une seule variable fixe est incluse dans (3.1), les ajustements RG se réduisent à un ajustement proportionnel commun, conformément ici à la notion intuitive d’ajustement par le ratio. Si plusieurs variables fixes sont incluses, l’approche RG vise à produire une forme d’ajustements les plus uniformes en tant que généralisation du modèle de ratio unique. Pour le schéma de réponse (II) du tableau 1.1, l’approche tient compte d’un seul coup des trois ratios observés. Arriver au même résultat en formulant un modèle statistique explicite précisément pour ce schéma de réponse n’est pas aussi pratique dans des conditions de production.

3.2 Ajustements portant sur des données catégoriques

Une variable catégorique est associée à des contraintes différentes de celles d’une variable continue. Il vaut donc la peine d’examiner la mesure dans laquelle les variables catégoriques peuvent être incorporées dans l’approche d’optimisation. Nous distinguons trois types de données catégoriques que l’on rencontre fréquemment en pratique.

Premièrement, nous disons qu’une variable catégorique/discrète est pseudo-continue si, en pratique, elle peut être traitée comme s’il s’agissait d’une variable continue. Des exemples types de variables pseudo-continues sont l’âge, le nombre d’employés, la taille du ménage, etc. La pseudo-continuité peut avoir une incidence sur le choix du modèle d’ajustement et de la fonction de distance. Par exemple, des ajustements additifs ainsi que proportionnels peuvent être acceptables pour le nombre d’employés, tandis qu’un ajustement proportionnel de la taille du ménage ou de l’âge ne paraît pas naturel. Néanmoins, après avoir choisi le modèle d’ajustement et la fonction de distance, on peut traiter une variable pseudo-continue tout comme une vraie variable continue. Un arrondissement est nécessaire par après et son effet doit être surveillé.

Deuxièmement, nous appelons variable catégorique nominale une variable qui indique si une unité rentre dans une catégorie particulière. Une variable nominale avec $M$ catégories, étiquetées $x = 1, 2, ..., M,$ est associée à la contrainte

$\prod_{m = 1}^{M} (\tilde{x} - m) = 0. (3.2)$

Cependant, les étiquettes (par exemple, 1 = tomates, 2 = haricots, 3 = concombres) ne conviennent pas pour des opérations telles que l’addition, la multiplication ou l’arrondissement. En outre, une valeur nominale de 3 n’est pas plus distante de 1 que la valeur 2. Par conséquent, la contrainte (3.2) ne peut pas être prise en compte sous l’approche d’ajustement minimal qui suppose des mesures sur une échelle d’intervalle. L’ajustement d’une valeur observée qui ne satisfait pas (3.2) doit être traité en marquant cette valeur comme étant manquante, puis en imputant une valeur admissible ainsi qu’appropriée, c’est-à-dire tout comme dans le cas où la valeur manque dès le départ.

Troisièmement, une variable peut être définie comme étant nulle pour les unités qui ne sont pas admissibles. Selon que la mesure est pseudo-continue ou nominale quand l’unité est admissible, nous avons une variable semi-continue/-nominale ayant une probabilité non nulle d’être nulle. La différence par rapport à la pseudo-continuité susmentionnée est qu’une variable semi-continue peut nécessiter une contrainte supplémentaire de non-négativité dans la matrice comptable. Considérons alors une variable semi-nominale. En pratique, dans la conception des questionnaires, une telle variable est souvent divisée en deux, disons $X_{1}$ et $X_{2} .$ Soit $X_{1} = 1$ si l’unité s’adonne à une certaine activité, disons, la production de légumes en serre, et $X_{1} = 0$ autrement. Soit $X_{2}$ une mesure nominale de l’activité quand $X_{1} = 1,$ et $X_{2} = 0$ autrement. Formellement, la contrainte logique peut être exprimée par

$(1 - {\tilde{x}}_{1}) {\tilde{x}}_{2} + {\tilde{x}}_{1} \prod_{m = 1}^{M} ({\tilde{x}}_{2} - m) = 0 (3.3)$

Considérons tous les schémas de données possibles, y compris quand une valeur manque (indiqué par « $-$ »):

$(x_{1}, x_{2}) = (-, x_{2}) :$ la valeur ${\tilde{x}}_{1}$ peut être déduite à condition que $x_{2}$ soit admissible, c’est-à-dire $x_{2}$ vaut 0 ou satisfait (3.2), sinon la situation devient le cas $(x_{1}, x_{2}) = (-, -)$ décrit plus bas.
$(x_{1}, x_{2}) = (x_{1}, -) :$ si $x_{1} = 0$ alors ${\tilde{x}}_{2} = 0;$ si $x_{1} = 1$ alors (3.3) se réduit à (3.2) mentionnée plus haut.
$(x_{1}, x_{2}) = (-, -) :$ les deux valeurs doivent être imputées par des valeurs qui satisfont (3.3).
$(x_{1}, x_{2}) :$ il y a violation de (3.3), par exemple si $(x_{1}, x_{2}) = (1,0)$ ou si $x_{1} = 0$ et $x_{2} > 0.$ Nous avons le cas $(-, x_{2})$ décrit plus haut si $x_{2}$ est fixe, $(x_{1}, -)$ si $x_{1}$ est fixe, ou $(-, -)$ si ni l’une ni l’autre n’est fixe.

En résumé, les contraintes (3.2) et (3.3) ne peuvent pas être traitées par l’approche d’ajustement minimal avec les contraintes linéaires examinées plus haut. Elles doivent plutôt être traitées par la méthode d’imputation. Souvent, l’imputation par donneur (par exemple, le logiciel SCANCIR de Statistique Canada qui applique la méthode d’imputation par le plus proche voisin, MIPPV) peut être conçue pour imputer des données catégoriques de manière que les contraintes spécifiées par l’utilisateur soient satisfaites, voir par exemple, Bankier, Lachance et Poirier (2000).

3.3 Ajustement de l’imputation totale par donneur

Dans l’imputation totale par donneur, toutes les valeurs de l’enregistrement proviennent du donneur choisi. Cette approche offre des avantages par rapport à la modélisation conjointe de toutes les variables cibles si celles-ci sont nombreuses. Chen et Shao (2000) établissent la cohérence de l’estimateur selon l’enquête fondé sur l’imputation par le plus proche voisin (IPPV) sous des conditions faibles. L’hypothèse clé est que la différence entre les espérances conditionnelles d’une variable cible dans un enregistrement donneur et un enregistrement receveur, sachant les variables sur lesquelles la mesure de distance est calculée, est bornée par la « distance » entre ces enregistrements. Autrement dit, si la « distance » entre eux est nulle, ils ont les mêmes espérances respectivement pour chacune des variables statistiques.

Il est donc nécessaire d’ajuster l’imputation totale par donneur quand la « distance » entre le receveur et le donneur n’est pas nulle. Pour illustrer ceci au moyen de l’enregistrement choisi comme exemple au tableau 1.1, supposons que le chiffre d’affaires $(x_{5})$ est toujours connu à partir d’une source administrative et qu’il est utilisé pour trouver le donneur, de sorte que l’imputation partielle sous le schéma de réponse (I) devienne une imputation totale. Puisque le chiffre d’affaires de l’enregistrement receveur diffère de celui de l’enregistrement donneur, la distance entre les deux enregistrements n’est pas nulle, et il paraît naturel que les valeurs du donneur soient ajustées pour tenir compte de cette différence. En effet, maintenant qu’il existe des contraintes faisant intervenir le chiffre d’affaires, des ajustements sont nécessaires de toute façon.

Posons que $x$ contient les variables qui peuvent être manquantes. Posons que $z$ contient les variables connues qui sont utilisées pour trouver le donneur. Soit $x^{*} = {(x^{T}, z^{T})}^{T}$ le vecteur combiné de variables. L’imputation totale (sachant $x_{0})$ peut être considérée comme une imputation partielle du sous-vecteur manquant $x$ de $x^{*} .$ L’ajustement de l’imputation totale peut être nécessaire s’il existe des règles de vérification qui font intervenir à la fois les valeurs de $x$ et $z,$ et/ou s’il n’y a pas concordance exacte des valeurs de $z$ entre le donneur et le receveur. En fait, l’imputation totale sans ajustement pourrait plutôt être considérée comme exceptionnelle en pratique.

3.4 Étalonnage de macroniveau en plus des contraintes de microniveau

Un recensement des entreprises doit faire appel à l’imputation et à la vérification afin d’obtenir un ensemble de données complet pour la production de statistiques. Ou bien, un registre statistique peut être créé en se basant sur une combinaison de données administratives et de données provenant d’une ou de plusieurs enquêtes. La vérification et l’imputation sont de nouveau nécessaires. Une caractéristique commune est que, contrairement au sondage, aucune pondération n’est nécessaire.

Durant le traitement de telles données, des contraintes d’étalonnage de macroniveau sont fréquemment imposées pour des raisons d’efficacité statistique et/ou de cohérence de macroniveau avec les sources externes. Une contrainte d’étalonnage est satisfaite si la somme des données complètes correspond au total d’étalonnage donné, qui peut se rapporter à différents niveaux d’agrégation, c’est-à-dire contenant des totaux pour la population ainsi que pour des sous-populations. Par exemple, certains totaux nationaux clés peuvent être estimés par une méthode appropriée et imposés comme contraintes d’étalonnage par la suite. Ou, un ensemble de contraintes d’étalonnage au niveau du domaine peut être obtenu par une technique d’estimation sur petits domaines. En outre, des contraintes d’étalonnage provenant de sources externes sont fréquentes dans les statistiques structurelles sur les entreprises $-$ un exemple tiré du Recensement de l’agriculture de la Norvège de 2010 sera décrit à la section 4.

Les méthodes d’imputation sous contraintes d’étalonnage ont été étudiées par Beaumont (2005), Chambers et Ren (2004), Zhang (2009) et Pannekoek, Shlomo et de Waal (2013). L’approche adoptée ici est similaire à celle suivie dans les deux premiers articles. Dans ces deux articles, une distance selon les moindres carrés pondérés entre les valeurs imputées initiales (ou les valeurs aberrantes dans le cas de Chambers et Ren 2004) et les valeurs imputées ajustées est minimisée sous la contrainte que les totaux pondérés par les poids de sondage basés sur les données ajustées soient égaux aux totaux d’étalonnage. Ici, nous supposons qu’une méthode d’imputation appropriée a été appliquée pour produire l’ensemble de données de population complet initial, qui peut ou non être étalonné. Le problème d’incohérence de microniveau implique que des ajustements de l’ensemble de données complet initial seront en général nécessaires.

Désignons par $X$ l’ensemble de données complet d’intérêt, où chaque ligne correspond à un enregistrement au niveau de l’unité tel que celui du tableau 1.1, et chaque colonne correspond à une variable particulière. Soit $X_{0}$ l’ensemble de données complet initial après imputation et $\tilde{X}$ l’ensemble de données ajusté. Chaque contrainte d’étalonnage s’applique à un vecteur-colonne particulier de $X$ et aux unités qui sont comprises dans son domaine. Autrement dit, cela peut s’exprimer génériquement sous la forme $r^{T} col (X) = t,$ où $col (X)$ est le vecteur-colonne d’intérêt, et $r$ est le vecteur d’indicateurs indiquant si une unité appartient au domaine d’intérêt, et $t$ est le total d’étalonnage. De cette façon, toutes les contraintes d’étalonnage peuvent être résumées comme

${[r]}^{T} [col (X)] = t (3.4)$

où chaque colonne de $[col (X)]$ correspond à une contrainte d’étalonnage, et chaque colonne de $[r]$ au vecteur d’indicateurs correspondant, et $t$ est le vecteur de tous les totaux d’étalonnage. Notons la similarité entre (3.4) et (1.1). Une approche d’ajustement minimal s’ensuit en spécifiant les valeurs ajustables et fixes, ainsi que la fonction de distance (ou de divergence).

Tant les contraintes d’étalonnage que les contraintes de microniveau peuvent être considérées comme des contraintes linéaires sur le très long vecteur contenant tous les éléments de $X, vec (X),$ disons. Conceptuellement, toutes les contraintes regroupées peuvent donc être exprimées sous la forme (1.1). La matrice des contraintes de cette formulation est, cependant, énorme et très éparse. Les lignes correspondant aux contraintes de microniveau peuvent contenir des valeurs non nulles concordant avec les valeurs de l’enregistrement auxquelles elles s’appliquent et des zéros pour toutes les autres valeurs de $vec (X),$ et les lignes correspondant aux contraintes d’étalonnage contiennent des éléments non nuls concordant uniquement avec les valeurs de $vec (X)$ qui contribuent au total d’étalonnage en question. En pratique, le problème d’optimisation généré par (3.4) en plus des contraintes de microniveau peut être traité en utilisant l’algorithme SPA, c’est-à-dire une contrainte à la fois et en opérant uniquement sur les éléments de $vec (X)$ correspondant à des éléments non nuls dans la contrainte en question, sans former effectivement cette matrice des contraintes énorme et éparse. Pour les contraintes d’étalonnage, nous devons uniquement traiter les colonnes de $[col (X)]$ une par une, et pour les contraintes de microniveau, nous traitons chaque enregistrement au niveau de l’unité un à la fois. Ces ajustements minimaux itératifs le long des colonnes et des lignes de $X$ ressemblent à l’algorithme d’ajustement proportionnel itératif (ou de raking) pour l’ajustement des modèles log-linéaires sur des données de tableau de contingence et pour l’ajustement des tableaux (de contingence) sur de nouvelles marges, ce qui est formellement identique à un algorithme SPA avec les contraintes de divergence KL et d’égalité seulement.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête