Répartition optimale assistée par modèle pour des domaines planifiés en utilisant l’estimation composite
3. Optimisation du plan de sondageRépartition optimale assistée par modèle pour des domaines planifiés en utilisant l’estimation composite
3. Optimisation du plan de sondage
Un moyen de mesurer la performance des plans
de sondage pour l’estimation sur petits domaines consiste à examiner une combinaison
linéaire des EQM attendues des estimateurs des moyennes de petit domaine et de
la moyenne globale. À l’instar de Longford
(2006), mais en utilisant les EQM attendues au lieu des EQM fondées sur le plan
de sondage, nous définissons le critère
où les
poids
reflètent les
priorités inférentielles pour le domaine
avec
et
et
est l’estimateur
de la moyenne globale défini à la section 2. Cet objectif tient compte du
fait que les enquêtes comptent de nombreuses parties intéressées, dont certaines
se préoccupent uniquement d’un petit domaine particulier, tandis que d’autres n’accordent
la priorité qu’aux estimateurs nationaux. Les estimateurs pour les petites régions
représentent souvent une priorité, particulièrement si ces dernières correspondent
à des sphères de compétences administratives ou gouvernementales, bien qu’une
moins grande importance puisse être attribuée aux plus petits domaines qu’aux régions
plus grandes. La quantité
est un
coefficient de priorité relative. Ignorer l’objectif d’une estimation nationale
correspond à
et ignorer
l’objectif d’une estimation sur petits domaines correspond à de grandes valeurs
de
puisque quand
est très grand, la
deuxième composante domine dans (3.1). Le facteur
sert à effectuer
une mise à l’échelle appropriée pour tenir compte de l’effet des tailles
absolues de
et du
nombre de domaines sur la priorité relative
Le critère donné
en (3.1) est algébriquement similaire au critère donné dans Longford (2006). Ici, cependant, nous adoptons l’approche
assistée par modèle qui traite l’inférence fondée sur le plan de sondage comme
étant l’objectif réel de l’échantillonnage, mais emploie des modèles pour
choisir entre les diverses options valides fondées sur la randomisation
(p. ex., chapitre 6 de Särndal,
Swensson et Wretman 1992).
Supposons que l’estimation nationale
n’a aucune priorité
et que l’objectif est de minimiser (3.1) sous
la contrainte d’une fonction de coût d’échantillonnage total fixe
où
est le coût unitaire de la
réalisation du sondage sur une unité dans la strate
Le point stationnaire unique pour
cette optimisation est
où
Nous nous
concentrerons sur le cas où les coûts unitaires sont égaux dans les diverses
strates, de sorte que la contrainte devient
et (3.2)
se simplifie en
Si
d’autres contraintes sont imposées (p. ex., tailles d’échantillon de
strate minimales ou EQM maximales dans les strates), ou si
alors
(3.2) et (3.3) ne s’appliquent pas et
doit
être minimisée numériquement, par exemple par PNL comme dans Choudhry et coll. (2012).
En pratique, il serait presque toujours
approprié de fixer
avec
correspondant à la situation où tous les domaines
sont d’importance égale quelle que soit leur taille, et
accordant nettement plus de
poids aux grands domaines. (La valeur
donnerait une répartition proportionnelle
si l’on utilisait des estimateurs directs plutôt que des estimateurs composites
voir par exemple Bankier
1988.) Dans de nombreux cas,
serait un compromis
raisonnable. Par exemple, cette valeur a été utilisée pour motiver les
répartitions exponentielles (Bankier
1988) pour les échantillons maîtres de ménages au Vietnam et en Afrique du Sud (Kalton, Brick et Lê 2005, paragraphe 76,
page 89).
Dans (3.3), le premier terme représente
la répartition optimale pour l’estimateur direct et correspond à la répartition
exponentielle (Bankier 1988). Le deuxième
terme sera positif pour les domaines dont la population est grande (grand
et négatif pour les domaines dont la
population est plus petite. Par conséquent, la répartition optimale pour l’estimation
composite assistée par modèle donne des tailles de sous-échantillon plus
dispersées
que celle qui est optimale pour
les estimateurs directs.
Afin de comprendre les propriétés de la
répartition optimale quand
et de fournir une méthode non itérative, Molefe (2011, chapitre 3) a calculé des
approximations par série de Taylor pour le
optimal, basé sur un petit
Cependant, l’approximation résultante
avait tendance à aboutir à de très grandes valeurs négatives et de très grandes
valeurs positives pour
à moins que
soit très petit. (En pratique,
ces valeurs seraient tronquées à 0 ou à la taille de population,
respectivement.) Mathématiquement, le problème semble tenir au fait que les
optimaux sont plutôt non linéaires
en
à
de sorte que les
approximations par série de Taylor ne
sont bonnes que dans un petit voisinage de
Les séries de Taylor fondées
sur de petites valeurs d’une fonction de
ainsi que
ont également été examinées, mais
présentaient des difficultés similaires, de sorte que ces approches ne sont pas
discutées plus en profondeur ici.
3.2 Répartition
exponentielle
Les répartitions exponentielles (Bankier 1988) sont définies par
pour
où
Un cas
particulier est la répartition proportionnelle à la racine carrée de la taille quand
L’exposant
est appelé puissance
de la répartition. En choisissant
on obtient une
répartition proportionnelle et en choisissant
on obtient une
répartition égale.
Bankier (1988) a proposé de choisir
en se fondant sur les
priorités relatives perçues. Cependant, cette approche était fondée sur
l’utilisation d’estimateurs directs dans chaque strate. Nous nous intéressons au
cas où l’on utilise l’estimation
composite, et où l’objectif consiste à obtenir une faible valeur pour
dans (3.1). Nous déterminons
numériquement la valeur de
qui minimise
par optimisation unidimensionnelle.
Nous considérons en outre l’imposition de tailles d’échantillon de strate
minimales, en réoptimisant
en conséquence. (Une
alternative consisterait à imposer des contraintes d’EQM maximale dans les
strates.)
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.