Répartition optimale assistée par modèle pour des domaines planifiés en utilisant l’estimation composite 3. Optimisation du plan de sondageRépartition optimale assistée par modèle pour des domaines planifiés en utilisant l’estimation composite 3. Optimisation du plan de sondage

3.1 Plan optimal pour $F$

Un moyen de mesurer la performance des plans de sondage pour l’estimation sur petits domaines consiste à examiner une combinaison linéaire des EQM attendues des estimateurs des moyennes de petit domaine et de la moyenne globale. À l’instar de Longford (2006), mais en utilisant les EQM attendues au lieu des EQM fondées sur le plan de sondage, nous définissons le critère

$\begin{array}{l} F & = \sum_{h \in U^{1}} N_{h}^{q} {EQMA}_{h} + {GN}_{+}^{(q)} E_{ξ} {var}_{p} [{\hat{\bar{Y}}}_{r}] \\ = \sum_{h \in U^{1}} N_{h}^{q} {EQMA}_{h} + {GN}_{+}^{(q)} E_{ξ} {var}_{p} [\sum_{h \in U^{1}} P_{h} {\bar{y}}_{h r}] \\ \approx \sum_{h \in U^{1}} N_{h}^{q} {EQMA}_{h} + {GN}_{+}^{(q)} E_{ξ} \sum_{h \in U^{1}} P_{h}^{2} n_{h}^{- 1} S_{h w}^{2} \\ = \sum_{h \in U^{1}} N_{h}^{q} σ_{h}^{2} ρ (1 - ρ) {[1 + (n_{h} - 1) ρ]}^{- 1} + {GN}_{+}^{(q)} \sum_{h \in U^{1}} σ_{h}^{2} P_{h}^{2} n_{h}^{- 1} (1 - ρ) (3.1) \end{array}$

où les poids $N_{h}^{q}$ reflètent les priorités inférentielles pour le domaine $h,$ avec $0 \leq q \leq 2,$ et $N_{+}^{(q)} = \sum_{h \in U^{1}} N_{h}^{q},$ et ${\bar{y}}_{h r}$ est l’estimateur de la moyenne globale défini à la section 2. Cet objectif tient compte du fait que les enquêtes comptent de nombreuses parties intéressées, dont certaines se préoccupent uniquement d’un petit domaine particulier, tandis que d’autres n’accordent la priorité qu’aux estimateurs nationaux. Les estimateurs pour les petites régions représentent souvent une priorité, particulièrement si ces dernières correspondent à des sphères de compétences administratives ou gouvernementales, bien qu’une moins grande importance puisse être attribuée aux plus petits domaines qu’aux régions plus grandes. La quantité $G$ est un coefficient de priorité relative. Ignorer l’objectif d’une estimation nationale correspond à $G = 0$ et ignorer l’objectif d’une estimation sur petits domaines correspond à de grandes valeurs de $G,$ puisque quand $G$ est très grand, la deuxième composante domine dans (3.1). Le facteur $N_{+}^{(q)}$ sert à effectuer une mise à l’échelle appropriée pour tenir compte de l’effet des tailles absolues de $N_{h}^{q}$ et du nombre de domaines sur la priorité relative $G .$ Le critère donné en (3.1) est algébriquement similaire au critère donné dans Longford (2006). Ici, cependant, nous adoptons l’approche assistée par modèle qui traite l’inférence fondée sur le plan de sondage comme étant l’objectif réel de l’échantillonnage, mais emploie des modèles pour choisir entre les diverses options valides fondées sur la randomisation (p. ex., chapitre 6 de Särndal, Swensson et Wretman 1992).

Supposons que l’estimation nationale n’a aucune priorité $(G = 0),$ et que l’objectif est de minimiser (3.1) sous la contrainte d’une fonction de coût d’échantillonnage total fixe $C_{f} = \sum_{h} C_{h} n_{h},$ où $C_{h}$ est le coût unitaire de la réalisation du sondage sur une unité dans la strate $h .$ Le point stationnaire unique pour cette optimisation est

$\begin{array}{l} n_{h, opt .} & = \frac{C_{f} \sqrt{N_{h}^{q} σ_{h}^{2} C_{h}^{- 1}}}{\sum_{h \in U^{1}} \sqrt{N_{h}^{q} σ_{h}^{2} C_{h}}} + \frac{1 - ρ}{ρ} (\frac{\bar{C} \sqrt{N_{h}^{q} σ_{h}^{2} C_{h}^{- 1}}}{H^{- 1} \sum_{h \in U^{1}} \sqrt{N_{h}^{q} σ_{h}^{2} C_{h}}} - 1) \end{array} (3.2)$

où $\bar{C} = H^{- 1} \sum_{h} C_{h} .$ Nous nous concentrerons sur le cas où les coûts unitaires sont égaux dans les diverses strates, de sorte que la contrainte devient $n = \sum_{h} n_{h}$ et (3.2) se simplifie en

$\begin{array}{l} n_{h, opt .} & = \frac{n \sqrt{σ_{h}^{2} N_{h}^{q}}}{\sum_{h \in U^{1}} \sqrt{σ_{h}^{2} N_{h}^{q}}} + \frac{1 - ρ}{ρ} (\frac{\sqrt{σ_{h}^{2} N_{h}^{q}}}{H^{- 1} \sum_{h \in U^{1}} \sqrt{σ_{h}^{2} N_{h}^{q}}} - 1) \end{array} . (3.3)$

Si d’autres contraintes sont imposées (p. ex., tailles d’échantillon de strate minimales ou EQM maximales dans les strates), ou si $G > 0,$ alors (3.2) et (3.3) ne s’appliquent pas et $F$ doit être minimisée numériquement, par exemple par PNL comme dans Choudhry et coll. (2012).

En pratique, il serait presque toujours approprié de fixer $0 \leq q \leq 2,$ avec $q = 0$ correspondant à la situation où tous les domaines sont d’importance égale quelle que soit leur taille, et $q = 2$ accordant nettement plus de poids aux grands domaines. (La valeur $q = 2$ donnerait une répartition proportionnelle si l’on utilisait des estimateurs directs plutôt que des estimateurs composites $-$ voir par exemple Bankier 1988.) Dans de nombreux cas, $q = 1$ serait un compromis raisonnable. Par exemple, cette valeur a été utilisée pour motiver les répartitions exponentielles (Bankier 1988) pour les échantillons maîtres de ménages au Vietnam et en Afrique du Sud (Kalton, Brick et Lê 2005, paragraphe 76, page 89).

Dans (3.3), le premier terme représente la répartition optimale pour l’estimateur direct et correspond à la répartition exponentielle (Bankier 1988). Le deuxième terme sera positif pour les domaines dont la population est grande (grand $N_{h})$ et négatif pour les domaines dont la population est plus petite. Par conséquent, la répartition optimale pour l’estimation composite assistée par modèle donne des tailles de sous-échantillon plus dispersées $n_{h, opt .}$ que celle qui est optimale pour les estimateurs directs.

Afin de comprendre les propriétés de la répartition optimale quand $G > 0,$ et de fournir une méthode non itérative, Molefe (2011, chapitre 3) a calculé des approximations par série de Taylor pour le $n_{h}$ optimal, basé sur un petit $ρ .$ Cependant, l’approximation résultante avait tendance à aboutir à de très grandes valeurs négatives et de très grandes valeurs positives pour $n_{h, opt .}$ à moins que $ρ$ soit très petit. (En pratique, ces valeurs seraient tronquées à 0 ou à la taille de population, respectivement.) Mathématiquement, le problème semble tenir au fait que les $n_{h}$ optimaux sont plutôt non linéaires en $ρ$ à $ρ = 0,$ de sorte que les approximations par série de Taylor ne sont bonnes que dans un petit voisinage de $ρ = 0.$ Les séries de Taylor fondées sur de petites valeurs d’une fonction de $G$ ainsi que $ρ$ ont également été examinées, mais présentaient des difficultés similaires, de sorte que ces approches ne sont pas discutées plus en profondeur ici.

3.2 Répartition exponentielle

Les répartitions exponentielles (Bankier 1988) sont définies par

$n_{h} = \frac{n N_{h}^{p}}{\sum_{h \in U^{1}} N_{h}^{p}} (3.4)$

pour $h \in U^{1},$ où $0 \leq p \leq 1.$ Un cas particulier est la répartition proportionnelle à la racine carrée de la taille quand $p = 1 / 2 .$ L’exposant $p$ est appelé puissance de la répartition. En choisissant $p = 1,$ on obtient une répartition proportionnelle et en choisissant $p = 0,$ on obtient une répartition égale.

Bankier (1988) a proposé de choisir $p$ en se fondant sur les priorités relatives perçues. Cependant, cette approche était fondée sur l’utilisation d’estimateurs directs dans chaque strate. Nous nous intéressons au cas où l’on utilise l’estimation composite, et où l’objectif consiste à obtenir une faible valeur pour $F$ dans (3.1). Nous déterminons numériquement la valeur de $p$ qui minimise $F$ par optimisation unidimensionnelle. Nous considérons en outre l’imposition de tailles d’échantillon de strate minimales, en réoptimisant $p$ en conséquence. (Une alternative consisterait à imposer des contraintes d’EQM maximale dans les strates.)

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N^o 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Répartition optimale assistée par modèle pour des domaines planifiés en utilisant l’estimation composite 3. Optimisation du plan de sondageRépartition optimale assistée par modèle pour des domaines planifiés en utilisant l’estimation composite 3. Optimisation du plan de sondage

3.1 Plan optimal pour $F$

3.2 Répartition exponentielle