Répartition de l’échantillon pour une estimation efficace sur petits domaines par modélisation
Section 3. Quelques modes de répartition par domaine sans modèle

Table des matières

Notre but dans la présente section est de passer en revue, à titre de référence, les cinq modes de répartition déjà présentés. Selon le genre d’information auxiliaire utilisée dans chaque cas, ces méthodes se répartissent en deux groupes (répartitions fondées sur les données de dénombrement et répartitions fondées sur les paramètres).

3.1 Répartitions fondées sur les données de dénombrement

La répartition égale et la répartition proportionnelle sont deux modes de répartition de base couramment utilisés. Aucune n’applique de critères particuliers au niveau du domaine ou de la population. Leur application exige seulement de l’information sur le nombre de strates $D$ et le nombre d’unités $N_{d}$ dans chaque strate.

Dans la répartition égale, la taille d’échantillon $n_{d}$ est simplement le quotient

$n_{d}^{Equ} = n / D . (3.1)$

Il est recommandé de choisir la taille d’échantillon globale $n$ pour que le quotient soit un nombre entier. Dans le mode de répartition égale, on ne tient aucunement compte des différences entre les domaines, ce qui donne des estimations imprécises de domaine. Une borne inférieure naturelle pour la taille d’échantillon est min $n = 2 D .$

Le mode de répartition proportionnelle est fréquemment employé. On calcule alors les tailles d’échantillon de domaines par

$n_{d}^{Pro} = n (N_{d} / N) . (3.2)$

Si les domaines sont de taille très variable, cela peut donner une situation où la taille d’échantillon attribuée est $n_{d}^{Pro} < 2$ pour un ou plusieurs domaines. Il s’agit d’un obstacle au calcul d’estimations directes fondées sur le plan de l’estimateur pour les erreurs-types. Une solution est d’appliquer le mode de répartition mixte proposé par Costa, Satorra et Ventura (2004). Ce mode est une solution pondérée joignant la répartition égale à la répartition proportionnelle selon la situation. La taille combinée d’échantillon de domaines est alors

$n_{_{d}}^{Com} = k n_{d}^{Pro} + (1 - k) n_{d}^{Equ} (3.3)$

pour une constante spécifiée $k (0 \leq k \leq 1) .$ Un problème secondaire se présente quand, pour un certain nombre de domaines, $n / D > N_{d} .$ Une solution modifiée existe en pareil cas.

3.2 Répartitions fondées sur les paramètres

Dans ces modes de répartition, on utilise l’information au niveau du domaine de la variable étudiée $y$ et, dans certains cas, de la variable auxiliaire $x$ en corrélation avec $y .$ Les valeurs de $x$ sont disponibles pour toutes les unités de population. Dans la pratique, on remplace $y$ inconnu par une variable appropriée de substitution $y^{*}$ comme une variable étudiée venant d’une recherche antérieure sur le même sujet. Autre possibilité, on obtient les valeurs de $y^{*}$ à l’aide d’un modèle approprié dans un petit échantillon préalable. On peut également substituer $x$ à $y .$ Les critères de répartition peuvent être fixés au niveau de la population seulement, au niveau du domaine seulement ou aux deux niveaux combinés.

Dans la répartition de Neyman, on recherche une précision optimale pour les paramètres de population $ET {(y)}_{d}$ (Tschuprow 1923). On doit alors connaître l’écart-type de la variable étudiée $y$ ou d’une certaine variable de substitution et le nombre d’unités dans chaque domaine. Cette méthode privilégie les grands domaines à forte variation.

La répartition « spectrale » de Bankier (1988) est fondée sur un critère fixé au niveau du domaine. On pondère les valeurs CV de domaine de $y$ au moyen de transformations de total de domaine $X_{d}^{q}$ comportant une constante de cadrage $q .$ Dans la pratique, on doit utiliser $y^{*}$ ou $x$ à la place de $y .$ Cette méthode privilégie surtout les grands domaines à fort coefficient de variation.

Choudhry, Rao et Hidiroglou (2012) proposent la méthode de répartition PNL pour l’estimation directe. Ils ont recours à la programmation non linéaire pour la recherche d’une solution. Ils définissent les critères de répartition en fixant des bornes supérieures aux valeurs CV de la variable étudiée $y$ dans chaque domaine et dans la population. Dans la pratique, $y^{*}$ ou $x$ remplace $y .$ Ce programme recherche alors la taille d’échantillon minimale $n = \sum_{d} n_{d}$ satisfaisant à ces conditions. Nous avons employé la procédure PNL dans SAS (pour Statistical Analysis System) avec l’option Newton-Raphson pour trouver la solution. Cette méthode privilégie les domaines à fort coefficient de variation sans égard à la taille de domaine $N_{d} .$

Le tableau 3.1 récapitule les modes de répartition sans modèle et les formules de calcul des tailles d’échantillon de domaine.

Tableau 3.1
Récapitulation des répartitions fondées sur des données de dénombrement et sur des paramètres
Sommaire du tableau
Le tableau montre les résultats de Récapitulation des répartitions fondées sur des données de dénombrement et sur des paramètres. Les données sont présentées selon Répartition (titres de rangée) et Calcul de la taille d’échantillon de domaine xxxxx et Niveau d’optimalité (figurant comme en-tête de colonne).
Répartition	Calcul de la taille d’échantillon de domaine $n_{d}$	Niveau d’optimalité
Égale	$n_{_{d}}^{Equ} = n / D$	Domaine
Proportionnelle	$n_{_{d}}^{Pro} = n (N_{d} / N)$	Population
Neyman	$n_{_{d}}^{Ney} = n (N_{d} S_{d} / \sum_{d = 1}^{D} N_{d} S_{d}),$ où $S_{d}$ est l’écart-type de $y$ $(y^{*}$ ou $x$ dans la pratique) dans le domaine $d .$	Population
Bankier	$n_{d}^{Ban} = n (X_{d}^{q} CV {(y)}_{d} / \sum_{d = 1}^{D} X_{d}^{q} {CV}_{d} (y)),$ où $X_{d}$ est le total de domaine de $x,$ où ${CV}_{d} (y) = S_{d} / {\bar{Y}}_{d}$ et où $q$ est une constante d’ajustement. Dans la pratique, $y^{*}$ ou $x$ remplace $y .$	Domaine
PNL	$n_{s t}^{PNL} = \min (\sum_{d = 1}^{D} n_{d}),$ , où les tolérances $CV ({\bar{y}}_{d}) \leq {CV}_{0 d}$ et $CV ({\bar{y}}_{s t}) \leq {CV}_{0}$ sont respectées. Dans la pratique, $y^{*}$ ou $x$ remplace $y .$	Population et domaine à la fois

Mentionnons brièvement d’autres modes de répartition fondée sur des paramètres. Ainsi, Longford (2006) a introduit les priorités inférentielles $P_{d}$ pour les strates $d$ et $G$ pour la population et a fait intervenir ces contraintes dans la répartition. Une autre solution est proposée par Falorsi et Righi (2008). Celle-ci n’impose pas directement des quotas, mais essaie d’aménager l’ensemble des données à l’aide d’un plan d’échantillonnage à plusieurs degrés, de sorte que l’estimation sur domaine puisse s’effectuer efficacement.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2017-06-22

Sélection de la langue

Recherche et menus

Recherche

Répartition de l’échantillon pour une estimation efficace sur petits domaines par modélisation
Section 3. Quelques modes de répartition par domaine sans modèle

3.1 Répartitions fondées sur les données de dénombrement

3.2 Répartitions fondées sur les paramètres

Répartition de l’échantillon pour une estimation efficace sur petits domaines par modélisation Section 3. Quelques modes de répartition par domaine sans modèle

3.1 Répartitions fondées sur les données de dénombrement

3.2 Répartitions fondées sur les paramètres

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Répartition de l’échantillon pour une estimation efficace sur petits domaines par modélisation
Section 3. Quelques modes de répartition par domaine sans modèle