Répartition de l’échantillon pour une estimation efficace sur petits domaines par modélisation
Section 3. Quelques modes de répartition par domaine sans modèle
Notre but dans la présente section est
de passer en revue, à titre de référence, les cinq modes de répartition déjà
présentés. Selon le genre d’information auxiliaire utilisée dans chaque cas,
ces méthodes se répartissent en deux groupes (répartitions fondées sur les
données de dénombrement et répartitions fondées sur les paramètres).
3.1 Répartitions
fondées sur les données de dénombrement
La répartition égale et la répartition
proportionnelle sont deux modes de répartition de base couramment utilisés.
Aucune n’applique de critères particuliers au niveau du domaine ou de la population.
Leur application exige seulement de l’information sur le nombre de strates
et le nombre d’unités
dans chaque strate.
Dans la répartition égale, la taille
d’échantillon
est simplement le quotient
Il est recommandé de choisir la
taille d’échantillon globale
pour que le quotient soit un nombre
entier. Dans le mode de répartition égale, on ne tient aucunement compte des
différences entre les domaines, ce qui donne des estimations imprécises de
domaine. Une borne inférieure naturelle pour la taille d’échantillon est min
Le mode de répartition proportionnelle
est fréquemment employé. On calcule alors les tailles d’échantillon de domaines
par
Si les domaines sont de taille très
variable, cela peut donner une situation où la taille d’échantillon attribuée
est
pour un ou plusieurs domaines. Il s’agit d’un obstacle au
calcul d’estimations directes fondées sur le plan de l’estimateur pour les
erreurs-types. Une solution est d’appliquer le mode de répartition mixte proposé par Costa, Satorra et Ventura (2004). Ce mode est une solution pondérée
joignant la répartition égale à la répartition proportionnelle selon la
situation. La taille combinée d’échantillon de domaines est alors
pour une constante spécifiée
Un problème secondaire se
présente quand, pour un certain nombre de domaines,
Une solution modifiée existe en
pareil cas.
3.2 Répartitions
fondées sur les paramètres
Dans ces modes de répartition, on
utilise l’information au niveau du domaine de la variable étudiée
et, dans certains cas, de la
variable auxiliaire
en corrélation avec
Les valeurs de
sont disponibles pour toutes
les unités de population. Dans la pratique, on remplace
inconnu par une variable
appropriée de substitution
comme une variable étudiée
venant d’une recherche antérieure sur le même sujet. Autre possibilité, on
obtient les valeurs de
à l’aide d’un modèle
approprié dans un petit échantillon préalable. On peut également substituer
à
Les critères de répartition
peuvent être fixés au niveau de la population seulement, au niveau du domaine
seulement ou aux deux niveaux combinés.
Dans la répartition de Neyman, on
recherche une précision optimale pour les paramètres de population
(Tschuprow 1923). On doit
alors connaître l’écart-type de la variable étudiée
ou d’une certaine variable de
substitution et le nombre d’unités dans chaque domaine. Cette méthode
privilégie les grands domaines à forte variation.
La répartition « spectrale »
de Bankier (1988) est fondée sur un critère fixé au niveau du domaine. On
pondère les valeurs CV de domaine de
au moyen de transformations
de total de domaine
comportant une constante de
cadrage
Dans la pratique, on doit
utiliser
ou
à la place de
Cette méthode privilégie
surtout les grands domaines à fort coefficient de variation.
Choudhry, Rao et Hidiroglou (2012) proposent
la méthode de répartition PNL pour l’estimation directe. Ils ont recours à la
programmation non linéaire pour la recherche d’une solution. Ils définissent
les critères de répartition en fixant des bornes supérieures aux valeurs CV de
la variable étudiée
dans chaque domaine et dans
la population. Dans la pratique,
ou
remplace
Ce programme recherche alors
la taille d’échantillon minimale
satisfaisant à ces conditions.
Nous avons employé la procédure PNL dans SAS (pour Statistical Analysis System) avec l’option Newton-Raphson pour
trouver la solution. Cette méthode privilégie les domaines à fort coefficient
de variation sans égard à la taille de domaine
Le tableau 3.1 récapitule les
modes de répartition sans modèle et les formules de calcul des tailles
d’échantillon de domaine.
Tableau 3.1
Récapitulation des répartitions fondées sur des données de dénombrement et sur des paramètres
Sommaire du tableau
Le tableau montre les résultats de Récapitulation des répartitions fondées sur des données de dénombrement et sur des paramètres. Les données sont présentées selon Répartition (titres de rangée) et Calcul de la taille d’échantillon de domaine xxxxx et Niveau d’optimalité (figurant comme en-tête de colonne).
Répartition |
Calcul de la taille d’échantillon de domaine
|
Niveau d’optimalité |
Égale |
|
Domaine |
Proportionnelle |
|
Population |
Neyman |
où
est l’écart-type de
ou
dans la pratique) dans le domaine
|
Population |
Bankier |
où
est le total de domaine de
où
et où
est une constante d’ajustement. Dans la pratique,
ou
remplace
|
Domaine |
PNL |
, où les tolérances
et
sont respectées. Dans la pratique,
ou
remplace
|
Population et domaine à la fois
|
Mentionnons brièvement d’autres modes
de répartition fondée sur des paramètres. Ainsi, Longford (2006) a introduit
les priorités inférentielles
pour les strates
et
pour la population et a fait
intervenir ces contraintes dans la répartition. Une autre solution est proposée
par Falorsi et Righi (2008). Celle-ci n’impose pas directement des quotas, mais essaie d’aménager l’ensemble des données à l’aide
d’un plan d’échantillonnage à plusieurs degrés, de sorte que l’estimation sur
domaine puisse s’effectuer efficacement.
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Ministre de l'Industrie, 2017
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : Semi-annuel
Ottawa