Estimateurs de la variance robustes pour estimateurs par la régression généralisée dans des échantillons en grappes
Section 3. Simulation
Nous avons réalisé une série d’études par
simulations pour mettre à l’épreuve les performances des nouveaux estimateurs
de la variance dans différentes populations. Dans chaque échantillon simulé,
nous avons calculé les quantités énumérées dans le tableau 3.1. Pour
évaluer les estimateurs de la variance, nous avons calculé la moyenne des
estimations de la variance, comparé ces moyennes à l’erreur quadratique moyenne
empirique, et calculé les probabilités de couverture de l’intervalle de
confiance en fonction des différentes estimations de la variance. Le
tableau 3.2 résume les plans d’échantillonnage des 18 études par
simulations. La colonne intitulée Étiquette donne les titres qui seront utilisés
dans les tableaux suivants. Les plans d’échantillonnage sont utilisés dans les
trois populations décrites ci-dessous.
Tableau 3.1
Statistiques d’intérêt pour la simulation de variance de l’estimation GREG en grappes
Sommaire du tableau
Le tableau montre les résultats de Statistiques d’intérêt pour la simulation de variance de l’estimation GREG en grappes. Les données sont présentées selon Statistiques (titres de rangée) et Description(figurant comme en-tête de colonne).
Statistiques |
Description |
|
Estimation du total à partir de l’estimateur de Horvitz-Thompson |
|
Total estimé à partir de l’estimateur GREG |
|
Variance empirique |
|
Estimateur de la variance fondé sur le plan en supposant un échantillonnage de Poisson aux deux degrés de Särndal et coll. (1992) dans (2.3) |
|
Estimateur de la variance avec remise dans (2.4) |
|
Estimateur de la variance par linéarisation par la méthode du jackknife de Yung et Rao (1996) dans (2.5) |
|
Estimateur sandwich dans (2.8) |
|
Premier estimateur sandwich à la matrice chapeau ajustée dans (2.11) |
|
Estimateur de la variance par la méthode du jackknife dans (2.6) |
|
Première approximation de l’estimateur de la variance par la méthode du jackknife dans (2.13) |
|
Deuxième approximation de l’estimateur de la variance par la méthode du jackknife dans (2.14) |
|
Estimateur sandwich avec ajustement de la population finie |
|
Premier estimateur sandwich ajusté à la matrice chapeau avec correction de la population finie |
|
Estimateur de la variance jackknife par la méthode du jackknife avec correction de population finie |
|
Première approximation par la méthode du jackknife avec correction de population finie |
|
Deuxième approximation par la méthode du jackknife avec ajustement de population finie |
3.1 Données
Nous avons effectué des simulations sur trois populations pour évaluer
les performances fondées sur le plan des estimateurs de la variance dans
différentes situations. Dans la première population, nous avons étudié les
performances des estimateurs de la variance en cas de grande fraction de
sondage au premier degré et d’échantillon de taille moyenne. La deuxième étude
par simulations portait sur les performances des estimateurs de la variance
dans un jeu de données relativement compliqué et une petite taille d’échantillon
au premier degré. La dernière étude par simulations montre les performances des
estimateurs de la variance dans de grands échantillons.
Tableau 3.2
Plans des simulations pour trois populations
Sommaire du tableau
Le tableau montre les résultats de Plans des simulations pour trois populations Étiquette, Population, Échantillon au premier degré, (équation), Échantillon au deuxième degré et Nbre d’échantillons(figurant comme en-tête de colonne).
|
Étiquette |
Population |
Échantillon au premier degré |
|
Échantillon au deuxième degré |
Nombre d’échantillons |
1 |
EAS fixe |
Troisième année |
EASSR |
25 |
|
1 000 |
2 |
EAS fixe |
Troisième année |
EASSR |
50 |
|
1 000 |
3 |
EAS epsem |
Troisième année |
EASSR |
25 |
|
1 000 |
4 |
EAS epsem |
Troisième année |
EASSR |
50 |
|
1 000 |
5 |
PPT epsem |
Troisième année |
PPTSR |
25 |
|
1 000 |
6 |
PPT epsem |
Troisième année |
PPTSR |
50 |
|
1 000 |
7 |
EAS fixe |
ACS |
EASSR |
3 |
|
5 000 |
8 |
EAS fixe |
ACS |
EASSR |
15 |
|
5 000 |
9 |
EAS epsem |
ACS |
EASSR |
3 |
|
5 000 |
10 |
EAS epsem |
ACS |
EASSR |
15 |
|
5 000 |
11 |
PPT epsem |
ACS |
PPTSR |
3 |
|
5 000 |
12 |
PPT epsem |
ACS |
PPTSR |
15 |
|
5 000 |
13 |
EAS fixe |
Simulée |
EASSR |
300 |
|
1 000 |
14 |
EAS fixe |
Simulée |
EASSR |
1 500 |
|
100 |
15 |
EAS epsem |
Simulée |
EASSR |
300 |
|
1 000 |
16 |
EAS epsem |
Simulée |
EASSR |
1 500 |
|
100 |
17 |
PPT epsem |
Simulée |
PPTSR |
300 |
|
1 000 |
18 |
PPT epsem |
Simulée |
PPTSR |
1 500 |
|
100 |
3.1.1 Population d’élèves de troisième année
La première étude par simulations a
utilisé la population d’élèves de troisième année de l’annexe B.6 de Valliant et coll. (2000).
Ce jeu de données contenait les résultats en mathématiques de 2 427 élèves
de troisième année dans 135 écoles. Le nombre relativement faible d’écoles de
la population et le nombre assez constant d’élèves de chaque école faisaient de
cette population un objet idéal pour l’étude d’échantillons avec de grandes
fractions d’échantillonnage.
Au moyen de l’estimation par la régression
généralisée (GREG), nous avons estimé la note moyenne en mathématiques des
élèves de troisième année. Au total, nous avons sélectionné 1 000 échantillons
dans chacun des six plans d’échantillonnage du tableau 3.2. Dans le
premier plan d’échantillonnage, nous avons sélectionné 1 000 échantillons
aléatoires simples sans remise (EASSR)
dans 25 écoles. Dans chaque école échantillonnée, nous avons sélectionné
exactement cinq élèves par EASSR.
Étant donné que le nombre d’élèves variait d’une école à l’autre, le plan d’échantillonnage
a donné lieu à différentes probabilités inconditionnelles de sélection, mais à
un échantillon fixe de 125 élèves. Le deuxième plan d’échantillonnage était
semblable au premier, mis à part le fait que nous avons sélectionné 50 écoles.
Parce que le choix de 50 des 135 écoles a donné lieu à une grande fraction
de sondage au premier degré de 0,37, un facteur de correction de
population finie était nécessaire. Les échantillons
25 et de 50 écoles peuvent tous
deux être considérés comme étant de taille « moyenne ».
Dans le troisième plan d’échantillonnage,
nous avons sélectionné 1 000 échantillons aléatoires simples dans 25 écoles
sans remise. Au sein de chaque école échantillonnée, nous avons sélectionné des
élèves à un taux constant de
ce qui a produit 1 000 échantillons
avec des tailles aléatoires centrées autour de 125 élèves. Dans ce plan, chaque
élève avait une probabilité de sélection inconditionnelle égale. Le quatrième
plan d’échantillonnage était semblable au troisième, mis à part le fait que
nous avons sélectionné 50 écoles. Les tailles d’échantillon étaient également
aléatoires dans ce plan, avec une moyenne de 250 élèves. Comme les troisième et
quatrième plans d’échantillonnage ont donné à chaque unité la même probabilité
de sélection, ils sont intitulés EAS
epsem (pour l’anglais equal
probability selection, soit mécanisme d’échantillonnage avec probabilités
égales) dans les tableaux suivants.
Dans le cinquième plan, nous avons
sélectionné 1 000 échantillons dans 25 écoles avec des probabilités
proportionnelles au nombre d’élèves de chaque école. Dans chaque école
échantillonnée, nous avons sélectionné exactement cinq élèves, ce qui a donné
1 000 échantillons comprenant exactement 125 élèves chacun. Le sixième
plan d’échantillonnage était semblable au cinquième, mis à part le fait que
nous avons sélectionné 50 écoles. Nous avons sélectionné 1 000 échantillons
de 250 élèves au moyen de ce plan. Les cinquième et sixième plans sont des
plans d’échantillonnage avec probabilités égales (ou epsem). Comme les deuxième et quatrième plans d’échantillonnage,
ce plan d’échantillonnage comportait également une grande fraction d’échantillonnage
et justifiait la nécessité d’un facteur de correction de la population finie
aux fins d’ajustement des estimateurs de la variance.
À partir de chaque échantillon, nous avons
estimé les notes moyennes en mathématiques pour la population finie au moyen d’un
estimateur GREG et en supposant que le nombre d’élèves de la population était
connu. Le modèle auxiliaire visait à reproduire le modèle de régression
linéaire en grappes de la section 9.6 de Valliant et coll. (2000).
Les onze variables explicatives utilisées dans la modélisation des résultats en
mathématiques de chaque élève étaient : une ordonnée à l’origine, le sexe
(masculin ou féminin), l’origine ethnique (blanc/asiatique, noir, autochtone
des États-Unis/autre ou hispanique), si la langue parlée à la maison est celle
de l’examen (toujours, parfois/jamais), le type de collectivité (banlieue de
petite ou grande ville), et inscription dans un établissement d’enseignement.
On a divisé le total des résultats en mathématiques estimés au moyen de l’estimateur
GREG par le nombre d’élèves de la population, soit 2 427, pour obtenir le
résultat moyen. Le résultat moyen de la population est de 477,7. Pour l’ensemble
de la population, la valeur de R au carré pour le modèle linéaire au niveau des
élèves était de 0,9735, ce qui indique une relation linéaire très forte.
3.1.2 Population de l’Enquête sur les collectivités
américaines (American Community Survey ou ACS)
La deuxième étude par simulations a
utilisé les données du fichier sommaire 3 du recensement de 2000 et celles du
fichier sommaire 2005
2009 de l’Enquête sur les collectivités américaines (ACS). Elle
visait à estimer le nombre total de logements dans l’État américain de l’Alabama,
selon le fichier sommaire de l’ACS. Les nombres des groupes d’îlots du
recensement de 2000 ont été utilisés comme covariables dans le modèle
auxiliaire.
Pour créer la population, on a d’abord
extrait toutes les données sur les groupes d’îlots du fichier sommaire de l’ACS
et du fichier sommaire 3 du recensement de 2000. On a ensuite fusionné les deux
fichiers au niveau du groupe d’îlots. Les groupes d’îlots comptant 1 000 logements
ou plus dans le recensement de 2000 ont été supprimés, car leurs
caractéristiques différaient de celles de la majorité des îlots. Dans de
nombreux plans d’échantillonnage, les unités de grande taille comme celles-ci
seraient placées dans une strate à tirage complet distincte et ne
contribueraient pas à la variance des estimations. On a également retiré les
groupes d’îlots ayant connu une croissance extrême du nombre total de
logements. Plus précisément, les groupes d’îlots comptant plus de 10 unités en
plus du double du nombre du recensement de 2000 ont été supprimés.
Les grappes étaient définies comme des
comtés et les groupes d’îlots étaient traités comme des unités. Le fait de
traiter le groupe d’îlots comme une unité est motivé par la tâche commune
consistant à sélectionner l’échantillon d’îlots, à en établir la liste, puis à
utiliser les listes pour estimer le nombre total de logements dans la
population finie.
Les grappes comptant moins de 10 groupes d’îlots
ou plus de 120 groupes d’îlots ont été retirées de la base de sondage des
grappes. En tout, il y avait 61 grappes (comtés) contenant un total de
2 051 groupes d’îlots et 1 109 499 logements dans le jeu de
données vérifié. Au total, six comtés et 1 278 groupes d’îlots comprenant
1 030 471 logements ont été retirés du fichier de l’Alabama.
La figure 3.1 montre deux diagrammes
de dispersion. Le premier graphique montre le nombre total de logements dans le
groupe d’îlots déclaré dans le fichier sommaire de l’ACS comme une fonction du
nombre de logements du recensement de 2000. Chaque point représente un des
2 051 groupes d’îlots de la population finie. La ligne diagonale est un
lisseur non paramétrique, qui indique une relation forte entre les deux
variables. Le graphique indique également des signes d’hétéroscédasticité parce
que les points semblent s’éloigner à mesure que le nombre du recensement
de 2000 augmente. Le deuxième diagramme montre les résidus obtenus par la
régression du nombre de logements du recensement de 2000 sur le nombre de
logements de l’ACS au moyen des moindres carrés ordinaires (MCO) représentés
par rapport au nombre de logements de l’ACS. À mesure que le nombre de
logements déclaré dans le fichier de l’ACS augmente, les prédictions du modèle
semblent sous-estimer considérablement le nombre réel de logements. Cela semble
indiquer un certain degré de non-linéarité dans la fonction moyenne. De plus,
la variance est remarquablement hétéroscédastique.
Description de la figure 3.1
Figure présentant deux diagrammes de dispersion pour la population de l’ACS. Le premier graphique illustre le nombre de logements de l’ACS sur l‘axe des y, allant de 0 à 1 500, en fonction du nombre de logements du recensement de 2000 sur l’axe des x, allant de 0 à 1 000. Une ligne représentant un lisseur non paramétrique traverse le nuage de points et montre une relation forte entre les deux variables. Il y a des signes d’hétéroscédasticité parce que la dispersion des points augmente lorsque le nombre de logements du recensement de 2000 augmente. Le deuxième graphique présente les résidus sur l’axe des y, allant de -200 à 800, en fonction du nombre de logements de l’ACS sur l’axe des x, allant de 0 à 1 500. Une ligne représentant un lisseur non paramétrique traverse le nuage de points. À mesure que le nombre de logements de l’ACS augmente, les prédictions du modèle semblent sous-estimer considérablement le nombre réel de logements. Cela semble indiquer un certain degré de non-linéarité dans la fonction moyenne. De plus, la variance est remarquablement hétéroscédastique.
Comme dans la première étude par simulations, nous avons essayé six
plans d’échantillonnage différents. Nous avons sélectionné 5 000 échantillons
dans chacun des six mécanismes de sélection indiqués au tableau 3.2. Dans
le premier plan d’échantillonnage, nous avons sélectionné 5 000 échantillons
aléatoires simples dans 3 grappes sans remise. Dans les grandes enquêtes
nationales, il n’est pas rare de sélectionner un petit nombre d’unités
primaires d’échantillonnage dans chaque strate. Dans ce cas, nous traitons l’Alabama
comme une seule strate de plan d’échantillonnage et ses 61 comtés comme des
grappes. Trois comtés de la strate ont été échantillonnés. Dans chaque grappe,
nous avons sélectionné neuf groupes d’îlots au moyen d’un EASSR. Le deuxième plan était
similaire, mais avec 15 grappes et 9 groupes d’îlots par grappe. Les deux
premiers plans d’échantillonnage ont produit des pondérations très variables.
Les autres plans (lignes 9 à 12) étaient parallèles à ceux des lignes 3 à 6
pour la population d’élèves de troisième année. Les tailles d’échantillon de
3 et 15 sont petites, si bien
que les propriétés de grands échantillons théoriques sont moins susceptibles de
se vérifier.
À partir de chaque échantillon, nous avons estimé le nombre total de
logements dans la population finie à l’aide d’un estimateur GREG. Le modèle
auxiliaire comprenait une ordonnée à l’origine et le nombre de logements du
recensement de 2000; l’hétéroscédasticité mentionnée ci-dessus n’a pas été
prise en compte dans l’estimation par la régression généralisée. Pour l’ensemble
de la population, la valeur de R au carré était de 0,819, ce qui indique encore
une fois une relation linéaire forte.
3.1.3
Population simulée
On a créé une population avec un grand
nombre de grappes pour évaluer les caractéristiques asymptotiques des
estimateurs de la variance. Produites à l’aide d’un modèle linéaire classique,
30 000 grappes ont été créées au total, chacune ayant un nombre aléatoire
d’unités. On a déterminé le nombre d’unités de chaque grappe en ajoutant trois
à un nombre entier aléatoire uniforme entre 0 et 7. La taille des grappes
créées varie de 3 à 10 unités. Au total, la population contenait 195 164 unités
dans 30 000 grappes. Pour chaque unité, on a créé une covariable positive
en tant que
où
est une variable aléatoire
normale avec une moyenne de 0 et un écart-type de 1. On a créé une réponse
aléatoire de sorte que
La figure 3.2 montre des
diagrammes de dispersion de la relation entre
et
pour la population finie.
Description de la figure 3.2
Figure présentant deux diagrammes de dispersion pour la population simulée. Pour le premier graphique, l’axe vertical présente y, allant de 0 à 150 000, en fonction de x, allant de 0 à 70 000. Une ligne représentant un lisseur non paramétrique traverse le nuage de points et montre une relation forte entre les deux variables. Le deuxième graphique présente les résidus sur l’axe des y, allant de -60 000 à 40 000, en fonction de y, allant de 0 à 150 000. Une ligne représentant un lisseur non paramétrique traverse le nuage de points. À mesure que y augmente, les prédictions du modèle semblent sous-estimer y. De plus, la variance semble hétéroscédastique.
Nous avons sélectionné des échantillons au moyen des six différents
mécanismes d’échantillonnage avec probabilités aux lignes 13 à 18 du
tableau 3.2. Les types de plans d’échantillonnage sont parallèles à ceux
utilisés pour les populations d’élèves de troisième année et de l’ACS. Dans les
plans d’échantillonnage 14, 16 et 18, nous avons sélectionné 100 échantillons
aléatoires simples de 1 500 grappes sans remise. Nous n’avons sélectionné
que 100 échantillons, car le traitement et la sélection informatiques de chaque
échantillon prenaient trop de temps. Étant donné que les tailles d’échantillon
de
300 et 1 500 sont grandes,
les propriétés de grands échantillons théoriques devraient se vérifier.
À partir de chaque échantillon, nous avons estimé le total de la
réponse au moyen d’un estimateur GREG. La population réelle finie était de
839 149 969 personnes. Le modèle auxiliaire comprenait une ordonnée à
l’origine et
avec
Pour l’ensemble de la
population, la valeur de R au carré était de 0,953, ce qui indique une relation
linéaire très forte. La figure 3.2 présente un diagramme de dispersion de
la population ainsi qu’un graphique des résidus basé sur une régression des
moindres carrés ordinaires de
sur
pour l’ensemble de la
population. Des éléments indiquent de manière probante l’hétéroscédasticité des
erreurs.
3.2 Résultats
Nous avons examiné le biais, la variabilité et la couverture de l’intervalle
de confiance des estimateurs de la variance nouveaux et anciens. Les tableaux
présentent seulement certaines des simulations pour des questions d’espace. Le
tableau 3.3 montre les moyennes de l’estimateur
et de l’estimateur GREG ainsi
que les ratios des valeurs moyennes des estimateurs de la variance par rapport
aux erreurs quadratiques moyennes empiriques pour toutes les populations
et les combinaisons de taille d’échantillon dans toutes les simulations. L’estimateur
et l’estimateur GREG sont approximativement
sans biais, mais l’estimateur GREG est beaucoup plus efficace.
Tableau 3.3
Résultats de la simulation pour les estimations des moyennes et des estimateurs de la variance de trois populations et six plans d’échantillonnage dans chaque population. Les valeurs des lignes des estimateurs de la variance sont des ratios de la variance moyenne estimée par rapport à la l’erreur quadratique moyenne empirique de l’estimateur GREG. Voir la description des estimateurs de la variance dans le tableau 3.1
Sommaire du tableau
Le tableau montre les résultats de Résultats de la simulation pour les estimations des moyennes et des estimateurs de la variance de trois populations et six plans d’échantillonnage dans chaque population. Les valeurs des lignes des estimateurs de la variance sont des ratios de la variance moyenne estimée par rapport à la l’erreur quadratique moyenne empirique de l’estimateur GREG. Voir la description des estimateurs de la variance dans le tableau 3.1. Les données sont présentées selon Estimateur (titres de rangée) et EAS fixe, EAS epsem et PPT epsem(figurant comme en-tête de colonne).
Estimateur |
EAS fixe |
EAS epsem |
PPT epsem |
Population des élèves de troisième année |
Population de l’ACS (nombres en milliers) |
Population simulée (nombres en millions) |
Population des élèves de troisième année |
Population de l’ACS (nombres en milliers) |
Population simulée (nombres en millions) |
Population des élèves de troisième année |
Population de l’ACS (nombres en milliers) |
Population simulée (nombres en millions) |
25 |
50 |
3 |
15 |
300 |
1 500 |
25 |
50 |
3 |
15 |
300 |
1 500 |
25 |
50 |
3 |
15 |
300 |
1 500 |
moyenne |
477,23 |
477,11 |
1 119,13 |
1 108,23 |
838,91 |
838,71 |
476,29 |
476,85 |
1 112,89 |
1 113,89 |
838,13 |
843,13 |
477,31 |
477,75 |
1 111,48 |
1 109,02 |
838,74 |
839,06 |
eqm |
663,12 |
264,75 |
181 329,24 |
27 650,01 |
1 588,43 |
250,20 |
2 013,90 |
981,54 |
201 618,77 |
32 926,98 |
2 303,19 |
563,77 |
142,93 |
53,17 |
15 991,69 |
2 619,32 |
1 218,73 |
253,13 |
moyenne |
474,27 |
476,37 |
1 081,68 |
1 103,34 |
838,57 |
839,10 |
476,95 |
477,24 |
1 104,45 |
1 108,45 |
838,81 |
840,01 |
477,50 |
477,85 |
1 106,36 |
1 108,46 |
839,39 |
839,08 |
eqm |
218,96 |
66,66 |
11 220,86 |
921,82 |
156,29 |
23,07 |
114,08 |
50,10 |
2 111,84 |
408,19 |
117,18 |
19,63 |
121,57 |
41,32 |
1 874,39 |
352,65 |
105,64 |
25,24 |
|
0,76 |
0,87 |
2,70 |
0,90 |
0,91 |
1,11 |
0,73 |
0,82 |
0,44 |
0,83 |
0,91 |
1,13 |
0,66 |
0,91 |
0,53 |
0,92 |
1,01 |
0,89 |
|
0,75 |
1,11 |
1,17 |
0,98 |
0,94 |
1,13 |
0,79 |
1,06 |
0,68 |
1,03 |
0,91 |
1,17 |
0,73 |
1,19 |
0,87 |
1,14 |
1,01 |
0,90 |
|
0,88 |
1,16 |
2,18 |
0,91 |
0,91 |
1,13 |
0,85 |
1,10 |
0,65 |
0,99 |
0,92 |
1,15 |
0,78 |
1,24 |
0,79 |
1,11 |
1,02 |
0,90 |
|
0,87 |
1,15 |
2,80 |
1,00 |
0,91 |
1,13 |
0,82 |
1,08 |
0,43 |
0,92 |
0,92 |
1,14 |
0,74 |
1,22 |
0,53 |
1,03 |
1,02 |
0,90 |
|
1,26 |
1,32 |
6,09 |
1,32 |
1,03 |
1,15 |
1,09 |
1,25 |
0,84 |
1,08 |
0,96 |
1,16 |
0,95 |
1,36 |
0,89 |
1,15 |
1,07 |
0,91 |
|
2,22 |
1,54 |
17 191,52 |
1,85 |
1,50 |
1,17 |
1,50 |
1,46 |
2,36 |
1,27 |
1,03 |
1,18 |
1,23 |
1,54 |
1,64 |
1,29 |
1,13 |
0,93 |
|
2,03 |
1,49 |
4 678,25 |
1,47 |
1,48 |
1,17 |
1,44 |
1,43 |
1,37 |
1,19 |
1,03 |
1,18 |
1,19 |
1,51 |
1,05 |
1,21 |
1,12 |
0,93 |
|
2,22 |
1,55 |
17 190,86 |
1,72 |
1,50 |
1,17 |
1,56 |
1,49 |
3,07 |
1,36 |
1,03 |
1,18 |
1,28 |
1,57 |
2,35 |
1,38 |
1,13 |
0,93 |
|
0,71 |
0,73 |
2,66 |
0,76 |
0,90 |
1,07 |
0,67 |
0,68 |
0,41 |
0,70 |
0,91 |
1,09 |
0,60 |
0,74 |
0,49 |
0,68 |
1,01 |
0,85 |
|
1,02 |
0,83 |
5,79 |
0,99 |
1,02 |
1,09 |
0,88 |
0,79 |
0,80 |
0,82 |
0,96 |
1,11 |
0,76 |
0,83 |
0,83 |
0,76 |
1,05 |
0,86 |
|
1,81 |
0,97 |
16 346,03 |
1,40 |
1,48 |
1,11 |
1,22 |
0,92 |
2,25 |
0,96 |
1,02 |
1,12 |
0,99 |
0,93 |
1,52 |
0,85 |
1,12 |
0,88 |
|
1,66 |
0,94 |
4 448,17 |
1,11 |
1,47 |
1,11 |
1,17 |
0,90 |
1,30 |
0,90 |
1,01 |
1,12 |
0,95 |
0,92 |
0,97 |
0,80 |
1,11 |
0,88 |
|
1,81 |
0,98 |
16 345,41 |
1,30 |
1,48 |
1,11 |
1,27 |
0,94 |
2,92 |
1,03 |
1,02 |
1,13 |
1,03 |
0,95 |
2,19 |
0,91 |
1,12 |
0,88 |
Les performances des estimateurs de la
variance dépendent du plan d’échantillonnage et de la population. Certaines des
estimations du tableau 3.3 de la population de l’ACS avec un échantillon
aléatoire simple de 3 grappes et 9 unités dans chaque grappe se démarquent
comme étant très peu fiables. Les inverses des probabilités de sélection
varient considérablement pour ce plan d’échantillonnage. La variabilité de ces
pondérations, conjuguée à certaines observations extrêmes dans la population,
cause l’instabilité de certains estimateurs de la variance. Pour être plus
précis,
sont des surestimations extrêmes
en moyenne. Ces six estimateurs contiennent des ajustements explicites ou
implicites de la matrice chapeau qui peuvent être assez grands et accroissent
considérablement les estimateurs de la variance lorsqu’ils sont conjugués à de
grands poids d’échantillonnage. En revanche,
qui a également une matrice
chapeau ajustée, a des performances satisfaisantes pour toutes les populations
et toutes les tailles d’échantillon. Il faut souligner le résultat selon lequel
est une bien moindre
surestimation de l’erreur quadratique moyenne dans la combinaison (ACS, EAS fixe,
3,
9) tandis que les autres
estimateurs à la matrice chapeau ajustée sont des surestimations extrêmes. Les
estimateurs
et, dans une moindre mesure,
et
tendent à des sous-estimations
aux plus petites tailles d’échantillon dans les populations d’élèves de
troisième et de l’ACS et pour tous les plans d’échantillonnage dans ces
populations, mais ce problème diminue en cas d’échantillons de grande taille.
Description de la figure 3.3
Figure présentant deux ensembles, pour des échantillons de taille
et
respectivement, de diagrammes de quartiles des ratios d’estimations d’erreurs-types par rapport aux erreurs-types empiriques pour 1 000 échantillons aléatoires simples de la population d’élèves de troisième année. Pour chaque graphique, il y a 8 diagrammes de quartiles pour représenter ET.J1, ET.Jack, ET.J, ET.D, ET.r, ET.JL, ET.wr et ET.g. L’étendue des données va de 0 à 14 pour
et de 0 à 2,5 pour . Un ratio de 1 signifie que la variance estimée est égale à la variance empirique. Certains échantillons donnent de grandes estimations de l’ET, mais la majorité des échantillons sont beaucoup plus près de la variance empirique. Le degré de surestimation et l’incidence des valeurs extrêmes diminuent considérablement pour
. Les estimateurs à la matrice chapeau ajustée ont également tendance à une légère surestimation, comme en témoignent les rectangles déplacés au-dessus des lignes de référence tracées à 1.
Les diagrammes de quartiles de la
figure 3.3 montrent mieux la variabilité des estimateurs pour les échantillons
aléatoires simples de taille
25 et 50 de la population d’élèves
de troisième année. Les diagrammes de quartiles représentent les erreurs-types
(ET) estimées en tant que fraction de l’ET empirique pour les échantillons de
chaque simulation. Un ratio de 1 signifie que la variance estimée est
égale à la variance empirique. Certains échantillons donnent de grandes
estimations de l’ET, mais la majorité des échantillons sont beaucoup plus près
de la variance empirique. Le degré de surestimation et l’incidence des valeurs
extrêmes diminuent considérablement pour la plus grande taille d’échantillon,
comme la comparaison des nombres le montre visiblement. Les estimateurs à la
matrice chapeau ajustée ont également tendance à légèrement surestimer la
variance véritable, comme en témoignent les rectangles déplacés au-dessus des
lignes de référence tracées à 1. Cela peut constituer un avantage pour la
couverture de l’intervalle de confiance.
Le tableau 3.4 présente les
sommaires à six nombres des ratios des estimations de l’ET,
à la racine carrée de la
variance empirique,
pour la population d’élèves de
troisième année dans quatre des plans d’échantillonnage. Comme l’indique la
valeur médiane des ratios de
et
ils sont généralement centrés
près des ET empiriques, mais ils peuvent avoir des valeurs extrêmement grandes
dans certains échantillons qui influent sur leurs moyennes. (Le problème des
valeurs aberrantes est encore plus prononcé dans la population de l’ACS, mais
les détails n’en sont pas présentés ici.) Les estimateurs les moins touchés par
les extrêmes sont
et
Cependant, les estimateurs qui
incorporent les corrections pour population finie (CPF) sont souvent des
sous-estimations, sauf en cas d’EAS
et
25.
Tableau 3.4
Résumés à six nombres pour d’autres estimateurs d’erreurs-types pour la population d’élèves de troisième année dans quatre plans d’échantillonnage. est la variance empirique dans les échantillons simulés. Voir la description des estimateurs de la variance dans le tableau 3.1
Sommaire du tableau
Le tableau montre les résultats de Résumés à six nombres pour d’autres estimateurs d’erreurs-types pour la population d’élèves de troisième année dans quatre plans d’échantillonnage. (équation) est la variance empirique dans les échantillons simulés. Voir la description des estimateurs de la variance dans le tableau 3.1 (équation) et Distribution de (équation) , calculées selon Min. , 1 qu. , Médiane , Moyenne , 3 qu. et Max. unités de mesure (figurant comme en-tête de colonne).
|
|
Distribution de |
Min. |
1er qu. |
Médiane |
Moyenne |
3e qu. |
Max. |
EAS 25 |
|
0,46 |
0,71 |
0,82 |
0,86 |
0,96 |
3,59 |
|
0,48 |
0,73 |
0,84 |
0,87 |
0,97 |
1,71 |
|
0,48 |
0,75 |
0,88 |
0,92 |
1,03 |
3,75 |
|
0,47 |
0,74 |
0,87 |
0,92 |
1,02 |
3,85 |
|
0,53 |
0,84 |
1,00 |
1,08 |
1,20 |
6,84 |
|
0,59 |
0,96 |
1,16 |
1,31 |
1,43 |
14,47 |
|
0,57 |
0,93 |
1,13 |
1,26 |
1,38 |
13,69 |
|
0,59 |
0,97 |
1,17 |
1,32 |
1,44 |
14,48 |
|
0,42 |
0,67 |
0,79 |
0,83 |
0,92 |
3,48 |
|
0,48 |
0,76 |
0,90 |
0,97 |
1,08 |
6,17 |
|
0,53 |
0,87 |
1,05 |
1,18 |
1,29 |
13,06 |
|
0,52 |
0,84 |
1,02 |
1,14 |
1,25 |
12,35 |
|
0,54 |
0,88 |
1,06 |
1,19 |
1,30 |
13,07 |
EAS 50 |
|
0,62 |
0,84 |
0,92 |
0,94 |
1,01 |
1,64 |
|
0,67 |
0,95 |
1,04 |
1,06 |
1,15 |
1,73 |
|
0,68 |
0,96 |
1,06 |
1,08 |
1,18 |
1,94 |
|
0,68 |
0,96 |
1,06 |
1,07 |
1,17 |
1,95 |
|
0,71 |
1,01 |
1,13 |
1,15 |
1,26 |
2,20 |
|
0,75 |
1,08 |
1,20 |
1,24 |
1,35 |
2,88 |
|
0,74 |
1,06 |
1,18 |
1,22 |
1,33 |
2,79 |
|
0,75 |
1,09 |
1,21 |
1,24 |
1,36 |
2,86 |
|
0,54 |
0,76 |
0,84 |
0,85 |
0,93 |
1,55 |
|
0,56 |
0,80 |
0,89 |
0,91 |
1,00 |
1,75 |
|
0,59 |
0,86 |
0,95 |
0,98 |
1,07 |
2,29 |
|
0,58 |
0,84 |
0,94 |
0,97 |
1,06 |
2,22 |
|
0,60 |
0,86 |
0,96 |
0,99 |
1,08 |
2,27 |
PPT 25 |
|
0,48 |
0,71 |
0,79 |
0,80 |
0,88 |
1,33 |
|
0,51 |
0,76 |
0,84 |
0,84 |
0,92 |
1,30 |
|
0,50 |
0,76 |
0,86 |
0,87 |
0,96 |
1,46 |
|
0,49 |
0,75 |
0,84 |
0,85 |
0,94 |
1,43 |
|
0,53 |
0,83 |
0,94 |
0,96 |
1,06 |
1,66 |
|
0,59 |
0,94 |
1,06 |
1,09 |
1,21 |
2,15 |
|
0,57 |
0,92 |
1,04 |
1,07 |
1,18 |
2,10 |
|
0,60 |
0,96 |
1,08 |
1,11 |
1,23 |
2,19 |
|
0,43 |
0,67 |
0,76 |
0,76 |
0,84 |
1,30 |
|
0,47 |
0,75 |
0,84 |
0,86 |
0,95 |
1,51 |
|
0,52 |
0,84 |
0,95 |
0,98 |
1,08 |
1,90 |
|
0,51 |
0,82 |
0,93 |
0,96 |
1,06 |
1,86 |
|
0,53 |
0,86 |
0,97 |
1,00 |
1,10 |
1,93 |
PPT 50 |
|
0,72 |
0,88 |
0,95 |
0,95 |
1,01 |
1,28 |
|
0,78 |
1,00 |
1,09 |
1,09 |
1,16 |
1,47 |
|
0,81 |
1,01 |
1,11 |
1,11 |
1,19 |
1,52 |
|
0,80 |
1,00 |
1,09 |
1,09 |
1,18 |
1,50 |
|
0,84 |
1,06 |
1,15 |
1,16 |
1,25 |
1,64 |
|
0,88 |
1,11 |
1,22 |
1,23 |
1,33 |
1,83 |
|
0,88 |
1,10 |
1,21 |
1,22 |
1,31 |
1,81 |
|
0,89 |
1,13 |
1,23 |
1,24 |
1,34 |
1,85 |
|
0,62 |
0,78 |
0,85 |
0,85 |
0,92 |
1,16 |
|
0,65 |
0,82 |
0,90 |
0,90 |
0,97 |
1,28 |
|
0,68 |
0,87 |
0,95 |
0,96 |
1,03 |
1,43 |
|
0,67 |
0,86 |
0,94 |
0,95 |
1,02 |
1,42 |
|
0,69 |
0,88 |
0,96 |
0,97 |
1,04 |
1,44 |
Enfin, le tableau 3.5 montre la
couverture de l’intervalle de confiance de 95 % pour tous les estimateurs
fondés sur les distributions
Cela signifie que nous avons
calculé
où
est le 97,5e percentile d’une distribution
avec
degrés de liberté. Nous avons
ensuite constaté la fréquence à laquelle la valeur vraie tombait en dessous,
au-dessus et à l’intérieur de cette fourchette. En plus des nouveaux et des
anciens estimateurs, le tableau 3.5 montre également la couverture de l’intervalle
de confiance atteinte quand la variance empirique,
a été utilisée pour former les
intervalles de confiance. Idéalement, le total de la population doit se situer
dans l’intervalle de confiance estimé à 95 % pour 95 % des
échantillons. Le total réel doit être inférieur aux limites de confiance de
95 % pour 2,5 % des échantillons et supérieur aux limites de
confiance pour le même pourcentage d’échantillons.
Les estimateurs par la méthode du jackknife
et
donnent des taux de couverture
supérieurs à ceux des autres estimateurs de la variance, car ils sont plus
grands. Dans les petits échantillons, les estimateurs par la méthode du
jackknife couvrent au-dessus du niveau nominal. Les estimateurs de la variance
classiques,
et
donnent une couverture
insuffisante dans un certain nombre de cas, bien que leur couverture ait
presque toujours été supérieure à 90 %. Il faut noter que
est généralement meilleur que
en raison de l’ajustement de la
matrice chapeau qui rend
plus grand.
Les estimateurs de la variance qui intègrent des ajustements de matrice
chapeau
et
augmentent généralement les taux
de couverture de l’intervalle de confiance par rapport aux autres choix. Cet
avantage était particulièrement remarquable pour la population de l’ACS
population où, par exemple,
couvre dans moins de 90 % des
échantillons dans les combinaisons
3), (EAS epsem,
3), et (EAS epsem,
15). Bien qu’en principe, une CPF semble utile dans certaines
combinaisons de population et de tailles d’échantillon, les intervalles de
confiance fondés sur des estimateurs de la variance avec CPF ont des taux de couverture
inférieurs à ceux sans CPF. Par
exemple, dans l’ACS (EAS epsem,
15) les taux de couverture de
et
vont de 86,1 à 90,6 %
tandis que les versions sans CPF
vont de 90,2 à 93,4 %.
Tableau 3.5
Couverture de l’intervalle de confiance de 95 % pour les totaux de population fondés sur des distributions et d’autres estimateurs de la variance. Voir la description des estimateurs de la variance dans le tableau 3.1
Sommaire du tableau
Le tableau montre les résultats de Couverture de l’intervalle de confiance de 95 % pour les totaux de population fondés sur des distributions et d’autres estimateurs de la variance. Voir la description des estimateurs de la variance dans le tableau 3.1. Les données sont présentées selon Est. variance (titres de rangée) et Troisième année, ACS, Simulation , ACS , Inf., Moy. et Sup.(figurant comme en-tête de colonne).
Est. variance |
Troisième année |
ACS |
Simulation |
Troisième année |
ACS |
Simulation |
Inf. |
Moy. |
Sup. |
Inf. |
Moy. |
Sup. |
Inf. |
Moy. |
Sup. |
Inf. |
Moy. |
Sup. |
Inf. |
Moy. |
Sup. |
Inf. |
Moy. |
Sup. |
EAS 25 |
EAS 3 |
EAS 300 |
EAS 50 |
EAS 15 |
EAS 1 500 |
|
2,9 |
95,6 |
1,5 |
0,7 |
99,3 |
0,0 |
2,7 |
95,0 |
2,3 |
3,4 |
95,1 |
1,5 |
3,3 |
95,8 |
1,0 |
1,0 |
96,0 |
3,0 |
|
7,4 |
90,7 |
1,9 |
2,4 |
97,3 |
0,4 |
4,3 |
93,5 |
2,2 |
5,9 |
92,8 |
1,3 |
6,6 |
92,3 |
1,0 |
1,0 |
95,0 |
4,0 |
|
7,0 |
90,5 |
2,5 |
9,2 |
88,8 |
2,0 |
3,9 |
92,8 |
3,3 |
4,1 |
95,0 |
0,9 |
7,5 |
91,0 |
1,5 |
1,0 |
96,0 |
3,0 |
|
5,5 |
93,2 |
1,3 |
6,5 |
92,1 |
1,4 |
4,4 |
93,4 |
2,2 |
3,3 |
96,1 |
0,6 |
7,2 |
91,4 |
1,4 |
1,0 |
95,0 |
4,0 |
|
5,9 |
92,7 |
1,4 |
3,1 |
96,3 |
0,6 |
4,3 |
93,5 |
2,2 |
3,4 |
96,0 |
0,6 |
6,5 |
92,5 |
1,0 |
1,0 |
95,0 |
4,0 |
|
3,8 |
95,4 |
0,8 |
1,6 |
98,0 |
0,4 |
3,7 |
94,2 |
2,1 |
2,4 |
97,1 |
0,5 |
5,1 |
94,3 |
0,6 |
1,0 |
95,0 |
4,0 |
|
1,7 |
98,0 |
0,3 |
0,6 |
99,3 |
0,1 |
3,6 |
94,4 |
2,0 |
2,0 |
97,7 |
0,3 |
3,9 |
95,7 |
0,4 |
1,0 |
95,0 |
4,0 |
|
2,1 |
97,6 |
0,3 |
3,2 |
95,9 |
0,8 |
3,6 |
94,4 |
2,0 |
2,0 |
97,7 |
0,3 |
5,6 |
93,7 |
0,7 |
1,0 |
95,0 |
4,0 |
|
1,6 |
98,1 |
0,3 |
1,6 |
98,0 |
0,3 |
3,6 |
94,4 |
2,0 |
2,0 |
97,7 |
0,3 |
4,5 |
95,0 |
0,5 |
1,0 |
95,0 |
4,0 |
|
8,6 |
89,4 |
2,0 |
3,4 |
96,0 |
0,7 |
4,4 |
93,4 |
2,2 |
7,8 |
89,8 |
2,4 |
9,5 |
88,5 |
2,0 |
1,0 |
95,0 |
4,0 |
|
5,5 |
93,3 |
1,2 |
1,6 |
98,0 |
0,4 |
3,8 |
94,1 |
2,1 |
6,4 |
92,2 |
1,4 |
7,5 |
91,1 |
1,4 |
1,0 |
95,0 |
4,0 |
|
2,9 |
96,6 |
0,5 |
0,6 |
99,3 |
0,1 |
3,6 |
94,4 |
2,0 |
5,2 |
93,8 |
1,0 |
5,8 |
93,3 |
0,8 |
1,0 |
95,0 |
4,0 |
|
3,7 |
95,7 |
0,6 |
3,4 |
95,7 |
0,9 |
3,6 |
94,4 |
2,0 |
5,5 |
93,4 |
1,1 |
7,9 |
90,6 |
1,6 |
1,0 |
95,0 |
4,0 |
|
2,7 |
96,9 |
0,4 |
1,7 |
97,9 |
0,4 |
3,6 |
94,4 |
2,0 |
5,0 |
93,9 |
1,1 |
6,6 |
92,3 |
1,1 |
1,0 |
95,0 |
4,0 |
|
EAS epsem
25 |
EAS epsem
3 |
EAS epsem
300 |
EAS epsem
50 |
EAS epsem
15 |
EAS epsem
1 500 |
|
1,7 |
96,2 |
2,1 |
0,0 |
99,9 |
0,1 |
2,4 |
94,7 |
2,9 |
2,3 |
95,5 |
2,2 |
1,1 |
97,1 |
1,8 |
3,0 |
94,0 |
3,0 |
|
5,6 |
91,2 |
3,2 |
6,5 |
91,5 |
2,0 |
2,6 |
94,1 |
3,3 |
5,1 |
92,2 |
2,7 |
8,3 |
90,4 |
1,3 |
3,0 |
96,0 |
1,0 |
|
5,8 |
91,2 |
3,0 |
9,6 |
87,2 |
3,2 |
3,1 |
93,3 |
3,6 |
3,4 |
95,1 |
1,5 |
9,3 |
89,7 |
1,1 |
3,0 |
95,0 |
2,0 |
|
5,1 |
92,4 |
2,5 |
6,5 |
91,2 |
2,3 |
2,6 |
94,1 |
3,3 |
2,8 |
96,0 |
1,2 |
8,2 |
90,9 |
0,9 |
3,0 |
96,0 |
1,0 |
|
5,2 |
92,3 |
2,5 |
8,4 |
88,3 |
3,3 |
2,6 |
94,1 |
3,3 |
2,9 |
95,7 |
1,4 |
8,8 |
90,2 |
1,0 |
3,0 |
96,0 |
1,0 |
|
3,7 |
94,3 |
2,0 |
5,5 |
92,8 |
1,7 |
2,5 |
94,3 |
3,2 |
2,3 |
96,9 |
0,8 |
7,8 |
91,6 |
0,7 |
3,0 |
96,0 |
1,0 |
|
1,9 |
97,3 |
0,8 |
2,6 |
96,7 |
0,7 |
2,3 |
94,9 |
2,8 |
2,0 |
97,9 |
0,1 |
6,9 |
92,6 |
0,5 |
3,0 |
96,0 |
1,0 |
|
2,2 |
96,8 |
1,0 |
4,7 |
94,0 |
1,3 |
2,3 |
94,9 |
2,8 |
2,1 |
97,8 |
0,1 |
7,3 |
92,1 |
0,6 |
3,0 |
96,0 |
1,0 |
|
1,8 |
97,5 |
0,7 |
2,5 |
96,9 |
0,6 |
2,3 |
94,9 |
2,8 |
2,0 |
97,9 |
0,1 |
6,2 |
93,4 |
0,4 |
3,0 |
96,0 |
1,0 |
|
6,6 |
89,5 |
3,9 |
8,9 |
87,8 |
3,4 |
2,7 |
93,9 |
3,4 |
7,7 |
88,7 |
3,6 |
11,7 |
86,1 |
2,2 |
3,0 |
96,0 |
1,0 |
|
5,1 |
92,5 |
2,4 |
5,7 |
92,4 |
1,9 |
2,5 |
94,3 |
3,2 |
6,0 |
91,6 |
2,4 |
10,6 |
88,0 |
1,5 |
3,0 |
96,0 |
1,0 |
|
3,4 |
94,9 |
1,7 |
2,8 |
96,5 |
0,7 |
2,3 |
94,9 |
2,8 |
4,6 |
93,7 |
1,7 |
9,2 |
89,7 |
1,1 |
3,0 |
96,0 |
1,0 |
|
3,5 |
94,8 |
1,7 |
4,9 |
93,7 |
1,4 |
2,3 |
94,9 |
2,8 |
4,7 |
93,3 |
2,0 |
9,9 |
89,0 |
1,2 |
3,0 |
96,0 |
1,0 |
|
3,0 |
95,4 |
1,6 |
2,6 |
96,8 |
0,6 |
2,3 |
94,9 |
2,8 |
4,6 |
93,7 |
1,7 |
8,6 |
90,6 |
0,8 |
3,0 |
96,0 |
1,0 |
|
PPT
25 |
PPT
3 |
PPT
300 |
PPT
50 |
PPT
9 |
PPT
1 500 |
|
1,7 |
95,9 |
2,4 |
0,0 |
100,0 |
0,0 |
2,9 |
94,2 |
2,9 |
2,3 |
95,3 |
2,4 |
0,7 |
98,0 |
1,3 |
2,0 |
95,0 |
3,0 |
|
6,2 |
90,0 |
3,8 |
4,7 |
94,3 |
1,0 |
2,9 |
93,9 |
3,2 |
3,1 |
94,1 |
2,8 |
5,1 |
94,4 |
0,5 |
2,0 |
92,0 |
6,0 |
|
5,1 |
91,1 |
3,8 |
5,6 |
92,8 |
1,5 |
3,1 |
93,6 |
3,3 |
2,0 |
97,0 |
1,0 |
5,3 |
94,3 |
0,4 |
3,0 |
92,0 |
5,0 |
|
4,9 |
92,0 |
3,1 |
4,9 |
93,5 |
1,5 |
2,9 |
94,0 |
3,1 |
1,9 |
96,9 |
1,2 |
4,9 |
94,7 |
0,3 |
2,0 |
92,0 |
6,0 |
|
5,3 |
91,5 |
3,2 |
7,2 |
90,5 |
2,3 |
2,9 |
93,9 |
3,2 |
2,0 |
96,8 |
1,2 |
5,6 |
94,1 |
0,4 |
2,0 |
92,0 |
6,0 |
|
3,8 |
94,1 |
2,1 |
4,4 |
94,4 |
1,1 |
2,7 |
94,7 |
2,6 |
1,7 |
97,4 |
0,9 |
4,8 |
94,9 |
0,3 |
2,0 |
92,0 |
6,0 |
|
2,7 |
96,1 |
1,2 |
2,6 |
97,0 |
0,4 |
2,6 |
95,0 |
2,4 |
1,6 |
97,9 |
0,5 |
4,3 |
95,5 |
0,2 |
2,0 |
92,0 |
6,0 |
|
2,8 |
95,8 |
1,4 |
4,2 |
94,9 |
0,9 |
2,6 |
95,0 |
2,4 |
1,6 |
97,9 |
0,5 |
4,7 |
95,1 |
0,2 |
2,0 |
92,0 |
6,0 |
|
2,2 |
96,7 |
1,1 |
2,1 |
97,5 |
0,4 |
2,6 |
95,0 |
2,4 |
1,5 |
98,0 |
0,5 |
3,9 |
96,0 |
0,1 |
2,0 |
92,0 |
6,0 |
|
7,4 |
87,8 |
4,8 |
7,6 |
90,0 |
2,4 |
2,9 |
93,9 |
3,2 |
5,0 |
90,6 |
4,4 |
8,9 |
89,8 |
1,3 |
2,0 |
92,0 |
6,0 |
|
5,3 |
91,6 |
3,1 |
4,7 |
94,0 |
1,3 |
2,7 |
94,5 |
2,8 |
4,1 |
92,2 |
3,7 |
8,1 |
90,9 |
1,0 |
2,0 |
92,0 |
6,0 |
|
3,6 |
94,3 |
2,1 |
2,8 |
96,8 |
0,4 |
2,6 |
95,0 |
2,4 |
3,0 |
94,1 |
2,9 |
7,2 |
92,0 |
0,7 |
2,0 |
92,0 |
6,0 |
|
4,0 |
93,7 |
2,3 |
4,5 |
94,5 |
1,0 |
2,6 |
95,0 |
2,4 |
3,1 |
94,0 |
2,9 |
7,9 |
91,1 |
1,0 |
2,0 |
92,0 |
6,0 |
|
3,5 |
94,6 |
1,9 |
2,2 |
97,4 |
0,4 |
2,6 |
95,0 |
2,4 |
2,9 |
94,4 |
2,7 |
6,8 |
92,6 |
0,6 |
2,0 |
92,0 |
6,0 |
Une des caractéristiques de
et
est que les contributions
propres aux grappes,
et
ainsi que les estimations de la
variance globales peuvent être négatives. Dans les simulations, on a utilisé l’ajustement
décrit après (2.11) pour éviter les contributions négatives. Les
estimations négatives étaient plus courantes quand les tailles d’échantillon au
deuxième degré étaient petites et que les pondérations étaient très variables.
Par exemple, pour la population de l’ACS, près de 28 % des échantillons
aléatoires simples de 3 grappes et
9 ont donné lieu à au moins une
contribution de variance négative pour une grappe. Plus souvent, environ
10 % des échantillons contenaient au moins une estimation de la variance
négative pour une grappe. Dans la population des élèves de troisième année,
de 16 % à 27 % des échantillons avaient au moins une valeur
négative de
Dans la population simulée ayant
de grandes tailles d’échantillon, la valeur de
était négative dans moins de
5 % des échantillons. La correction ponctuelle consistant à modifier
en
est un des estimateurs de la
variance les plus attrayants, car il a tendance à surestimer légèrement la
variance empirique, a une des meilleures couvertures d’intervalle de confiance
et a une variabilité raisonnable comparativement à d’autres estimateurs de la
variance.