Estimateurs de la variance robustes pour estimateurs par la régression généralisée dans des échantillons en grappes
Section 3. Simulation

Table des matières

Nous avons réalisé une série d’études par simulations pour mettre à l’épreuve les performances des nouveaux estimateurs de la variance dans différentes populations. Dans chaque échantillon simulé, nous avons calculé les quantités énumérées dans le tableau 3.1. Pour évaluer les estimateurs de la variance, nous avons calculé la moyenne des estimations de la variance, comparé ces moyennes à l’erreur quadratique moyenne empirique, et calculé les probabilités de couverture de l’intervalle de confiance en fonction des différentes estimations de la variance. Le tableau 3.2 résume les plans d’échantillonnage des 18 études par simulations. La colonne intitulée Étiquette donne les titres qui seront utilisés dans les tableaux suivants. Les plans d’échantillonnage sont utilisés dans les trois populations décrites ci-dessous.

Tableau 3.1
Statistiques d’intérêt pour la simulation de variance de l’estimation GREG en grappes
Sommaire du tableau
Le tableau montre les résultats de Statistiques d’intérêt pour la simulation de variance de l’estimation GREG en grappes. Les données sont présentées selon Statistiques (titres de rangée) et Description(figurant comme en-tête de colonne).
Statistiques	Description
${\hat{t}}_{y}^{π}$	Estimation du total à partir de l’estimateur de Horvitz-Thompson
${\hat{t}}_{y}^{g r}$	Total estimé à partir de l’estimateur GREG
$υ_{E}$	Variance empirique
$υ_{g}$	Estimateur de la variance fondé sur le plan en supposant un échantillonnage de Poisson aux deux degrés de Särndal et coll. (1992) dans (2.3)
$υ_{w r}$	Estimateur de la variance avec remise dans (2.4)
$υ_{J L}$	Estimateur de la variance par linéarisation par la méthode du jackknife de Yung et Rao (1996) dans (2.5)
$υ_{R}$	Estimateur sandwich dans (2.8)
$υ_{D}$	Premier estimateur sandwich à la matrice chapeau ajustée dans (2.11)
$υ_{Jack}$	Estimateur de la variance par la méthode du jackknife dans (2.6)
$υ_{J 1}$	Première approximation de l’estimateur de la variance par la méthode du jackknife dans (2.13)
$υ_{J 2}$	Deuxième approximation de l’estimateur de la variance par la méthode du jackknife dans (2.14)
$υ_{R}^{*}$	Estimateur sandwich avec ajustement de la population finie
$υ_{D}^{*}$	Premier estimateur sandwich ajusté à la matrice chapeau avec correction de la population finie
$υ_{Jack}^{*}$	Estimateur de la variance jackknife par la méthode du jackknife avec correction de population finie
$υ_{J 1}^{*}$	Première approximation par la méthode du jackknife avec correction de population finie
$υ_{J 2}^{*}$	Deuxième approximation par la méthode du jackknife avec ajustement de population finie

3.1 Données

Nous avons effectué des simulations sur trois populations pour évaluer les performances fondées sur le plan des estimateurs de la variance dans différentes situations. Dans la première population, nous avons étudié les performances des estimateurs de la variance en cas de grande fraction de sondage au premier degré et d’échantillon de taille moyenne. La deuxième étude par simulations portait sur les performances des estimateurs de la variance dans un jeu de données relativement compliqué et une petite taille d’échantillon au premier degré. La dernière étude par simulations montre les performances des estimateurs de la variance dans de grands échantillons.

Tableau 3.2
Plans des simulations pour trois populations
Sommaire du tableau
Le tableau montre les résultats de Plans des simulations pour trois populations Étiquette, Population, Échantillon au premier degré, (équation), Échantillon au deuxième degré et Nbre d’échantillons(figurant comme en-tête de colonne).
	Étiquette	Population	Échantillon au premier degré	$m$	Échantillon au deuxième degré	Nombre d’échantillons
1	EAS fixe	Troisième année	EASSR	25	$n_{i} =5$	1 000
2	EAS fixe	Troisième année	EASSR	50	$n_{i} =5$	1 000
3	EAS epsem	Troisième année	EASSR	25	$f_{i} = \frac{675}{2 427}$	1 000
4	EAS epsem	Troisième année	EASSR	50	$f_{i} = \frac{675}{2 427}$	1 000
5	PPT epsem	Troisième année	PPTSR	25	$n_{i} =5$	1 000
6	PPT epsem	Troisième année	PPTSR	50	$n_{i} =5$	1 000
7	EAS fixe	ACS	EASSR	3	$n_{i} =9$	5 000
8	EAS fixe	ACS	EASSR	15	$n_{i} =9$	5 000
9	EAS epsem	ACS	EASSR	3	$f_{i} = \frac{30 430}{194 329}$	5 000
10	EAS epsem	ACS	EASSR	15	$f_{i} = \frac{30 430}{194 329}$	5 000
11	PPT epsem	ACS	PPTSR	3	$n_{i} =9$	5 000
12	PPT epsem	ACS	PPTSR	15	$n_{i} =9$	5 000
13	EAS fixe	Simulée	EASSR	300	$n_{i} =2$	1 000
14	EAS fixe	Simulée	EASSR	1 500	$n_{i} =2$	100
15	EAS epsem	Simulée	EASSR	300	$f_{i} = \frac{60 000}{195 164}$	1 000
16	EAS epsem	Simulée	EASSR	1 500	$f_{i} = \frac{60 000}{195 164}$	100
17	PPT epsem	Simulée	PPTSR	300	$n_{i} =3$	1 000
18	PPT epsem	Simulée	PPTSR	1 500	$n_{i} =3$	100

3.1.1 Population d’élèves de troisième année

La première étude par simulations a utilisé la population d’élèves de troisième année de l’annexe B.6 de Valliant et coll. (2000). Ce jeu de données contenait les résultats en mathématiques de 2 427 élèves de troisième année dans 135 écoles. Le nombre relativement faible d’écoles de la population et le nombre assez constant d’élèves de chaque école faisaient de cette population un objet idéal pour l’étude d’échantillons avec de grandes fractions d’échantillonnage.

Au moyen de l’estimation par la régression généralisée (GREG), nous avons estimé la note moyenne en mathématiques des élèves de troisième année. Au total, nous avons sélectionné 1 000 échantillons dans chacun des six plans d’échantillonnage du tableau 3.2. Dans le premier plan d’échantillonnage, nous avons sélectionné 1 000 échantillons aléatoires simples sans remise (EASSR) dans 25 écoles. Dans chaque école échantillonnée, nous avons sélectionné exactement cinq élèves par EASSR. Étant donné que le nombre d’élèves variait d’une école à l’autre, le plan d’échantillonnage a donné lieu à différentes probabilités inconditionnelles de sélection, mais à un échantillon fixe de 125 élèves. Le deuxième plan d’échantillonnage était semblable au premier, mis à part le fait que nous avons sélectionné 50 écoles. Parce que le choix de 50 des 135 écoles a donné lieu à une grande fraction de sondage au premier degré de 0,37, un facteur de correction de population finie était nécessaire. Les échantillons $m =$ 25 et de 50 écoles peuvent tous deux être considérés comme étant de taille « moyenne ».

Dans le troisième plan d’échantillonnage, nous avons sélectionné 1 000 échantillons aléatoires simples dans 25 écoles sans remise. Au sein de chaque école échantillonnée, nous avons sélectionné des élèves à un taux constant de $\frac{675}{2 427},$ ce qui a produit 1 000 échantillons avec des tailles aléatoires centrées autour de 125 élèves. Dans ce plan, chaque élève avait une probabilité de sélection inconditionnelle égale. Le quatrième plan d’échantillonnage était semblable au troisième, mis à part le fait que nous avons sélectionné 50 écoles. Les tailles d’échantillon étaient également aléatoires dans ce plan, avec une moyenne de 250 élèves. Comme les troisième et quatrième plans d’échantillonnage ont donné à chaque unité la même probabilité de sélection, ils sont intitulés EAS epsem (pour l’anglais equal probability selection, soit mécanisme d’échantillonnage avec probabilités égales) dans les tableaux suivants.

Dans le cinquième plan, nous avons sélectionné 1 000 échantillons dans 25 écoles avec des probabilités proportionnelles au nombre d’élèves de chaque école. Dans chaque école échantillonnée, nous avons sélectionné exactement cinq élèves, ce qui a donné 1 000 échantillons comprenant exactement 125 élèves chacun. Le sixième plan d’échantillonnage était semblable au cinquième, mis à part le fait que nous avons sélectionné 50 écoles. Nous avons sélectionné 1 000 échantillons de 250 élèves au moyen de ce plan. Les cinquième et sixième plans sont des plans d’échantillonnage avec probabilités égales (ou epsem). Comme les deuxième et quatrième plans d’échantillonnage, ce plan d’échantillonnage comportait également une grande fraction d’échantillonnage et justifiait la nécessité d’un facteur de correction de la population finie aux fins d’ajustement des estimateurs de la variance.

À partir de chaque échantillon, nous avons estimé les notes moyennes en mathématiques pour la population finie au moyen d’un estimateur GREG et en supposant que le nombre d’élèves de la population était connu. Le modèle auxiliaire visait à reproduire le modèle de régression linéaire en grappes de la section 9.6 de Valliant et coll. (2000). Les onze variables explicatives utilisées dans la modélisation des résultats en mathématiques de chaque élève étaient : une ordonnée à l’origine, le sexe (masculin ou féminin), l’origine ethnique (blanc/asiatique, noir, autochtone des États-Unis/autre ou hispanique), si la langue parlée à la maison est celle de l’examen (toujours, parfois/jamais), le type de collectivité (banlieue de petite ou grande ville), et inscription dans un établissement d’enseignement. On a divisé le total des résultats en mathématiques estimés au moyen de l’estimateur GREG par le nombre d’élèves de la population, soit 2 427, pour obtenir le résultat moyen. Le résultat moyen de la population est de 477,7. Pour l’ensemble de la population, la valeur de R au carré pour le modèle linéaire au niveau des élèves était de 0,9735, ce qui indique une relation linéaire très forte.

3.1.2 Population de l’Enquête sur les collectivités américaines (American Community Survey ou ACS)

La deuxième étude par simulations a utilisé les données du fichier sommaire 3 du recensement de 2000 et celles du fichier sommaire 2005 $-$ 2009 de l’Enquête sur les collectivités américaines (ACS). Elle visait à estimer le nombre total de logements dans l’État américain de l’Alabama, selon le fichier sommaire de l’ACS. Les nombres des groupes d’îlots du recensement de 2000 ont été utilisés comme covariables dans le modèle auxiliaire.

Pour créer la population, on a d’abord extrait toutes les données sur les groupes d’îlots du fichier sommaire de l’ACS et du fichier sommaire 3 du recensement de 2000. On a ensuite fusionné les deux fichiers au niveau du groupe d’îlots. Les groupes d’îlots comptant 1 000 logements ou plus dans le recensement de 2000 ont été supprimés, car leurs caractéristiques différaient de celles de la majorité des îlots. Dans de nombreux plans d’échantillonnage, les unités de grande taille comme celles-ci seraient placées dans une strate à tirage complet distincte et ne contribueraient pas à la variance des estimations. On a également retiré les groupes d’îlots ayant connu une croissance extrême du nombre total de logements. Plus précisément, les groupes d’îlots comptant plus de 10 unités en plus du double du nombre du recensement de 2000 ont été supprimés.

Les grappes étaient définies comme des comtés et les groupes d’îlots étaient traités comme des unités. Le fait de traiter le groupe d’îlots comme une unité est motivé par la tâche commune consistant à sélectionner l’échantillon d’îlots, à en établir la liste, puis à utiliser les listes pour estimer le nombre total de logements dans la population finie.

Les grappes comptant moins de 10 groupes d’îlots ou plus de 120 groupes d’îlots ont été retirées de la base de sondage des grappes. En tout, il y avait 61 grappes (comtés) contenant un total de 2 051 groupes d’îlots et 1 109 499 logements dans le jeu de données vérifié. Au total, six comtés et 1 278 groupes d’îlots comprenant 1 030 471 logements ont été retirés du fichier de l’Alabama.

La figure 3.1 montre deux diagrammes de dispersion. Le premier graphique montre le nombre total de logements dans le groupe d’îlots déclaré dans le fichier sommaire de l’ACS comme une fonction du nombre de logements du recensement de 2000. Chaque point représente un des 2 051 groupes d’îlots de la population finie. La ligne diagonale est un lisseur non paramétrique, qui indique une relation forte entre les deux variables. Le graphique indique également des signes d’hétéroscédasticité parce que les points semblent s’éloigner à mesure que le nombre du recensement de 2000 augmente. Le deuxième diagramme montre les résidus obtenus par la régression du nombre de logements du recensement de 2000 sur le nombre de logements de l’ACS au moyen des moindres carrés ordinaires (MCO) représentés par rapport au nombre de logements de l’ACS. À mesure que le nombre de logements déclaré dans le fichier de l’ACS augmente, les prédictions du modèle semblent sous-estimer considérablement le nombre réel de logements. Cela semble indiquer un certain degré de non-linéarité dans la fonction moyenne. De plus, la variance est remarquablement hétéroscédastique.

Figure 3.1 Diagramme de dispersion et graphique des résidus pour la population de l’ACS. Les lignes grises représentent des lisseurs non paramétriques

Description de la figure 3.1

Figure présentant deux diagrammes de dispersion pour la population de l’ACS. Le premier graphique illustre le nombre de logements de l’ACS sur l‘axe des y, allant de 0 à 1 500, en fonction du nombre de logements du recensement de 2000 sur l’axe des x, allant de 0 à 1 000. Une ligne représentant un lisseur non paramétrique traverse le nuage de points et montre une relation forte entre les deux variables. Il y a des signes d’hétéroscédasticité parce que la dispersion des points augmente lorsque le nombre de logements du recensement de 2000 augmente. Le deuxième graphique présente les résidus sur l’axe des y, allant de -200 à 800, en fonction du nombre de logements de l’ACS sur l’axe des x, allant de 0 à 1 500. Une ligne représentant un lisseur non paramétrique traverse le nuage de points. À mesure que le nombre de logements de l’ACS augmente, les prédictions du modèle semblent sous-estimer considérablement le nombre réel de logements. Cela semble indiquer un certain degré de non-linéarité dans la fonction moyenne. De plus, la variance est remarquablement hétéroscédastique.

Comme dans la première étude par simulations, nous avons essayé six plans d’échantillonnage différents. Nous avons sélectionné 5 000 échantillons dans chacun des six mécanismes de sélection indiqués au tableau 3.2. Dans le premier plan d’échantillonnage, nous avons sélectionné 5 000 échantillons aléatoires simples dans 3 grappes sans remise. Dans les grandes enquêtes nationales, il n’est pas rare de sélectionner un petit nombre d’unités primaires d’échantillonnage dans chaque strate. Dans ce cas, nous traitons l’Alabama comme une seule strate de plan d’échantillonnage et ses 61 comtés comme des grappes. Trois comtés de la strate ont été échantillonnés. Dans chaque grappe, nous avons sélectionné neuf groupes d’îlots au moyen d’un EASSR. Le deuxième plan était similaire, mais avec 15 grappes et 9 groupes d’îlots par grappe. Les deux premiers plans d’échantillonnage ont produit des pondérations très variables. Les autres plans (lignes 9 à 12) étaient parallèles à ceux des lignes 3 à 6 pour la population d’élèves de troisième année. Les tailles d’échantillon de $m =$ 3 et 15 sont petites, si bien que les propriétés de grands échantillons théoriques sont moins susceptibles de se vérifier.

À partir de chaque échantillon, nous avons estimé le nombre total de logements dans la population finie à l’aide d’un estimateur GREG. Le modèle auxiliaire comprenait une ordonnée à l’origine et le nombre de logements du recensement de 2000; l’hétéroscédasticité mentionnée ci-dessus n’a pas été prise en compte dans l’estimation par la régression généralisée. Pour l’ensemble de la population, la valeur de R au carré était de 0,819, ce qui indique encore une fois une relation linéaire forte.

3.1.3 Population simulée

On a créé une population avec un grand nombre de grappes pour évaluer les caractéristiques asymptotiques des estimateurs de la variance. Produites à l’aide d’un modèle linéaire classique, 30 000 grappes ont été créées au total, chacune ayant un nombre aléatoire d’unités. On a déterminé le nombre d’unités de chaque grappe en ajoutant trois à un nombre entier aléatoire uniforme entre 0 et 7. La taille des grappes créées varie de 3 à 10 unités. Au total, la population contenait 195 164 unités dans 30 000 grappes. Pour chaque unité, on a créé une covariable positive en tant que $x_{k} \sim 1 000 \exp N (0, 1)$ où $N (0, 1)$ est une variable aléatoire normale avec une moyenne de 0 et un écart-type de 1. On a créé une réponse aléatoire de sorte que $y_{k} \sim N (1 000 + 2 x_{k}, \frac{x_{k}}{2}) .$ La figure 3.2 montre des diagrammes de dispersion de la relation entre $x_{k}$ et $y_{k}$ pour la population finie.

Figure 3.2 Diagramme de dispersion et résidus pour la population simulée. Les lignes grises représentent des lisseurs non paramétriques

Description de la figure 3.2

Figure présentant deux diagrammes de dispersion pour la population simulée. Pour le premier graphique, l’axe vertical présente y, allant de 0 à 150 000, en fonction de x, allant de 0 à 70 000. Une ligne représentant un lisseur non paramétrique traverse le nuage de points et montre une relation forte entre les deux variables. Le deuxième graphique présente les résidus sur l’axe des y, allant de -60 000 à 40 000, en fonction de y, allant de 0 à 150 000. Une ligne représentant un lisseur non paramétrique traverse le nuage de points. À mesure que y augmente, les prédictions du modèle semblent sous-estimer y. De plus, la variance semble hétéroscédastique.

Nous avons sélectionné des échantillons au moyen des six différents mécanismes d’échantillonnage avec probabilités aux lignes 13 à 18 du tableau 3.2. Les types de plans d’échantillonnage sont parallèles à ceux utilisés pour les populations d’élèves de troisième année et de l’ACS. Dans les plans d’échantillonnage 14, 16 et 18, nous avons sélectionné 100 échantillons aléatoires simples de 1 500 grappes sans remise. Nous n’avons sélectionné que 100 échantillons, car le traitement et la sélection informatiques de chaque échantillon prenaient trop de temps. Étant donné que les tailles d’échantillon de $m =$ 300 et 1 500 sont grandes, les propriétés de grands échantillons théoriques devraient se vérifier.

À partir de chaque échantillon, nous avons estimé le total de la réponse au moyen d’un estimateur GREG. La population réelle finie était de 839 149 969 personnes. Le modèle auxiliaire comprenait une ordonnée à l’origine et $x$ avec $Q = I .$ Pour l’ensemble de la population, la valeur de R au carré était de 0,953, ce qui indique une relation linéaire très forte. La figure 3.2 présente un diagramme de dispersion de la population ainsi qu’un graphique des résidus basé sur une régression des moindres carrés ordinaires de $x_{k}$ sur $y_{k}$ pour l’ensemble de la population. Des éléments indiquent de manière probante l’hétéroscédasticité des erreurs.

3.2 Résultats

Nous avons examiné le biais, la variabilité et la couverture de l’intervalle de confiance des estimateurs de la variance nouveaux et anciens. Les tableaux présentent seulement certaines des simulations pour des questions d’espace. Le tableau 3.3 montre les moyennes de l’estimateur $π$ et de l’estimateur GREG ainsi que les ratios des valeurs moyennes des estimateurs de la variance par rapport aux erreurs quadratiques moyennes empiriques pour toutes les populations et les combinaisons de taille d’échantillon dans toutes les simulations. L’estimateur $π$ et l’estimateur GREG sont approximativement sans biais, mais l’estimateur GREG est beaucoup plus efficace.

Tableau 3.3
Résultats de la simulation pour les estimations des moyennes et des estimateurs de la variance de trois populations et six plans d’échantillonnage dans chaque population. Les valeurs des lignes des estimateurs de la variance sont des ratios de la variance moyenne estimée par rapport à la l’erreur quadratique moyenne empirique de l’estimateur GREG. Voir la description des estimateurs de la variance dans le tableau 3.1
Sommaire du tableau
Le tableau montre les résultats de Résultats de la simulation pour les estimations des moyennes et des estimateurs de la variance de trois populations et six plans d’échantillonnage dans chaque population. Les valeurs des lignes des estimateurs de la variance sont des ratios de la variance moyenne estimée par rapport à la l’erreur quadratique moyenne empirique de l’estimateur GREG. Voir la description des estimateurs de la variance dans le tableau 3.1. Les données sont présentées selon Estimateur (titres de rangée) et EAS fixe, EAS epsem et PPT epsem(figurant comme en-tête de colonne).
Estimateur	EAS fixe						EAS epsem						PPT epsem
	Population des élèves de troisième année		Population de l’ACS (nombres en milliers)		Population simulée (nombres en millions)		Population des élèves de troisième année		Population de l’ACS (nombres en milliers)		Population simulée (nombres en millions)		Population des élèves de troisième année		Population de l’ACS (nombres en milliers)		Population simulée (nombres en millions)
	$m =$ 25	$m =$ 50	$m =$ 3	$m =$ 15	$m =$ 300	$m =$ 1 500	$m =$ 25	$m =$ 50	$m =$ 3	$m =$ 15	$m =$ 300	$m =$ 1 500	$m =$ 25	$m =$ 50	$m =$ 3	$m =$ 15	$m =$ 300	$m =$ 1 500
moyenne ${\hat{t}}_{y}^{π} / N$	477,23	477,11	1 119,13	1 108,23	838,91	838,71	476,29	476,85	1 112,89	1 113,89	838,13	843,13	477,31	477,75	1 111,48	1 109,02	838,74	839,06
eqm ${\hat{t}}_{y}^{π} / N$	663,12	264,75	181 329,24	27 650,01	1 588,43	250,20	2 013,90	981,54	201 618,77	32 926,98	2 303,19	563,77	142,93	53,17	15 991,69	2 619,32	1 218,73	253,13
moyenne ${\hat{t}}_{y}^{g} / N$	474,27	476,37	1 081,68	1 103,34	838,57	839,10	476,95	477,24	1 104,45	1 108,45	838,81	840,01	477,50	477,85	1 106,36	1 108,46	839,39	839,08
eqm ${\hat{t}}_{y}^{g} / N$	218,96	66,66	11 220,86	921,82	156,29	23,07	114,08	50,10	2 111,84	408,19	117,18	19,63	121,57	41,32	1 874,39	352,65	105,64	25,24
$υ_{g} / eqm ({\hat{t}}_{y}^{g})$	0,76	0,87	2,70	0,90	0,91	1,11	0,73	0,82	0,44	0,83	0,91	1,13	0,66	0,91	0,53	0,92	1,01	0,89
$υ_{w r} / eqm ({\hat{t}}_{y}^{g})$	0,75	1,11	1,17	0,98	0,94	1,13	0,79	1,06	0,68	1,03	0,91	1,17	0,73	1,19	0,87	1,14	1,01	0,90
$υ_{J L} / eqm ({\hat{t}}_{y}^{g})$	0,88	1,16	2,18	0,91	0,91	1,13	0,85	1,10	0,65	0,99	0,92	1,15	0,78	1,24	0,79	1,11	1,02	0,90
$υ_{R} / eqm ({\hat{t}}_{y}^{g})$	0,87	1,15	2,80	1,00	0,91	1,13	0,82	1,08	0,43	0,92	0,92	1,14	0,74	1,22	0,53	1,03	1,02	0,90
$υ_{D} / eqm ({\hat{t}}_{y}^{g})$	1,26	1,32	6,09	1,32	1,03	1,15	1,09	1,25	0,84	1,08	0,96	1,16	0,95	1,36	0,89	1,15	1,07	0,91
$υ_{J 2} / eqm ({\hat{t}}_{y}^{g})$	2,22	1,54	17 191,52	1,85	1,50	1,17	1,50	1,46	2,36	1,27	1,03	1,18	1,23	1,54	1,64	1,29	1,13	0,93
$υ_{Jack} / eqm ({\hat{t}}_{y}^{g})$	2,03	1,49	4 678,25	1,47	1,48	1,17	1,44	1,43	1,37	1,19	1,03	1,18	1,19	1,51	1,05	1,21	1,12	0,93
$υ_{J 1} / eqm ({\hat{t}}_{y}^{g})$	2,22	1,55	17 190,86	1,72	1,50	1,17	1,56	1,49	3,07	1,36	1,03	1,18	1,28	1,57	2,35	1,38	1,13	0,93
$υ_{R}^{*} / eqm ({\hat{t}}_{y}^{g})$	0,71	0,73	2,66	0,76	0,90	1,07	0,67	0,68	0,41	0,70	0,91	1,09	0,60	0,74	0,49	0,68	1,01	0,85
$υ_{D}^{*} / eqm ({\hat{t}}_{y}^{g})$	1,02	0,83	5,79	0,99	1,02	1,09	0,88	0,79	0,80	0,82	0,96	1,11	0,76	0,83	0,83	0,76	1,05	0,86
$υ_{J 2}^{*} / eqm ({\hat{t}}_{y}^{g})$	1,81	0,97	16 346,03	1,40	1,48	1,11	1,22	0,92	2,25	0,96	1,02	1,12	0,99	0,93	1,52	0,85	1,12	0,88
$υ_{Jack}^{*} / eqm ({\hat{t}}_{y}^{g})$	1,66	0,94	4 448,17	1,11	1,47	1,11	1,17	0,90	1,30	0,90	1,01	1,12	0,95	0,92	0,97	0,80	1,11	0,88
$υ_{J 1}^{*} / eqm ({\hat{t}}_{y}^{g})$	1,81	0,98	16 345,41	1,30	1,48	1,11	1,27	0,94	2,92	1,03	1,02	1,13	1,03	0,95	2,19	0,91	1,12	0,88

Les performances des estimateurs de la variance dépendent du plan d’échantillonnage et de la population. Certaines des estimations du tableau 3.3 de la population de l’ACS avec un échantillon aléatoire simple de 3 grappes et 9 unités dans chaque grappe se démarquent comme étant très peu fiables. Les inverses des probabilités de sélection varient considérablement pour ce plan d’échantillonnage. La variabilité de ces pondérations, conjuguée à certaines observations extrêmes dans la population, cause l’instabilité de certains estimateurs de la variance. Pour être plus précis, $υ_{J 2},$ $υ_{Jack},$ $υ_{J 1},$ $υ_{J 2}^{*},$ $υ_{Jack}^{*},$ $υ_{J 1}^{*}$ sont des surestimations extrêmes en moyenne. Ces six estimateurs contiennent des ajustements explicites ou implicites de la matrice chapeau qui peuvent être assez grands et accroissent considérablement les estimateurs de la variance lorsqu’ils sont conjugués à de grands poids d’échantillonnage. En revanche, $υ_{D},$ qui a également une matrice chapeau ajustée, a des performances satisfaisantes pour toutes les populations et toutes les tailles d’échantillon. Il faut souligner le résultat selon lequel $υ_{D}$ est une bien moindre surestimation de l’erreur quadratique moyenne dans la combinaison (ACS, EAS fixe, $m =$ 3, $n_{i} =$ 9) tandis que les autres estimateurs à la matrice chapeau ajustée sont des surestimations extrêmes. Les estimateurs $υ_{g},$ $υ_{w r}$ et, dans une moindre mesure, $υ_{R}$ et $υ_{J L}$ tendent à des sous-estimations aux plus petites tailles d’échantillon dans les populations d’élèves de troisième et de l’ACS et pour tous les plans d’échantillonnage dans ces populations, mais ce problème diminue en cas d’échantillons de grande taille.

Figure 3.3 Diagrammes de quartiles des ratios d’estimations d’erreurs-types par rapport aux erreurs-types empiriques pour 1 000 échantillons aléatoires simples de la population d’élèves de troisième année. Lignes de référence verticales à 1

Description de la figure 3.3

Figure présentant deux ensembles, pour des échantillons de taille $m = 25$ et $m = 50$ respectivement, de diagrammes de quartiles des ratios d’estimations d’erreurs-types par rapport aux erreurs-types empiriques pour 1 000 échantillons aléatoires simples de la population d’élèves de troisième année. Pour chaque graphique, il y a 8 diagrammes de quartiles pour représenter ET.J1, ET.Jack, ET.J, ET.D, ET.r, ET.JL, ET.wr et ET.g. L’étendue des données va de 0 à 14 pour $m = 25$ et de 0 à 2,5 pour $m = 50$ . Un ratio de 1 signifie que la variance estimée est égale à la variance empirique. Certains échantillons donnent de grandes estimations de l’ET, mais la majorité des échantillons sont beaucoup plus près de la variance empirique. Le degré de surestimation et l’incidence des valeurs extrêmes diminuent considérablement pour $m = 50$ . Les estimateurs à la matrice chapeau ajustée ont également tendance à une légère surestimation, comme en témoignent les rectangles déplacés au-dessus des lignes de référence tracées à 1.

Les diagrammes de quartiles de la figure 3.3 montrent mieux la variabilité des estimateurs pour les échantillons aléatoires simples de taille $m =$ 25 et 50 de la population d’élèves de troisième année. Les diagrammes de quartiles représentent les erreurs-types (ET) estimées en tant que fraction de l’ET empirique pour les échantillons de chaque simulation. Un ratio de 1 signifie que la variance estimée est égale à la variance empirique. Certains échantillons donnent de grandes estimations de l’ET, mais la majorité des échantillons sont beaucoup plus près de la variance empirique. Le degré de surestimation et l’incidence des valeurs extrêmes diminuent considérablement pour la plus grande taille d’échantillon, comme la comparaison des nombres le montre visiblement. Les estimateurs à la matrice chapeau ajustée ont également tendance à légèrement surestimer la variance véritable, comme en témoignent les rectangles déplacés au-dessus des lignes de référence tracées à 1. Cela peut constituer un avantage pour la couverture de l’intervalle de confiance.

Le tableau 3.4 présente les sommaires à six nombres des ratios des estimations de l’ET, $\sqrt{v},$ à la racine carrée de la variance empirique, $\sqrt{v_{E}},$ pour la population d’élèves de troisième année dans quatre des plans d’échantillonnage. Comme l’indique la valeur médiane des ratios de $υ_{J 2},$ $υ_{Jack},$ $υ_{J 1},$ $υ_{J 2}^{*},$ $υ_{Jack}^{*}$ et $υ_{J 1}^{*},$ ils sont généralement centrés près des ET empiriques, mais ils peuvent avoir des valeurs extrêmement grandes dans certains échantillons qui influent sur leurs moyennes. (Le problème des valeurs aberrantes est encore plus prononcé dans la population de l’ACS, mais les détails n’en sont pas présentés ici.) Les estimateurs les moins touchés par les extrêmes sont $υ_{g},$ $υ_{w r},$ $υ_{J L},$ $υ_{R},$ $υ_{D},$ $υ_{R}^{*}$ et $υ_{D}^{*} .$ Cependant, les estimateurs qui incorporent les corrections pour population finie (CPF) sont souvent des sous-estimations, sauf en cas d’EAS et $m =$ 25.

Tableau 3.4
Résumés à six nombres pour d’autres estimateurs d’erreurs-types pour la population d’élèves de troisième année dans quatre plans d’échantillonnage. $v_{E}$ est la variance empirique dans les échantillons simulés. Voir la description des estimateurs de la variance dans le tableau 3.1
Sommaire du tableau
Le tableau montre les résultats de Résumés à six nombres pour d’autres estimateurs d’erreurs-types pour la population d’élèves de troisième année dans quatre plans d’échantillonnage. (équation) est la variance empirique dans les échantillons simulés. Voir la description des estimateurs de la variance dans le tableau 3.1 (équation) et Distribution de (équation) , calculées selon Min. , 1 qu. , Médiane , Moyenne , 3 qu. et Max. unités de mesure (figurant comme en-tête de colonne).
	$\sqrt{v}$	Min.	1^er qu.	Médiane	Moyenne	3^e qu.	Max.
	$\sqrt{v}$	Distribution de $\sqrt{v} / \sqrt{υ_{E}}$
EAS $m =$ 25	$\sqrt{υ_{g}}$	0,46	0,71	0,82	0,86	0,96	3,59
	$\sqrt{υ_{w r}}$	0,48	0,73	0,84	0,87	0,97	1,71
	$\sqrt{υ_{J L}}$	0,48	0,75	0,88	0,92	1,03	3,75
	$\sqrt{υ_{R}}$	0,47	0,74	0,87	0,92	1,02	3,85
	$\sqrt{υ_{D}}$	0,53	0,84	1,00	1,08	1,20	6,84
	$\sqrt{υ_{J 2}}$	0,59	0,96	1,16	1,31	1,43	14,47
	$\sqrt{υ_{Jack}}$	0,57	0,93	1,13	1,26	1,38	13,69
	$\sqrt{υ_{J 1}}$	0,59	0,97	1,17	1,32	1,44	14,48
	$\sqrt{υ_{R}^{*}}$	0,42	0,67	0,79	0,83	0,92	3,48
	$\sqrt{υ_{D}^{*}}$	0,48	0,76	0,90	0,97	1,08	6,17
	$\sqrt{υ_{J 2}^{*}}$	0,53	0,87	1,05	1,18	1,29	13,06
	$\sqrt{υ_{Jack}^{*}}$	0,52	0,84	1,02	1,14	1,25	12,35
	$\sqrt{υ_{J 1}^{*}}$	0,54	0,88	1,06	1,19	1,30	13,07
EAS $m =$ 50	$\sqrt{υ_{g}}$	0,62	0,84	0,92	0,94	1,01	1,64
	$\sqrt{υ_{w r}}$	0,67	0,95	1,04	1,06	1,15	1,73
	$\sqrt{υ_{J L}}$	0,68	0,96	1,06	1,08	1,18	1,94
	$\sqrt{υ_{R}}$	0,68	0,96	1,06	1,07	1,17	1,95
	$\sqrt{υ_{D}}$	0,71	1,01	1,13	1,15	1,26	2,20
	$\sqrt{υ_{J 2}}$	0,75	1,08	1,20	1,24	1,35	2,88
	$\sqrt{υ_{Jack}}$	0,74	1,06	1,18	1,22	1,33	2,79
	$\sqrt{υ_{J 1}}$	0,75	1,09	1,21	1,24	1,36	2,86
	$\sqrt{υ_{R}^{*}}$	0,54	0,76	0,84	0,85	0,93	1,55
	$\sqrt{υ_{D}^{*}}$	0,56	0,80	0,89	0,91	1,00	1,75
	$\sqrt{υ_{J 2}^{*}}$	0,59	0,86	0,95	0,98	1,07	2,29
	$\sqrt{υ_{Jack}^{*}}$	0,58	0,84	0,94	0,97	1,06	2,22
	$\sqrt{υ_{J 1}^{*}}$	0,60	0,86	0,96	0,99	1,08	2,27
PPT $m =$ 25	$\sqrt{υ_{g}}$	0,48	0,71	0,79	0,80	0,88	1,33
	$\sqrt{υ_{w r}}$	0,51	0,76	0,84	0,84	0,92	1,30
	$\sqrt{υ_{J L}}$	0,50	0,76	0,86	0,87	0,96	1,46
	$\sqrt{υ_{R}}$	0,49	0,75	0,84	0,85	0,94	1,43
	$\sqrt{υ_{D}}$	0,53	0,83	0,94	0,96	1,06	1,66
	$\sqrt{υ_{J 2}}$	0,59	0,94	1,06	1,09	1,21	2,15
	$\sqrt{υ_{Jack}}$	0,57	0,92	1,04	1,07	1,18	2,10
	$\sqrt{υ_{J 1}}$	0,60	0,96	1,08	1,11	1,23	2,19
	$\sqrt{υ_{R}^{*}}$	0,43	0,67	0,76	0,76	0,84	1,30
	$\sqrt{υ_{D}^{*}}$	0,47	0,75	0,84	0,86	0,95	1,51
	$\sqrt{υ_{J 2}^{*}}$	0,52	0,84	0,95	0,98	1,08	1,90
	$\sqrt{υ_{Jack}^{*}}$	0,51	0,82	0,93	0,96	1,06	1,86
	$\sqrt{υ_{J 1}^{*}}$	0,53	0,86	0,97	1,00	1,10	1,93
PPT $m =$ 50	$\sqrt{υ_{g}}$	0,72	0,88	0,95	0,95	1,01	1,28
	$\sqrt{υ_{w r}}$	0,78	1,00	1,09	1,09	1,16	1,47
	$\sqrt{υ_{J L}}$	0,81	1,01	1,11	1,11	1,19	1,52
	$\sqrt{υ_{R}}$	0,80	1,00	1,09	1,09	1,18	1,50
	$\sqrt{υ_{D}}$	0,84	1,06	1,15	1,16	1,25	1,64
	$\sqrt{υ_{J 2}}$	0,88	1,11	1,22	1,23	1,33	1,83
	$\sqrt{υ_{Jack}}$	0,88	1,10	1,21	1,22	1,31	1,81
	$\sqrt{υ_{J 1}}$	0,89	1,13	1,23	1,24	1,34	1,85
	$\sqrt{υ_{R}^{*}}$	0,62	0,78	0,85	0,85	0,92	1,16
	$\sqrt{υ_{D}^{*}}$	0,65	0,82	0,90	0,90	0,97	1,28
	$\sqrt{υ_{J 2}^{*}}$	0,68	0,87	0,95	0,96	1,03	1,43
	$\sqrt{υ_{Jack}^{*}}$	0,67	0,86	0,94	0,95	1,02	1,42
	$\sqrt{υ_{J 1}^{*}}$	0,69	0,88	0,96	0,97	1,04	1,44

Enfin, le tableau 3.5 montre la couverture de l’intervalle de confiance de 95 % pour tous les estimateurs fondés sur les distributions $t .$ Cela signifie que nous avons calculé $[{\hat{t}}_{y}^{g r} - t_{0,975, m - 1} \sqrt{υ}, {\hat{t}}_{y}^{g r} + t_{0,975, m - 1} \sqrt{υ}]$ où $t_{0,975, m - 1}$ est le 97,5^e percentile d’une distribution $t$ avec $m - 1$ degrés de liberté. Nous avons ensuite constaté la fréquence à laquelle la valeur vraie tombait en dessous, au-dessus et à l’intérieur de cette fourchette. En plus des nouveaux et des anciens estimateurs, le tableau 3.5 montre également la couverture de l’intervalle de confiance atteinte quand la variance empirique, $υ_{E},$ a été utilisée pour former les intervalles de confiance. Idéalement, le total de la population doit se situer dans l’intervalle de confiance estimé à 95 % pour 95 % des échantillons. Le total réel doit être inférieur aux limites de confiance de 95 % pour 2,5 % des échantillons et supérieur aux limites de confiance pour le même pourcentage d’échantillons.

Les estimateurs par la méthode du jackknife $υ_{D}^{*},$ $υ_{Jack}^{*}$ et $υ_{J 2}$ donnent des taux de couverture supérieurs à ceux des autres estimateurs de la variance, car ils sont plus grands. Dans les petits échantillons, les estimateurs par la méthode du jackknife couvrent au-dessus du niveau nominal. Les estimateurs de la variance classiques, $υ_{g},$ $υ_{w r}$ et $υ_{J L}$ donnent une couverture insuffisante dans un certain nombre de cas, bien que leur couverture ait presque toujours été supérieure à 90 %. Il faut noter que $υ_{D}$ est généralement meilleur que $υ_{R}$ en raison de l’ajustement de la matrice chapeau qui rend $υ_{D}$ plus grand.

Les estimateurs de la variance qui intègrent des ajustements de matrice chapeau $(υ_{D},$ $υ_{J 2},$ $υ_{Jack}$ et $υ_{R}^{*})$ augmentent généralement les taux de couverture de l’intervalle de confiance par rapport aux autres choix. Cet avantage était particulièrement remarquable pour la population de l’ACS population où, par exemple, $υ_{w r}$ couvre dans moins de 90 % des échantillons dans les combinaisons $(υ_{Jack}^{*},$ $m =$ 3), (EAS epsem, $m =$ 3), et (EAS epsem, $m =$ 15). Bien qu’en principe, une CPF semble utile dans certaines combinaisons de population et de tailles d’échantillon, les intervalles de confiance fondés sur des estimateurs de la variance avec CPF ont des taux de couverture inférieurs à ceux sans CPF. Par exemple, dans l’ACS (EAS epsem, $m =$ 15) les taux de couverture de $υ_{R}^{*},$ $υ_{D}^{*},$ $υ_{J 2}^{*},$ $υ_{Jack}^{*}$ et $υ_{J 1}^{*}$ vont de 86,1 à 90,6 % tandis que les versions sans CPF vont de 90,2 à 93,4 %.

Tableau 3.5
Couverture de l’intervalle de confiance de 95 % pour les totaux de population fondés sur des distributions $t$ et d’autres estimateurs de la variance. Voir la description des estimateurs de la variance dans le tableau 3.1
Sommaire du tableau
Le tableau montre les résultats de Couverture de l’intervalle de confiance de 95 % pour les totaux de population fondés sur des distributions $t$ et d’autres estimateurs de la variance. Voir la description des estimateurs de la variance dans le tableau 3.1. Les données sont présentées selon Est. variance (titres de rangée) et Troisième année, ACS, Simulation , ACS , Inf., Moy. et Sup.(figurant comme en-tête de colonne).
Est. variance	Troisième année			ACS			Simulation			Troisième année			ACS			Simulation
	Inf.	Moy.	Sup.	Inf.	Moy.	Sup.	Inf.	Moy.	Sup.	Inf.	Moy.	Sup.	Inf.	Moy.	Sup.	Inf.	Moy.	Sup.
	EAS $m =$ 25			EAS $m =$ 3			EAS $m =$ 300			EAS $m =$ 50			EAS $m =$ 15			EAS $m =$ 1 500
$υ_{E}$	2,9	95,6	1,5	0,7	99,3	0,0	2,7	95,0	2,3	3,4	95,1	1,5	3,3	95,8	1,0	1,0	96,0	3,0
$υ_{g}$	7,4	90,7	1,9	2,4	97,3	0,4	4,3	93,5	2,2	5,9	92,8	1,3	6,6	92,3	1,0	1,0	95,0	4,0
$υ_{w r}$	7,0	90,5	2,5	9,2	88,8	2,0	3,9	92,8	3,3	4,1	95,0	0,9	7,5	91,0	1,5	1,0	96,0	3,0
$υ_{J L}$	5,5	93,2	1,3	6,5	92,1	1,4	4,4	93,4	2,2	3,3	96,1	0,6	7,2	91,4	1,4	1,0	95,0	4,0
$υ_{R}$	5,9	92,7	1,4	3,1	96,3	0,6	4,3	93,5	2,2	3,4	96,0	0,6	6,5	92,5	1,0	1,0	95,0	4,0
$υ_{D}$	3,8	95,4	0,8	1,6	98,0	0,4	3,7	94,2	2,1	2,4	97,1	0,5	5,1	94,3	0,6	1,0	95,0	4,0
$υ_{J 2}$	1,7	98,0	0,3	0,6	99,3	0,1	3,6	94,4	2,0	2,0	97,7	0,3	3,9	95,7	0,4	1,0	95,0	4,0
$υ_{Jack}$	2,1	97,6	0,3	3,2	95,9	0,8	3,6	94,4	2,0	2,0	97,7	0,3	5,6	93,7	0,7	1,0	95,0	4,0
$υ_{J 1}$	1,6	98,1	0,3	1,6	98,0	0,3	3,6	94,4	2,0	2,0	97,7	0,3	4,5	95,0	0,5	1,0	95,0	4,0
$υ_{R}^{*}$	8,6	89,4	2,0	3,4	96,0	0,7	4,4	93,4	2,2	7,8	89,8	2,4	9,5	88,5	2,0	1,0	95,0	4,0
$υ_{D}^{*}$	5,5	93,3	1,2	1,6	98,0	0,4	3,8	94,1	2,1	6,4	92,2	1,4	7,5	91,1	1,4	1,0	95,0	4,0
$υ_{J 2}^{*}$	2,9	96,6	0,5	0,6	99,3	0,1	3,6	94,4	2,0	5,2	93,8	1,0	5,8	93,3	0,8	1,0	95,0	4,0
$υ_{Jack}^{*}$	3,7	95,7	0,6	3,4	95,7	0,9	3,6	94,4	2,0	5,5	93,4	1,1	7,9	90,6	1,6	1,0	95,0	4,0
$υ_{J 1}^{*}$	2,7	96,9	0,4	1,7	97,9	0,4	3,6	94,4	2,0	5,0	93,9	1,1	6,6	92,3	1,1	1,0	95,0	4,0
	EAS epsem $m =$ 25			EAS epsem $m =$ 3			EAS epsem $m =$ 300			EAS epsem $m =$ 50			EAS epsem $m =$ 15			EAS epsem $m =$ 1 500
$υ_{E}$	1,7	96,2	2,1	0,0	99,9	0,1	2,4	94,7	2,9	2,3	95,5	2,2	1,1	97,1	1,8	3,0	94,0	3,0
$υ_{g}$	5,6	91,2	3,2	6,5	91,5	2,0	2,6	94,1	3,3	5,1	92,2	2,7	8,3	90,4	1,3	3,0	96,0	1,0
$υ_{w r}$	5,8	91,2	3,0	9,6	87,2	3,2	3,1	93,3	3,6	3,4	95,1	1,5	9,3	89,7	1,1	3,0	95,0	2,0
$υ_{J L}$	5,1	92,4	2,5	6,5	91,2	2,3	2,6	94,1	3,3	2,8	96,0	1,2	8,2	90,9	0,9	3,0	96,0	1,0
$υ_{R}$	5,2	92,3	2,5	8,4	88,3	3,3	2,6	94,1	3,3	2,9	95,7	1,4	8,8	90,2	1,0	3,0	96,0	1,0
$υ_{D}$	3,7	94,3	2,0	5,5	92,8	1,7	2,5	94,3	3,2	2,3	96,9	0,8	7,8	91,6	0,7	3,0	96,0	1,0
$υ_{J 2}$	1,9	97,3	0,8	2,6	96,7	0,7	2,3	94,9	2,8	2,0	97,9	0,1	6,9	92,6	0,5	3,0	96,0	1,0
$υ_{Jack}$	2,2	96,8	1,0	4,7	94,0	1,3	2,3	94,9	2,8	2,1	97,8	0,1	7,3	92,1	0,6	3,0	96,0	1,0
$υ_{J 1}$	1,8	97,5	0,7	2,5	96,9	0,6	2,3	94,9	2,8	2,0	97,9	0,1	6,2	93,4	0,4	3,0	96,0	1,0
$υ_{R}^{*}$	6,6	89,5	3,9	8,9	87,8	3,4	2,7	93,9	3,4	7,7	88,7	3,6	11,7	86,1	2,2	3,0	96,0	1,0
$υ_{D}^{*}$	5,1	92,5	2,4	5,7	92,4	1,9	2,5	94,3	3,2	6,0	91,6	2,4	10,6	88,0	1,5	3,0	96,0	1,0
$υ_{J 2}^{*}$	3,4	94,9	1,7	2,8	96,5	0,7	2,3	94,9	2,8	4,6	93,7	1,7	9,2	89,7	1,1	3,0	96,0	1,0
$υ_{Jack}^{*}$	3,5	94,8	1,7	4,9	93,7	1,4	2,3	94,9	2,8	4,7	93,3	2,0	9,9	89,0	1,2	3,0	96,0	1,0
$υ_{J 1}^{*}$	3,0	95,4	1,6	2,6	96,8	0,6	2,3	94,9	2,8	4,6	93,7	1,7	8,6	90,6	0,8	3,0	96,0	1,0
	PPT $m =$ 25			PPT $m =$ 3			PPT $m =$ 300			PPT $m =$ 50			PPT $m =$ 9			PPT $m =$ 1 500
$υ_{E}$	1,7	95,9	2,4	0,0	100,0	0,0	2,9	94,2	2,9	2,3	95,3	2,4	0,7	98,0	1,3	2,0	95,0	3,0
$υ_{g}$	6,2	90,0	3,8	4,7	94,3	1,0	2,9	93,9	3,2	3,1	94,1	2,8	5,1	94,4	0,5	2,0	92,0	6,0
$υ_{w r}$	5,1	91,1	3,8	5,6	92,8	1,5	3,1	93,6	3,3	2,0	97,0	1,0	5,3	94,3	0,4	3,0	92,0	5,0
$υ_{J L}$	4,9	92,0	3,1	4,9	93,5	1,5	2,9	94,0	3,1	1,9	96,9	1,2	4,9	94,7	0,3	2,0	92,0	6,0
$υ_{R}$	5,3	91,5	3,2	7,2	90,5	2,3	2,9	93,9	3,2	2,0	96,8	1,2	5,6	94,1	0,4	2,0	92,0	6,0
$υ_{D}$	3,8	94,1	2,1	4,4	94,4	1,1	2,7	94,7	2,6	1,7	97,4	0,9	4,8	94,9	0,3	2,0	92,0	6,0
$υ_{J 2}$	2,7	96,1	1,2	2,6	97,0	0,4	2,6	95,0	2,4	1,6	97,9	0,5	4,3	95,5	0,2	2,0	92,0	6,0
$υ_{Jack}$	2,8	95,8	1,4	4,2	94,9	0,9	2,6	95,0	2,4	1,6	97,9	0,5	4,7	95,1	0,2	2,0	92,0	6,0
$υ_{J 1}$	2,2	96,7	1,1	2,1	97,5	0,4	2,6	95,0	2,4	1,5	98,0	0,5	3,9	96,0	0,1	2,0	92,0	6,0
$υ_{R}^{*}$	7,4	87,8	4,8	7,6	90,0	2,4	2,9	93,9	3,2	5,0	90,6	4,4	8,9	89,8	1,3	2,0	92,0	6,0
$υ_{D}^{*}$	5,3	91,6	3,1	4,7	94,0	1,3	2,7	94,5	2,8	4,1	92,2	3,7	8,1	90,9	1,0	2,0	92,0	6,0
$υ_{J 2}^{*}$	3,6	94,3	2,1	2,8	96,8	0,4	2,6	95,0	2,4	3,0	94,1	2,9	7,2	92,0	0,7	2,0	92,0	6,0
$υ_{Jack}^{*}$	4,0	93,7	2,3	4,5	94,5	1,0	2,6	95,0	2,4	3,1	94,0	2,9	7,9	91,1	1,0	2,0	92,0	6,0
$υ_{J 1}^{*}$	3,5	94,6	1,9	2,2	97,4	0,4	2,6	95,0	2,4	2,9	94,4	2,7	6,8	92,6	0,6	2,0	92,0	6,0

Une des caractéristiques de $υ_{D}$ et $υ_{D}^{*}$ est que les contributions propres aux grappes, $υ_{D , i}$ et $υ_{D, i}^{*},$ ainsi que les estimations de la variance globales peuvent être négatives. Dans les simulations, on a utilisé l’ajustement décrit après (2.11) pour éviter les contributions négatives. Les estimations négatives étaient plus courantes quand les tailles d’échantillon au deuxième degré étaient petites et que les pondérations étaient très variables. Par exemple, pour la population de l’ACS, près de 28 % des échantillons aléatoires simples de 3 grappes et $m_{i} =$ 9 ont donné lieu à au moins une contribution de variance négative pour une grappe. Plus souvent, environ 10 % des échantillons contenaient au moins une estimation de la variance négative pour une grappe. Dans la population des élèves de troisième année, de 16 % à 27 % des échantillons avaient au moins une valeur négative de $υ_{D i} .$ Dans la population simulée ayant de grandes tailles d’échantillon, la valeur de $υ_{D i}$ était négative dans moins de 5 % des échantillons. La correction ponctuelle consistant à modifier $I_{i} - H_{i i}$ en $I_{i},$ $υ_{D}$ est un des estimateurs de la variance les plus attrayants, car il a tendance à surestimer légèrement la variance empirique, a une des meilleures couvertures d’intervalle de confiance et a une variabilité raisonnable comparativement à d’autres estimateurs de la variance.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2019-12-17

Sélection de la langue

Recherche et menus

Recherche

Estimateurs de la variance robustes pour estimateurs par la régression généralisée dans des échantillons en grappes
Section 3. Simulation

3.1 Données

3.1.1 Population d’élèves de troisième année

3.1.2 Population de l’Enquête sur les collectivités américaines (American Community Survey ou ACS)

3.1.3 Population simulée

3.2 Résultats

Estimateurs de la variance robustes pour estimateurs par la régression généralisée dans des échantillons en grappes Section 3. Simulation

3.1 Données

3.1.1 Population d’élèves de troisième année

3.1.2 Population de l’Enquête sur les collectivités américaines (American Community Survey ou ACS)

3.1.3 Population simulée

3.2 Résultats

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Estimateurs de la variance robustes pour estimateurs par la régression généralisée dans des échantillons en grappes
Section 3. Simulation