3 Construction des bandes de confiance
Hervé Cardot, Alain Dessertaine, Camelia Goga, Étienne Josserand et Pauline Lardin
Précédent | Suivant
Nous considérons ici des
bandes de confiance pour la courbe moyenne qui sont de la
forme
où la valeur du
cœfficient est inconnue, et
dépend du niveau de confiance souhaité, et est un estimateur
de l'écart-type de Le calcul de
est basé sur le
fait que sous certaines hypothèses (Cardot et coll. 2013), le processus
converge vers un
processus Gaussien dans l'espace des fonctions continues On a alors
et il suffit donc de
déterminer le quantile d'ordre
de la variable
aléatoire réelle pour construire
complètement la bande de confiance. La distribution du sup de processus Gaussiens
n'est connue explicitement que pour quelques cas particuliers, le mouvement
brownien par exemple.
Nous proposons deux
approches pour déterminer la valeur de . La première repose sur une estimation directe de
l'écart-type et la simulation des processus Gaussiens . La seconde, qui ne nécessite pas de disposer
d'estimateur de la variance, repose sur des techniques de ré-échantillonnage où
à la fois l'écart-type et la valeur de sont obtenus à
partir des réplications bootstrap.
3.1 Construction de bandes de confiance par simulation de processus Gaussiens
Les étapes de
l'algorithme sont les suivantes :
1. Tirer l'échantillon
de taille à l'aide du plan de sondage et calculer l'estimateur ainsi que l'estimateur de la fonction de covariance , .
2. Simuler courbes de même loi que où est un processus Gaussien d'espérance 0 et de
fonction de covariance où , .
3. Déterminer
, le quantile
d'ordre des variables, .
Cet algorithme, très rapide et facile à mettre en œuvre, a
déjà été proposé, dans le cadre d'observations i.i.d. par Faraway (1997), Cuevas et coll. (2006) et Degras (2011) pour
construire des bandes de confiance. On trouvera une justification asymptotique
rigoureuse de cette approche dans Cardot et coll. (2013) pour l'échantillonnage
dans des populations finies.
3.2 Construction des bandes de confiance par bootstrap
Dans ce travail, nous utilisons la méthode de bootstrap
proposée par Gross (1980) pour l'ÉASSR et les extensions proposées par Chauvet
(2007) pour les plans STRAT et . Elle repose sur le principe suivant : l'échantillon est utilisé pour
simuler une population fictive dans laquelle nous
sélectionnons plusieurs échantillons bootstrappés. La mise en œuvre de cet
algorithme n'est pas immédiate lorsque le rapport n'est pas entier.
De nombreuses variantes ont été proposées dans la litérature pour tenir compte
du cas général et nous avons décidé d'adopter celle initialement proposée par
Booth, Butler et Hall (1994) pour le plan d'ÉASSR.
Considérons que l'échantillon de taille a été sélectionné à
l'aide du plan de sondage et soit l'estimateur de calculé à partir de
Algorithme général du bootstrap
1. Dupliquer chaque individu fois, où [.] désigne la partie entière. On
complète la population ainsi obtenue en sélectionnant un échantillon dans avec une probabilité d'inclusion Soit la valeur de la variable d'intérêt sur la
pseudo-population.
2. Tirer échantillons , de taille dans la pseudo-population à l'aide du plan de sondage avec des probabilités d'inclusion et calculer
3. Estimer la fonction par l'écart-type empirique corrigé des
où
4. Choisir comme le quantile d'ordre des variables
Une technique similaire à celle utilisée lors de l'étape 4
de l'algorithme a été utilisée par Bickel et Krieger (1989) pour construire des
bandes de confiance de la fonction de répartition.
Le plan d'ÉASSR utilise
l'algorithme général du bootstrap pour , et pour le plan STRAT, nous
appliquons dans chaque strate , pour l'algorithme
utilisé pour le plan d'ÉASSR avec On retrouve dans ce
cas, l'algorithme proposé par Booth et coll. (1994).
L'adaptation de
l'algorithme du bootstrap au plan a été proposée par Chauvet (2007). Elle consiste à sélectionner
lors de l'étape 2 de l'algorithme général, l'échantillon dans avec les
probabilités d'inclusion
Cette modification est
nécéssaire pour respecter la contrainte de taille fixe lors du
rééchantillonnage. Les probabilités d'inclusion sont également
utilisées pour estimer lors de l'étape 2
de l'algorithme général. La séléction d'un échantillon peut être réalisée en utilisant l'algorithme du cube avec la
variable d'équilibrage . Dans ces conditions, un tri
aléatoire dans la population (resp. ) avant le tirage de (resp. ) est souhaitable afin d'obtenir un plan de sondage proche
de l'entropie maximale (Chauvet
2007, Tillé 2011). Chauvet (2007) donne
également des résultats asymptotiques concernant la convergence de l'estimateur
de la variance obtenu dans le cas du bootstrap du plan .
Enfin, il est également
possible d'adapter cet algorithme général pour estimer la fonction de variance
de l'estimateur Lors de l'étape 1
de l'algorithme, on calcule également les valeurs de dans la
pseudo-population . En utilisant le fait que l'estimateur assisté
par un modèle linéaire est une fonction nonlinéaire d'estimateurs de type
Horvitz-Thompson, la valeur bootstrappée de sur l'échantillon est calculée selon
où Comme le remarquent Canty et Davison (1999) le fait d'utiliser le total de la variable sur la population au lieu de la
pseudo-population conduit à de
meilleurs résultats en particulier quand cette variable présente des valeurs
extrêmes.
Précédent | Suivant