3 Construction des bandes de confiance

Hervé Cardot, Alain Dessertaine, Camelia Goga, Étienne Josserand et Pauline Lardin

Nous considérons ici des bandes de confiance pour la courbe moyenne $μ$ qui sont de la forme

$ℙ (μ (t) \in [\hat{μ} (t) \pm c_{α} \hat{σ} (t)], \forall t \in [0, T]) = 1 - α, (3.1)$

où la valeur du cœfficient $c_{α}$ est inconnue, et dépend du niveau de confiance $1 - α$ souhaité, et $\hat{σ} (t)$ est un estimateur de l'écart-type de $\hat{μ} (t) .$ Le calcul de $c_{α}$ est basé sur le fait que sous certaines hypothèses (Cardot et coll. 2013), le processus

$Z (t) = (\hat{μ} (t) - μ (t)) / \hat{σ} (t), t \in [0, T],$

converge vers un processus Gaussien dans l'espace des fonctions continues $C ([0, T]) .$ On a alors

$ℙ (\sup_{t \in T} | Z (t) | \leq c_{α}) = ℙ (μ (t) \in [\hat{μ} (t) \pm c_{α} \hat{σ} (t)], \forall t \in [0, T]) (3.2)$

et il suffit donc de déterminer $c_{α},$ le quantile d'ordre $1 - α$ de la variable aléatoire réelle $\sup_{t \in [0, T]} | Z (t) |$ pour construire complètement la bande de confiance. La distribution du sup de processus Gaussiens n'est connue explicitement que pour quelques cas particuliers, le mouvement brownien par exemple.

Nous proposons deux approches pour déterminer la valeur de $c_{α}$ . La première repose sur une estimation directe de l'écart-type et la simulation des processus Gaussiens $Z (t)$ . La seconde, qui ne nécessite pas de disposer d'estimateur de la variance, repose sur des techniques de ré-échantillonnage où à la fois l'écart-type et la valeur de $c_{α}$ sont obtenus à partir des réplications bootstrap.

3.1 Construction de bandes de confiance par simulation de processus Gaussiens

Les étapes de l'algorithme sont les suivantes :

1. Tirer l'échantillon $s$ de taille $n$ à l'aide du plan de sondage $p$ et calculer l'estimateur $\hat{μ}$ ainsi que l'estimateur $\hat{γ} (r, t)$ de la fonction de covariance $γ (r, t)$ , $r, t \in [0, T]$ .

2. Simuler $M$ courbes $Z_{m},$ $m = 1 \dots, M,$ de même loi que $Z$ où $Z$ est un processus Gaussien d'espérance 0 et de fonction de covariance $ρ$ où $ρ (r, t) = \hat{γ} (r, t) / {(\hat{γ} (r) \hat{γ} (t))}^{1 / 2}$ , $r, t \in [0, T]$ .

3. Déterminer $c_{α}$ , le quantile d'ordre $1 - α$ des variables, ${(\sup_{t \in [0, T]} | Z_{m} (t) |)}_{m = 1, \dots, M}$ .

Cet algorithme, très rapide et facile à mettre en œuvre, a déjà été proposé, dans le cadre d'observations i.i.d. par Faraway (1997), Cuevas et coll. (2006) et Degras (2011) pour construire des bandes de confiance. On trouvera une justification asymptotique rigoureuse de cette approche dans Cardot et coll. (2013) pour l'échantillonnage dans des populations finies.

3.2 Construction des bandes de confiance par bootstrap

Dans ce travail, nous utilisons la méthode de bootstrap proposée par Gross (1980) pour l'ÉASSR et les extensions proposées par Chauvet (2007) pour les plans STRAT et $π p s$ . Elle repose sur le principe suivant : l'échantillon $s$ est utilisé pour simuler une population fictive $U^{*}$ dans laquelle nous sélectionnons plusieurs échantillons bootstrappés. La mise en œuvre de cet algorithme n'est pas immédiate lorsque le rapport $1 / π_{k}$ n'est pas entier. De nombreuses variantes ont été proposées dans la litérature pour tenir compte du cas général et nous avons décidé d'adopter celle initialement proposée par Booth, Butler et Hall (1994) pour le plan d'ÉASSR.

Considérons que l'échantillon $s$ de taille $n$ a été sélectionné à l'aide du plan de sondage $p$ et soit $\hat{μ}$ l'estimateur de $μ$ calculé à partir de $s .$

Algorithme général du bootstrap

1. Dupliquer chaque individu $k \in s,$ $[1 / π_{k}]$ fois, où [.] désigne la partie entière. On complète la population ainsi obtenue en sélectionnant un échantillon dans $s$ avec une probabilité d'inclusion $α_{k} = 1 / π_{k} - [1 / π_{k}] .$ Soit $Y_{k}^{*},$ $k \in U^{*}$ la valeur de la variable d'intérêt sur la pseudo-population.

2. Tirer $M$ échantillons $s_{m}^{*},$ $m = 1, \dots, M$ , de taille $n$ dans la pseudo-population $U^{*}$ à l'aide du plan de sondage $p^{*}$ avec des probabilités d'inclusion $π_{k}^{*}$ et calculer

${\hat{μ}}_{m}^{*} (t) = \frac{1}{N} \sum_{k \in s_{m}^{*}} \frac{Y_{k}^{*} (t)}{π_{k}^{*}}, t \in [0, T] et m = 1,..., M .$

3. Estimer la fonction $\hat{σ} (t)$ par l'écart-type empirique corrigé des ${\hat{μ}}_{m}^{*} (t), m = 1, \dots, M,$

${\hat{σ}}^{2} (t) = \frac{1}{M - 1} \sum_{m = 1}^{M} {({\hat{μ}}_{m}^{*} (t) - {\hat{μ}}_{•}^{*} (t))}^{2},$

où

${\hat{μ}}_{•}^{*} (t) = \frac{1}{M} \sum_{m = 1}^{M} {\hat{μ}}_{m}^{*} (t) et t \in [0, T] .$

4. Choisir $c_{α}$ comme le quantile d'ordre $1 - α$ des variables

${(\sup_{t \in [0, T]} \frac{| {\hat{μ}}_{m}^{*} (t) - \hat{μ} (t) |}{\hat{σ} (t)})}_{m = 1,..., M} .$

Une technique similaire à celle utilisée lors de l'étape 4 de l'algorithme a été utilisée par Bickel et Krieger (1989) pour construire des bandes de confiance de la fonction de répartition.

Le plan d'ÉASSR utilise l'algorithme général du bootstrap pour $π_{k}^{*} = n / N$ , et pour le plan STRAT, nous appliquons dans chaque strate $U_{h}$ , pour $h = 1, \dots, H,$ l'algorithme utilisé pour le plan d'ÉASSR avec $π_{k}^{*} = n_{h} / N_{h}$ $k \in U_{h} .$ On retrouve dans ce cas, l'algorithme proposé par Booth et coll. (1994).

L'adaptation de l'algorithme du bootstrap au plan $π p s$ a été proposée par Chauvet (2007). Elle consiste à sélectionner lors de l'étape 2 de l'algorithme général, l'échantillon $s^{*}$ dans $U^{*}$ avec les probabilités d'inclusion

$π_{k}^{*} = \frac{n x_{k}}{\sum_{k \in U^{*}} x_{k}} .$

Cette modification est nécéssaire pour respecter la contrainte de taille fixe lors du rééchantillonnage. Les probabilités d'inclusion $π_{k}^{*}$ sont également utilisées pour estimer ${\hat{μ}}_{m}^{*}$ lors de l'étape 2 de l'algorithme général. La séléction d'un échantillon $π p s$ peut être réalisée en utilisant l'algorithme du cube avec la variable d'équilibrage $π$ . Dans ces conditions, un tri aléatoire dans la population $U$ (resp. $U^{*}$ ) avant le tirage de $s$ (resp. $s_{m}^{*}$ ) est souhaitable afin d'obtenir un plan de sondage proche de l'entropie maximale (Chauvet 2007, Tillé 2011). Chauvet (2007) donne également des résultats asymptotiques concernant la convergence de l'estimateur de la variance obtenu dans le cas du bootstrap du plan $π p s$ .

Enfin, il est également possible d'adapter cet algorithme général pour estimer la fonction de variance de l'estimateur ${\hat{μ}}_{M A} .$ Lors de l'étape 1 de l'algorithme, on calcule également les valeurs $x_{k}^{*}$ de $x_{k}$ dans la pseudo-population $U^{*}$ . En utilisant le fait que l'estimateur assisté par un modèle linéaire est une fonction nonlinéaire d'estimateurs de type Horvitz-Thompson, la valeur bootstrappée ${\hat{μ}}_{M A}^{*}$ de ${\hat{μ}}_{M A}$ sur l'échantillon $s_{m}^{*}$ est calculée selon

${\hat{μ}}_{M A}^{*} (t) = \frac{1}{N} \sum_{k \in s_{m}^{*}} \frac{Y_{k}^{*} (t) - x_{k}^{*'} {\hat{β}}^{*} (t)}{π_{k}^{*}} + \frac{1}{N} (\sum_{k \in U} x_{k}^{'}) {\hat{β}}^{*} (t)$

où ${\hat{β}}^{*} (t) = {(\sum_{s_{m}^{*}} x_{k}^{*} x_{k}^{*'})}^{- 1} \sum_{s_{m}^{*}} x_{k}^{*} Y_{k}^{*} (t) .$ Comme le remarquent Canty et Davison (1999) le fait d'utiliser le total de la variable $x_{k}$ sur la population $U$ au lieu de la pseudo-population $U^{*}$ conduit à de meilleurs résultats en particulier quand cette variable présente des valeurs extrêmes.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

3 Construction des bandes de confiance

3.1 Construction de bandes de confiance par simulation de processus Gaussiens

3.2 Construction des bandes de confiance par bootstrap

Algorithme général du bootstrap