7. Application
Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan
Précédent | Suivant
À la présente section, nous
utilisons des données tirées de la National Health
Interview Survey (NHIS) de 2006 et de la Medical
Expenditure Panel Survey (MEPS) de 2006 pour évaluer la
performance de la méthode non paramétrique sous un plan de sondage en grappes
stratifié. La National Health Interview Survey (NHIS) est une enquête sur la santé de portée nationale, réalisée par
interview en personne selon un plan stratifié à plusieurs degrés avec suréchantillonnage
des populations noires, hispaniques et âgées. Pour des raisons de
confidentialité, la stratification et les variables au niveau de l'unité
d'échantillonnage (UPE) réelles ne sont pas communiquées dans les fichiers de
données à grande diffusion; elles sont remplacées par des pseudo-strates et UPE
(deux par strate). La MEPS est réalisée auprès d'un sous-échantillon de l'échantillon
de la NHIS de l'année précédente, selon le même plan stratifié à plusieurs
degrés.
Tant dans la NHIS que dans la MEPS,
on demande aux participants à l'enquête s'ils sont couverts par une assurance
maladie et, dans l'affirmative, quel régime d'assurance maladie ils utilisent
(privé par opposition à public tel
que Medicare ou Medicaid). Nous estimons les taux globaux de couverture par une
assurance maladie, ainsi que les taux de couverture dans des sous-populations définies
en fonction de variables démographiques telles que le sexe, la race, le niveau
de revenu ou des combinaisons de ces variables; en particulier, nous estimons la
couverture par une assurance maladie des hommes, des Blancs non hispaniques et des
Blancs non hispaniques dont le revenu du ménage est compris entre 25 000 $
et 35 000 $ par année. Nous supprimons les cas pour lesquels les
valeurs manquent pour certaines questions et nous axons notre simulation sur
les cas complets. Nous obtenons ainsi 20 147 et 20 893 cas pour
les données de la NHIS et de la MEPS, respectivement.
7.1 Estimation de la couverture par
une assurance maladie d'après la NHIS et la MEPS
Dans la
présente étude par simulation, nous utilisons la méthode non paramétrique pour
apporter un ajustement pour tenir compte de l'échantillonnage en grappes
stratifié utilisé dans la NHIS et la MEPS de 2006, et pour produire des populations
synthétiques qui peuvent être analysées comme des échantillons aléatoires
simples. Nous considérons également une approche fondée sur un modèle pour produire
des populations synthétiques en utilisant un modèle log-linéaire pour la
situation de couverture par une assurance maladie en fonction de six variables
démographiques indépendantes : sexe, race, région de recensement, niveau
de scolarité, âge (catégorique) et revenu du ménage (catégorique). Ensuite,
nous évaluons la méthode en comparant les estimations du taux de couverture par
une assurance maladie pour l'ensemble de la population et pour les
sous-domaines choisis pour les populations synthétiques obtenues par la méthode
non paramétrique et par celle du modèle log-linéaire à celles obtenues au moyen
des données réelles.
7.1.1 Production de populations synthétiques non
paramétriques
En
utilisant la méthode non paramétrique élaborée à la section 3, nous
produisons 200 populations synthétiques pour chaque enquête. Plus
précisément, nous générons 200 échantillons BB
et, pour chacun de ces échantillons, nous générons 10 échantillons
BBPF de taille Donc, chaque population
synthétique est 50 fois plus grande que l'échantillon réel (1 007 350
pour la NHIS, 1 044 650 pour la MEPS). Chaque population synthétique est
analysée comme un échantillon aléatoire simple et les estimations sont combinées comme il est décrit à la section 5.
7.1.2 Production de populations synthétiques au
moyen de modèles log-linéaires
Dans la
situation fréquente où les données d'enquête d'intérêt prennent la forme d'un
tableau de contingence multidimensionnel, un modèle log-linéaire pourrait être
considéré comme une approche paramétrique pour générer des tirages à partir
d'une loi prédictive a posteriori. Pour simplifier l'exposé, supposons que est la variable d'intérêt comprenant niveaux, et que est une variable de plan comprenant niveaux (p. ex.
sexe ou race) dont la loi de probabilité marginale est connue pour la population.
Supposons que représente
la proportion dans la cellule,
Un modèle log-linéaire
entièrement saturé est donné par (Agresti,
2002) :
où est le logarithme
de la probabilité qu'une observation se trouve dans la cellule du tableau de
contingence, est l'effet
principal pour est l'effet
principal pour et est l'effet d'interaction
pour et Ce modèle comprend
tous les effets unidimensionnels et bidimensionnels possibles, et est donc
saturé, car il contient le même nombre d'effets que de cellules dans le tableau
de contingence. Pour éviter de surajuster les données dans l'exemple, nous
pouvons considérer des modèles non saturés dont sont exclus certains termes d'interaction,
voire tous, en choisissant le modèle en nous basant sur des tests de rapport de
vraisemblance, ou sur le critère AIC ou BIC.
Les populations
synthétiques peuvent être générées à partir de la distribution prédictive
a posteriori issue du modèle. Toutefois, si les données sont recueillies
selon un plan de sondage complexe, nous ne connaissons aucun logiciel
statistique standard capable de produire à la fois l'estimation ponctuelle et l'estimation
de covariance des coefficients de régression. Nous avons donc choisi d'utiliser
une méthode de rééchantillonnage jackknife pour tenir compte de la stratification,
de la mise en grappe et de la pondération. Plus précisément, les populations
synthétiques paramétriques peuvent être générées selon les étapes
suivantes :
1.
Estimer les coefficients et la matrice de covariance :
Sous le
modèle choisi (supposé être le modèle saturé bidimensionnel ici,
simplement pour l'illustration), estimer les coefficients et la matrice de
covariance des estimations après avoir tenu
compte des caractéristiques du plan complexe en utilisant la méthode des
répliques équilibrées jackknife (REJ) :
- Pour chaque réplique, retirer une grappe et augmenter les poids de
sondage des unités des autres grappes à l'intérieur de la même strate d'un
facteur (poids
de rééchantillonnage), où désigne
le nombre de grappes dans la strate En
supposant que nous avons un total de grappes,
nous avons alors répliques. Pour chaque réplique, nous ajustons
le modèle log-linéaire et obtenons les estimations du maximum de vraisemblance
(EMV) des coefficients
- Pour chaque réplique, utiliser les poids de rééchantillonnage pour
ajuster le modèle log-linéaire. Plus précisément, utiliser les poids de
rééchantillonnage pour calculer la taille de chaque cellule du tableau de
contingence, qui est utilisé pour ajuster le modèle log-linéaire. Nous notons
l'EMV pour la réplique
comme un vecteur colonne, pour la
strate Soulignons que est un vecteur colonne de dimension par 1.
Nous le notons De même,
sont
aussi des vecteurs colonnes de dimensions par 1
que nous notons
L'EMV des
coefficients peut être obtenu
comme Pour la matrice
de covariance de dimensions par , l'estimation par rééchantillonnage jackknife du
élément est la
covariance entre les et coefficients, qui est donnée par :
où et Cela nous donne l'estimation
de variance correcte de
2.
Obtenir une approximation de la loi a posteriori des coefficients :
Soit la décomposition
de Cholesky telle que Générer un vecteur
de variables aléatoires
normales standardisées et définir
3.
Imputer les valeurs non observées de la population :
Supposons
que l'on procède à tirages, à partir de la loi
a posteriori approximative de Pour chaque
nous
pouvons générer un tableau synthétique en utilisant le modèle supposé :
Une
fois que les proportions sont déterminées pour chaque cellule, nous pouvons générer
un tableau synthétique de n'importe quelle taille.
Les
résultats qui suivent sont fondés sur un tableau de contingence à sept
dimensions (voir le tableau 7.1 pour les catégories particulières de covariables).
Les mesures du BIC indiquent qu'un modèle contenant toutes les interactions bidimensionnelles
mais ne contenant aucune interaction tridimensionnelle est celui qui donne
l'ajustement le plus parcimonieux.
Tableau 7.1
Variables et catégories de réponse de la NHIS et de la MEPS de 2006 utilisées dans le modèle log-linéaire
Variables d'intérêt |
Catégories de réponse |
Âge |
1 : [18; 24]; 2 : [25; 34]; 3 : [35; 44]; 4 : [45; 54]; 5 : [55; 64]; 6 : >= 65 |
Région de recensement |
1 : Nord-Est; 2 : Mid-Ouest; 3 : Sud; 4 : Ouest |
Scolarité |
1 : Études secondaires partielles; 2 : Diplôme d’études secondaires; 3 : Études collégiales partielles; 4 : Diplôme d’études collégiales |
Sexe |
1 : Masculin; 2 : Féminin |
Couverture par une assurance maladie |
1 : N’importe quel régime privé; 2 : Régime public; 3 : Non assuré |
Revenu |
1 : (0; 10 000); 2 : [10 000; 15 000); 3 : [15 000; 20 000); 4 : [20 000; 25 000); 5 : [25 000; 35 000);
6 : [35 000; 75 000); 7 : >= 75 000 |
Race |
1 : Hispanique; 2 : Blanche non hispanique; 3 : Noire non hispanique; 4 : Tous les autres groupes non hispaniques confondus |
7.2 Résultats
Les
résultats sont résumés au tableau 7.2. Pour la population totale et les
sous-populations les plus grandes, nous voyons que les estimations ponctuelles
(moyenne a posteriori) des taux de couverture par une assurance médicale
sont les mêmes sous les approches non paramétrique et log-linéaire, et qu'elles
sont presque identiques à celles obtenues au moyen des données réelles après
avoir tenu compte des caractéristiques du plan de sondage complexe. Les deux
méthodes donnent des populations synthétiques dont les variances (a posteriori)
sont légèrement plus élevées que dans le cas des données réelles, ce qui
reflète la perte d'information dans la synthèse. Dans le cas de la NHIS, la
perte pour l'estimateur non paramétrique est égale, en moyenne, à un peu plus
de 20 % et est légèrement supérieure à celle observée pour le modèle
log-linéaire, pour lequel la perte est, en moyenne, de l'ordre de 10 %. Dans
le cas de la MEPS, les estimateurs affichent tous deux une perte d'environ 10 %
par rapport aux données réelles. Cependant, pour les sous-populations plus petites
(Blancs non hispaniques gagnant de 25 000 $ à 35 000 $ par
année), le modèle log-linéaire produit des résultats biaisés, dus au fait que
le modèle log-linéaire ne contient pas toutes les interactions possibles. La
méthode non paramétrique produit des estimations presque identiques à celles
obtenues au moyen des données réelles après avoir tenu compte des
caractéristiques du plan de sondage complexe. Le modèle log-linéaire donne
également lieu à une sous-estimation importante, de l'ordre de 30 % à 40 %,
de la variance de la couverture par une assurance médicale pour ces sous-populations,
par opposition à une surestimation de l'ordre de 10 % à 40 % dans le
cas de l'approche non paramétrique.
Tableau 7.2
Estimations d'après les données réelles et d'après les populations synthétiques (modèles non paramétrique et log-linéaire) pour la NHIS et la MEPS de 2006
Sommaire du tableau
Le tableau montre les estimations d'après les données réelles et d'après les populations synthétiques. Les données sont présentées selon domaine (titres de rangée) et données réelles (plan complexe), populations synthétiques (figurant comme en-tête de colonne).
Domaine
|
Données réelles (plan complexe)
|
Populations synthétiques
|
Non paramétrique
|
Modèle log-linéaire
|
Type
|
NHIS
|
MEPS
|
NHIS
|
MEPS
|
NHIS
|
MEPS
|
Population complète
|
Proportion
|
Régime privé |
0,746
|
0,735
|
0,746
|
0,736
|
0,746
|
0,734
|
Régime public |
0,075
|
0,133
|
0,075
|
0,132
|
0,076
|
0,133
|
Non assuré |
0,179
|
0,132
|
0,179
|
0,132
|
0,178
|
0,132
|
Variance
|
Régime privé |
2,46E-05
|
2,78E-05
|
3,15E-05
|
3,31E-05
|
2,66E-05
|
2,86E-05
|
Régime public |
6,29E-06
|
1,44E-05
|
8,06E-06
|
1,59E-05
|
7,99E-06
|
1,77E-05
|
Non assuré |
1,84E-05
|
1,41E-05
|
2,29E-05
|
1,71E-05
|
1,81E-05
|
1,56E-05
|
Hommes |
Proportion
|
Régime privé |
0,74
|
0,735
|
0,74
|
0,736
|
0,74
|
0,735
|
Régime public |
0,06
|
0,101
|
0,06
|
0,1
|
0,06
|
0,102
|
Non assuré |
0,2
|
0,164
|
0,2
|
0,164
|
0,2
|
0,164
|
Variance
|
Régime privé |
3,32E-05
|
3,87E-05
|
3,93E-05
|
4,31E-05
|
3,70E-05
|
3,52E-05
|
Régime public |
6,82E-06
|
1,53E-05
|
8,81E-06
|
1,63E-05
|
7,91E-06
|
1,91E-05
|
Non assuré |
2,94E-05
|
2,64E-05
|
3,29E-05
|
2,79E-05
|
3,19E-05
|
2,56E-05
|
Race blanche non hispanique |
Proportion
|
Régime privé |
0,805
|
0,788
|
0,804
|
0,788
|
0,804
|
0,788
|
Régime public |
0,062
|
0,116
|
0,062
|
0,116
|
0,062
|
0,117
|
Non assuré |
0,134
|
0,096
|
0,134
|
0,096
|
0,134
|
0,096
|
Variance
|
Régime privé |
2,99E-05
|
3,35E-05
|
3,79E-05
|
4,12E-05
|
3,07E-05
|
3,98E-05
|
Régime public |
8,20E-06
|
1,81E-05
|
1,04E-05
|
2,00E-05
|
1,10E-05
|
2,45E-05
|
Non assuré |
2,02E-05
|
1,51E-05
|
2,35E-05
|
1,80E-05
|
1,82E-05
|
1,82E-05
|
Race blanche non hispanique et revenu [25 000 $; 35 000 $) |
Proportion
|
Régime privé |
0,827
|
0,813
|
0,827
|
0,814
|
0,84
|
0,838
|
Régime public |
0,039
|
0,079
|
0,039
|
0,079
|
0,037
|
0,067
|
Non assuré |
0,134
|
0,108
|
0,134
|
0,107
|
0,122
|
0,096
|
Variance
|
Régime privé |
1,00E-04
|
1,39E-04
|
1,48E-04
|
1,63E-04
|
6,80E-05
|
8,59E-05
|
Régime public |
2,82E-05
|
6,31E-05
|
3,86E-05
|
7,28E-05
|
1,79E-05
|
4,25E-05
|
Non assuré |
7,24E-05
|
8,92E-05
|
9,55E-05
|
1,11E-04
|
4,38E-05
|
5,79E-05
|
Précédent | Suivant