7. Application

Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan

À la présente section, nous utilisons des données tirées de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006 pour évaluer la performance de la méthode non paramétrique sous un plan de sondage en grappes stratifié. La National Health Interview Survey (NHIS) est une enquête sur la santé de portée nationale, réalisée par interview en personne selon un plan stratifié à plusieurs degrés avec suréchantillonnage des populations noires, hispaniques et âgées. Pour des raisons de confidentialité, la stratification et les variables au niveau de l'unité d'échantillonnage (UPE) réelles ne sont pas communiquées dans les fichiers de données à grande diffusion; elles sont remplacées par des pseudo-strates et UPE (deux par strate). La MEPS est réalisée auprès d'un sous-échantillon de l'échantillon de la NHIS de l'année précédente, selon le même plan stratifié à plusieurs degrés.

Tant dans la NHIS que dans la MEPS, on demande aux participants à l'enquête s'ils sont couverts par une assurance maladie et, dans l'affirmative, quel régime d'assurance maladie ils utilisent (privé par opposition à public tel que Medicare ou Medicaid). Nous estimons les taux globaux de couverture par une assurance maladie, ainsi que les taux de couverture dans des sous-populations définies en fonction de variables démographiques telles que le sexe, la race, le niveau de revenu ou des combinaisons de ces variables; en particulier, nous estimons la couverture par une assurance maladie des hommes, des Blancs non hispaniques et des Blancs non hispaniques dont le revenu du ménage est compris entre 25 000 $ et 35 000 $ par année. Nous supprimons les cas pour lesquels les valeurs manquent pour certaines questions et nous axons notre simulation sur les cas complets. Nous obtenons ainsi 20 147 et 20 893 cas pour les données de la NHIS et de la MEPS, respectivement.

7.1 Estimation de la couverture par une assurance maladie d'après la NHIS et la MEPS

Dans la présente étude par simulation, nous utilisons la méthode non paramétrique pour apporter un ajustement pour tenir compte de l'échantillonnage en grappes stratifié utilisé dans la NHIS et la MEPS de 2006, et pour produire des populations synthétiques qui peuvent être analysées comme des échantillons aléatoires simples. Nous considérons également une approche fondée sur un modèle pour produire des populations synthétiques en utilisant un modèle log-linéaire pour la situation de couverture par une assurance maladie en fonction de six variables démographiques indépendantes : sexe, race, région de recensement, niveau de scolarité, âge (catégorique) et revenu du ménage (catégorique). Ensuite, nous évaluons la méthode en comparant les estimations du taux de couverture par une assurance maladie pour l'ensemble de la population et pour les sous-domaines choisis pour les populations synthétiques obtenues par la méthode non paramétrique et par celle du modèle log-linéaire à celles obtenues au moyen des données réelles.

7.1.1 Production de populations synthétiques non paramétriques

En utilisant la méthode non paramétrique élaborée à la section 3, nous produisons 200 populations synthétiques pour chaque enquête. Plus précisément, nous générons $B =$ 200 échantillons BB et, pour chacun de ces échantillons, nous générons $F =$ 10 échantillons BBPF de taille $5 n (K = 5) .$ Donc, chaque population synthétique est 50 fois plus grande que l'échantillon réel (1 007 350 pour la NHIS, 1 044 650 pour la MEPS). Chaque population synthétique est analysée comme un échantillon aléatoire simple et les estimations sont combinées comme il est décrit à la section 5.

7.1.2 Production de populations synthétiques au moyen de modèles log-linéaires

Dans la situation fréquente où les données d'enquête d'intérêt prennent la forme d'un tableau de contingence multidimensionnel, un modèle log-linéaire pourrait être considéré comme une approche paramétrique pour générer des tirages à partir d'une loi prédictive a posteriori. Pour simplifier l'exposé, supposons que $Y$ est la variable d'intérêt comprenant $m$ niveaux, et que $Z$ est une variable de plan comprenant $n$ niveaux (p. ex. sexe ou race) dont la loi de probabilité marginale est connue pour la population. Supposons que $π_{i j}, i = 1, \dots, m, j = 1, \dots, n,$ représente la proportion dans la $i j^{e}$ cellule, $\sum_{i = 1}^{m} \sum_{j = 1}^{n} π_{i j} = 1 .$ Un modèle log-linéaire entièrement saturé est donné par (Agresti, 2002) :

$log (π_{i j}) = λ_{0} + λ_{i}^{Z} + λ_{j}^{Y} + λ_{i j}^{Z Y}, i = 1, \dots, m, j = 1, \dots, n,$

où $log (π_{i j})$ est le logarithme de la probabilité qu'une observation se trouve dans la cellule $i j$ du tableau de contingence, $λ_{i}^{Z}$ est l'effet principal pour $Z, λ_{j}^{Y}$ est l'effet principal pour $Y$ et $λ_{i j}^{Z Y}$ est l'effet d'interaction pour $Z$ et $Y .$ Ce modèle comprend tous les effets unidimensionnels et bidimensionnels possibles, et est donc saturé, car il contient le même nombre d'effets que de cellules dans le tableau de contingence. Pour éviter de surajuster les données dans l'exemple, nous pouvons considérer des modèles non saturés dont sont exclus certains termes d'interaction, voire tous, en choisissant le modèle en nous basant sur des tests de rapport de vraisemblance, ou sur le critère AIC ou BIC.

Les populations synthétiques peuvent être générées à partir de la distribution prédictive a posteriori issue du modèle. Toutefois, si les données sont recueillies selon un plan de sondage complexe, nous ne connaissons aucun logiciel statistique standard capable de produire à la fois l'estimation ponctuelle et l'estimation de covariance des coefficients de régression. Nous avons donc choisi d'utiliser une méthode de rééchantillonnage jackknife pour tenir compte de la stratification, de la mise en grappe et de la pondération. Plus précisément, les populations synthétiques paramétriques peuvent être générées selon les étapes suivantes :

1. Estimer les coefficients et la matrice de covariance :

Sous le modèle choisi (supposé être le modèle saturé bidimensionnel ici, simplement pour l'illustration), estimer les coefficients $λ = {(λ_{0}, λ_{i}^{Z}, λ_{j}^{Y}, λ_{i j}^{Z Y})}^{'}, i = 1, \dots, m - 1, j = 1, \dots, n - 1$ et la matrice de covariance des estimations $\hat{λ} = {({\hat{λ}}_{0}, {\hat{λ}}_{i}^{Z}, {\hat{λ}}_{j}^{Y}, {\hat{λ}}_{i j}^{Z Y})}^{'}$ après avoir tenu compte des caractéristiques du plan complexe en utilisant la méthode des répliques équilibrées jackknife (REJ) :

Pour chaque réplique, retirer une grappe et augmenter les poids de sondage des unités des autres grappes à l'intérieur de la même strate d'un facteur $c_{h} / (c_{h} - 1)$ (poids de rééchantillonnage), où $c_{h}$ désigne le nombre de grappes dans la strate $h .$ En supposant que nous avons un total de $\sum_{h = 1}^{H} c_{h} = C$ grappes, nous avons alors $C$ répliques. Pour chaque réplique, nous ajustons le modèle log-linéaire et obtenons les estimations du maximum de vraisemblance (EMV) des coefficients $λ = {(λ_{0}, λ_{i}^{Z}, λ_{j}^{Y}, λ_{i j}^{Z Y})}^{'}, i = 1, \dots, m - 1,$ $j = 1, \dots, n - 1.$
Pour chaque réplique, utiliser les poids de rééchantillonnage pour ajuster le modèle log-linéaire. Plus précisément, utiliser les poids de rééchantillonnage pour calculer la taille de chaque cellule du tableau de contingence, qui est utilisé pour ajuster le modèle log-linéaire. Nous notons l'EMV pour la $r^{e}$ réplique comme un vecteur colonne, ${\hat{λ}}_{r}, r = 1, \dots, c_{h}$ pour la strate $h .$ Soulignons que $λ = {(λ_{0}, λ_{i}^{Z}, λ_{j}^{Y}, λ_{i j}^{Z Y})}^{'}, i = 1, \dots, m - 1,$ $j = 1, \dots, n - 1$ est un vecteur colonne de dimension $m n$ par 1. Nous le notons $λ = {(λ_{0}, λ_{i}^{Z}, λ_{j}^{Y}, λ_{i j}^{Z Y})}^{'} =$ ${(λ_{0}, λ_{1}, \dots, λ_{m n})}^{'} .$ De même, ${\hat{λ}}_{r}, r = 1, \dots, c_{h}, h = 1, \dots, H$ sont aussi des vecteurs colonnes de dimensions $m n$ par 1 que nous notons ${({\hat{λ}}_{0}^{(r)}, {\hat{λ}}_{1}^{(r)}, \dots, {\hat{λ}}_{m n}^{(r)})}^{'} .$

L'EMV des coefficients $λ = {(λ_{0}, λ_{i}^{Z}, λ_{j}^{Y}, λ_{i j}^{Z Y})}^{'}, i = 1, \dots, m - 1, j = 1, \dots, n - 1$ peut être obtenu comme ${\hat{λ}}_{EMV} = \sum_{h = 1}^{H} \sum_{r = 1}^{c_{h}} {\hat{λ}}_{r} / C .$ Pour la matrice de covariance de dimensions $m n$ par $m n$ , l'estimation par rééchantillonnage jackknife du $p q^{e}$ $(p, q = 1, \dots, m n)$ élément est la covariance entre les $p^{e}$ et $q^{e}$ coefficients, qui est donnée par :

$\sum_{h = 1}^{H} \frac{c_{h} - 1}{c_{h}} \sum_{r = 1}^{c_{h}} ({\hat{λ}}_{p}^{(r)} - {\bar{\hat{λ}}}_{p}) ({\hat{λ}}_{q}^{(r)} - {\bar{\hat{λ}}}_{q}),$

où ${\bar{\hat{λ}}}_{p} = \sum_{h = 1}^{H} \sum_{r = 1}^{c_{h}} {\hat{λ}}_{p}^{(r)} / C$ et ${\bar{\hat{λ}}}_{q} = \sum_{h = 1}^{H} \sum_{r = 1}^{c_{h}} {\hat{λ}}_{q}^{(r)} / C .$ Cela nous donne l'estimation de variance correcte de ${\hat{λ}}_{EMV} .$

2. Obtenir une approximation de la loi a posteriori des coefficients :

Soit $T$ la décomposition de Cholesky telle que $T T^{t} = cov ({\hat{λ}}_{EMV}) .$ Générer un vecteur $z$ de variables aléatoires normales standardisées et définir $Λ_{*} = {\hat{λ}}_{EMV} + T z .$

3. Imputer les valeurs non observées de la population :

Supposons que l'on procède à $L$ tirages, $Λ_{1}, \dots, Λ_{L},$ à partir de la loi a posteriori approximative de $λ .$ Pour chaque

$l = 1, \dots, L, Λ_{l} = {(Λ_{0}^{(l)}, Λ_{i}^{X (l)}, Λ_{j}^{Y (l)}, Λ_{i j}^{X Y (l)})}^{'}, i = 1, \dots, m - 1, j = 1, \dots, n - 1,$

nous pouvons générer un tableau synthétique en utilisant le modèle supposé :

$log (π_{i j}^{(l)}) = Λ_{0}^{(l)} + Λ_{i}^{X (l)} + Λ_{j}^{Y (l)} + Λ_{i j}^{X Y (l)}, i = 1, \dots, m - 1, j = 1, \dots, n - 1.$

Une fois que les proportions sont déterminées pour chaque cellule, nous pouvons générer un tableau synthétique de n'importe quelle taille.

Les résultats qui suivent sont fondés sur un tableau de contingence à sept dimensions (voir le tableau 7.1 pour les catégories particulières de covariables). Les mesures du BIC indiquent qu'un modèle contenant toutes les interactions bidimensionnelles mais ne contenant aucune interaction tridimensionnelle est celui qui donne l'ajustement le plus parcimonieux.

Tableau 7.1
Variables et catégories de réponse de la NHIS et de la MEPS de 2006 utilisées dans le modèle log-linéaire
Variables d'intérêt	Catégories de réponse
Âge	1 : [18; 24]; 2 : [25; 34]; 3 : [35; 44]; 4 : [45; 54]; 5 : [55; 64]; 6 : >= 65
Région de recensement	1 : Nord-Est; 2 : Mid-Ouest; 3 : Sud; 4 : Ouest
Scolarité	1 : Études secondaires partielles; 2 : Diplôme d’études secondaires; 3 : Études collégiales partielles; 4 : Diplôme d’études collégiales
Sexe	1 : Masculin; 2 : Féminin
Couverture par une assurance maladie	1 : N’importe quel régime privé; 2 : Régime public; 3 : Non assuré
Revenu	1 : (0; 10 000); 2 : [10 000; 15 000); 3 : [15 000; 20 000); 4 : [20 000; 25 000); 5 : [25 000; 35 000); 6 : [35 000; 75 000); 7 : >= 75 000
Race	1 : Hispanique; 2 : Blanche non hispanique; 3 : Noire non hispanique; 4 : Tous les autres groupes non hispaniques confondus

7.2 Résultats

Les résultats sont résumés au tableau 7.2. Pour la population totale et les sous-populations les plus grandes, nous voyons que les estimations ponctuelles (moyenne a posteriori) des taux de couverture par une assurance médicale sont les mêmes sous les approches non paramétrique et log-linéaire, et qu'elles sont presque identiques à celles obtenues au moyen des données réelles après avoir tenu compte des caractéristiques du plan de sondage complexe. Les deux méthodes donnent des populations synthétiques dont les variances (a posteriori) sont légèrement plus élevées que dans le cas des données réelles, ce qui reflète la perte d'information dans la synthèse. Dans le cas de la NHIS, la perte pour l'estimateur non paramétrique est égale, en moyenne, à un peu plus de 20 % et est légèrement supérieure à celle observée pour le modèle log-linéaire, pour lequel la perte est, en moyenne, de l'ordre de 10 %. Dans le cas de la MEPS, les estimateurs affichent tous deux une perte d'environ 10 % par rapport aux données réelles. Cependant, pour les sous-populations plus petites (Blancs non hispaniques gagnant de 25 000 $ à 35 000 $ par année), le modèle log-linéaire produit des résultats biaisés, dus au fait que le modèle log-linéaire ne contient pas toutes les interactions possibles. La méthode non paramétrique produit des estimations presque identiques à celles obtenues au moyen des données réelles après avoir tenu compte des caractéristiques du plan de sondage complexe. Le modèle log-linéaire donne également lieu à une sous-estimation importante, de l'ordre de 30 % à 40 %, de la variance de la couverture par une assurance médicale pour ces sous-populations, par opposition à une surestimation de l'ordre de 10 % à 40 % dans le cas de l'approche non paramétrique.

Tableau 7.2
Estimations d'après les données réelles et d'après les populations synthétiques (modèles non paramétrique et log-linéaire) pour la NHIS et la MEPS de 2006
Sommaire du tableau
Le tableau montre les estimations d'après les données réelles et d'après les populations synthétiques. Les données sont présentées selon domaine (titres de rangée) et données réelles (plan complexe), populations synthétiques (figurant comme en-tête de colonne).
Domaine	Données réelles (plan complexe)			Populations synthétiques
	Données réelles (plan complexe)			Non paramétrique		Modèle log-linéaire
	Type	NHIS	MEPS	NHIS	MEPS	NHIS	MEPS
Population complète	Proportion
	Régime privé	0,746	0,735	0,746	0,736	0,746	0,734
	Régime public	0,075	0,133	0,075	0,132	0,076	0,133
	Non assuré	0,179	0,132	0,179	0,132	0,178	0,132
	Variance
	Régime privé	2,46E-05	2,78E-05	3,15E-05	3,31E-05	2,66E-05	2,86E-05
	Régime public	6,29E-06	1,44E-05	8,06E-06	1,59E-05	7,99E-06	1,77E-05
	Non assuré	1,84E-05	1,41E-05	2,29E-05	1,71E-05	1,81E-05	1,56E-05
Hommes	Proportion
	Régime privé	0,74	0,735	0,74	0,736	0,74	0,735
	Régime public	0,06	0,101	0,06	0,1	0,06	0,102
	Non assuré	0,2	0,164	0,2	0,164	0,2	0,164
	Variance
	Régime privé	3,32E-05	3,87E-05	3,93E-05	4,31E-05	3,70E-05	3,52E-05
	Régime public	6,82E-06	1,53E-05	8,81E-06	1,63E-05	7,91E-06	1,91E-05
	Non assuré	2,94E-05	2,64E-05	3,29E-05	2,79E-05	3,19E-05	2,56E-05
Race blanche non hispanique	Proportion
	Régime privé	0,805	0,788	0,804	0,788	0,804	0,788
	Régime public	0,062	0,116	0,062	0,116	0,062	0,117
	Non assuré	0,134	0,096	0,134	0,096	0,134	0,096
	Variance
	Régime privé	2,99E-05	3,35E-05	3,79E-05	4,12E-05	3,07E-05	3,98E-05
	Régime public	8,20E-06	1,81E-05	1,04E-05	2,00E-05	1,10E-05	2,45E-05
	Non assuré	2,02E-05	1,51E-05	2,35E-05	1,80E-05	1,82E-05	1,82E-05
Race blanche non hispanique et revenu [25 000 $; 35 000 $)	Proportion
	Régime privé	0,827	0,813	0,827	0,814	0,84	0,838
	Régime public	0,039	0,079	0,039	0,079	0,037	0,067
	Non assuré	0,134	0,108	0,134	0,107	0,122	0,096
	Variance
	Régime privé	1,00E-04	1,39E-04	1,48E-04	1,63E-04	6,80E-05	8,59E-05
	Régime public	2,82E-05	6,31E-05	3,86E-05	7,28E-05	1,79E-05	4,25E-05
	Non assuré	7,24E-05	8,92E-05	9,55E-05	1,11E-04	4,38E-05	5,79E-05

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

7. Application

7.1 Estimation de la couverture par une assurance maladie d'après la NHIS et la MEPS

7.1.1 Production de populations synthétiques non paramétriques

7.1.2 Production de populations synthétiques au moyen de modèles log-linéaires

7.2 Résultats