Quelques remarques sur un petit exemple de Jean -Claude Deville au sujet de la non-réponse non-ignorable Section 6. DiscussionQuelques remarques sur un petit exemple de Jean-Claude Deville au sujet de la non-réponse non-ignorable Section 6. Discussion

L’exemple de Deville est particulièrement heureux, car pour les deux modèles, les trois méthodes d’estimation fournissent exactement les mêmes estimateurs. Évidemment, si le modèle est plus compliqué, l’usage de la méthode du maximum de vraisemblance devient laborieux voire impossible. La méthode de calage et de calage généralisé fonctionne dans tous les cas pour autant que le nombre de variables de calage dont les totaux sont connus soit suffisant et que la matrice

$\sum_{k \in R} x_{k} z_{k}^{Τ}$

soit inversible. Dans cet exemple, le déterminant de cette matrice apparaît au dénominateur des estimateurs. Un faible déterminant rend donc les estimations particulièrement hasardeuses. Lesage et Haziza (2015) recommandent par ailleurs de vérifier que les corrélations entre les variables $x_{k}$ et $z_{k}$ soient suffisamment élevées afin d’éviter une possible amplification du biais.

Si les variables sont quantitatives, les solutions vont dépendre de la fonction de calage utilisée $F (.).$ On préconise l’utilisation de la fonction de calage $F (z_{k}^{Τ} λ) =1 + \exp (z_{k}^{Τ} λ)$ qui a l’avantage de fournir des poids supérieurs à 1. L’inverse de ces poids peut dès lors être interprété comme une probabilité de réponse estimée au moyen d’un modèle logistique.

La difficulté principale reste évidemment le choix entre les deux modèles proposés. Dans l’exemple de Deville, on pourrait trouver plus « logique » de voir la non-réponse plutôt dépendre du fait de consommer de la drogue que du sexe. Cependant, on se trouve assez démuni pour établir un choix entre les deux modèles. Les valeurs des deux fonctions de vraisemblance pour les paramètres estimés sont exactement égales. Est-il possible d’aller au-delà de l’intime conviction pour choisir le modèle ? Comme suggéré dans Haziza et Lesage (2016), nous préconisons dans tous les cas de calculer les deux pondérations et de comparer les poids et les estimations obtenues avec chacune d’elles.

Une piste consiste peut-être à calculer un indice de dispersion des probabilités de réponse comme la variance. En effet, si cette variance est élevée, cela signifie que le modèle a permis de calculer des probabilités de réponse plus contrastée d’un individu à l’autre et donc qu’il a pu mieux prendre en compte cette non-réponse. La validation par recherche de poids contrasté est la base de l’identification des groupes de réponse homogènes pour toutes les méthodes de segmentation par exemple avec l’algorithme CHAID (Chi-square Automatic Interaction Detector) développé par Kass (1980). En effet, avec cette méthode, à chaque étape, on scinde les groupes de réponses homogènes selon les catégories qui rendent les probabilités de réponse les plus contrastées. En appliquant ce même principe pour réaliser le choix du modèle, on peut choisir le modèle qui fournit les poids les plus contrastés. En effet, si la variance est faible, cela signifie que le modèle de non-réponse n’a pas pu mettre en évidence des différences de probabilités de non-réponse entre les individus. La variance des probabilités de réponse est par ailleurs le carré du R-indicateur défini par Schouten, Cobben et Bethlehem (2009), utilisé ici pour choisir un modèle de non-réponse.

Dans les deux cas, la moyenne des probabilités de réponse vaut 0,5. En effet,

$\bar{p} = n_{H .} \frac{n_{H .} {\hat{p}}_{H} + n_{F .} {\hat{p}}_{F}}{n} = \frac{300 \times 0,4 + 300 \times 0,6}{600} = 0,5$

$\bar{q} = {\hat{n}}_{. D} \frac{n_{. D} {\hat{q}}_{D} + {\hat{n}}_{. S} {\hat{q}}_{S}}{n} = \frac{300 \times 0,2 + 300 \times 0,8}{600} = 0,5 .$

Pour le modèle MAR, la variance vaut

$V_{M A R} = \frac{n_{H .} {({\hat{p}}_{H} - \bar{p})}^{2} + n_{F .} {({\hat{p}}_{F} - \bar{p})}^{2}}{n} = \frac{300 {(0,4 - 0,5)}^{2} + 300 {(0,6 - 0,5)}^{2}}{600} = 0,01 .$

Pour le modèle NMAR, la variance vaut

$V_{N M A R} = \frac{{\hat{n}}_{. D} {({\hat{q}}_{D} - \bar{q})}^{2} + {\hat{n}}_{. S} {({\hat{q}}_{S} - \bar{q})}^{2}}{n} = \frac{300 {(0,2 - 0,5)}^{2} + 300 {(0,8 - 0,5)}^{2}}{600} = 0,09 .$

La plus grande variance du modèle NMAR plaide en sa faveur. Les probabilités de réponse sont en effet beaucoup plus contrastées.

Remerciements

L’auteur remercie Audrey-Anne Vallée pour sa lecture méticuleuse d’une version précédente de ce texte et un arbitre anonyme pour ses commentaires particulièrement pertinents.

Bibliographie

Chang, T., et Kott, P.S. (2008). Using calibration weighting to adjust for nonresponse under a plausible model. Biometrika, 95, 555-571.

Deville, J.-C. (2000). Generalized calibration and application to weighting for non-response. Dans Compstat - Proceedings in Computational Statistics: 14^ième Symposium tenu à Utrecht, Pays-Bas, pages 65-76, New York: Springer.

Deville, J.-C. (2002). La correction de la nonréponse par calage généralisé. Dans les Actes des Journées de Méthodologie Statistique, Paris. Insee-Méthodes.

Deville, J.-C. (2004). Calage, calage généralisé et hypercalage. Rapport technique, document interne, INSEE, Paris.

Deville, J.-C. (2005). Calibration, past, present and future? Présentation à la conférence : Calibration Tools for Survey Statisticians, Neuchâtel.

Deville, J.-C., et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Association, 87, 376-382.

Haziza, D., et Lesage, E. (2016). A discussion of weighting procedures for unit nonresponse. Va paraitre dans le Journal of Official Statistics.

Kass, G.V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 119-127.

Kott, P.S. (2006). Utilisation de la pondération par calage pour la correction de la non-réponse et des erreurs de couverture. Techniques d’enquête, 32, 2, 149-160. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2006002/article/9547-fra.pdf.

Kott, P.S., et Chang, T. (2010). Using calibration weighting to adjust for nonignorable unit nonresponse. Journal of the American Statistical Association, 105(491), 1265-1275.

Lesage, E., et Haziza, D. (2015). On the problem of bias and variance amplification of the instrumental calibration estimator in the presence of unit nonresponse. En révision pour le Journal of Survey Statistics and Methodology.

Schouten, B., Cobben, F. et Bethlehem, J. (2009). Indicateurs de la représentativité de la réponse aux enquêtes. Techniques d’enquête, 35, 1, 107-121. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2009001/article/10887-fra.pdf.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2016-12-20

Sélection de la langue

Recherche et menus

Recherche

Quelques remarques sur un petit exemple de Jean -Claude Deville au sujet de la non-réponse non-ignorable Section 6. DiscussionQuelques remarques sur un petit exemple de Jean-Claude Deville au sujet de la non-réponse non-ignorable Section 6. Discussion

Remerciements

Bibliographie