Quelques remarques sur un petit exemple de Jean -Claude Deville au sujet de la non-réponse non-ignorable
Section 6. DiscussionQuelques remarques sur un petit exemple de Jean-Claude Deville au sujet de la non-réponse non-ignorable
Section 6. Discussion
L’exemple de Deville est
particulièrement heureux, car pour les deux modèles, les trois méthodes
d’estimation fournissent exactement les mêmes estimateurs. Évidemment, si le
modèle est plus compliqué, l’usage de la méthode du maximum de vraisemblance
devient laborieux voire impossible. La méthode de calage et de calage
généralisé fonctionne dans tous les cas pour autant que le nombre de variables
de calage dont les totaux sont connus soit suffisant et que la matrice
soit inversible. Dans cet
exemple, le déterminant de cette matrice apparaît au dénominateur des
estimateurs. Un faible déterminant rend donc les estimations particulièrement
hasardeuses. Lesage et Haziza (2015) recommandent par ailleurs de vérifier que
les corrélations entre les variables
et
soient suffisamment élevées afin d’éviter une
possible amplification du biais.
Si les variables sont
quantitatives, les solutions vont dépendre de la fonction de calage utilisée
On préconise l’utilisation de la fonction de
calage
qui a l’avantage de fournir des poids
supérieurs à 1. L’inverse de ces poids peut dès lors être interprété comme une
probabilité de réponse estimée au moyen d’un modèle logistique.
La difficulté principale
reste évidemment le choix entre les deux modèles proposés. Dans l’exemple de
Deville, on pourrait trouver plus « logique » de voir la non-réponse
plutôt dépendre du fait de consommer de la drogue que du sexe. Cependant, on se
trouve assez démuni pour établir un choix entre les deux modèles. Les valeurs
des deux fonctions de vraisemblance pour les paramètres estimés sont exactement
égales. Est-il possible d’aller au-delà de l’intime conviction pour choisir le
modèle ? Comme suggéré dans Haziza et Lesage (2016), nous préconisons dans
tous les cas de calculer les deux pondérations et de comparer les poids et les
estimations obtenues avec chacune d’elles.
Une piste consiste
peut-être à calculer un indice de dispersion des probabilités de réponse comme
la variance. En effet, si cette variance est élevée, cela signifie que le
modèle a permis de calculer des probabilités de réponse plus contrastée d’un
individu à l’autre et donc qu’il a pu mieux prendre en compte cette
non-réponse. La validation par recherche de poids contrasté est la base de
l’identification des groupes de réponse homogènes pour toutes les méthodes de
segmentation par exemple avec l’algorithme CHAID (Chi-square Automatic Interaction Detector) développé par Kass
(1980). En effet, avec cette méthode, à chaque étape, on scinde les groupes de
réponses homogènes selon les catégories qui rendent les probabilités de réponse
les plus contrastées. En appliquant ce même principe pour réaliser le choix du
modèle, on peut choisir le modèle qui fournit les poids les plus contrastés. En
effet, si la variance est faible, cela signifie que le modèle de non-réponse
n’a pas pu mettre en évidence des différences de probabilités de non-réponse
entre les individus. La variance des probabilités de réponse est par ailleurs
le carré du R-indicateur défini par Schouten, Cobben et Bethlehem (2009), utilisé ici pour choisir un modèle de non-réponse.
Dans les deux cas, la
moyenne des probabilités de réponse vaut 0,5. En effet,
et
Pour le
modèle MAR, la variance vaut
Pour le
modèle NMAR, la variance vaut
La plus grande variance du
modèle NMAR plaide en sa faveur. Les probabilités de réponse sont en effet
beaucoup plus contrastées.
Remerciements
L’auteur remercie Audrey-Anne Vallée pour sa lecture méticuleuse d’une
version précédente de ce texte et un arbitre anonyme pour ses commentaires
particulièrement pertinents.
Bibliographie
Chang, T., et Kott, P.S. (2008). Using
calibration weighting to adjust for nonresponse under a plausible model. Biometrika,
95, 555-571.
Deville, J.-C. (2000).
Generalized calibration and application to weighting for non-response. Dans Compstat -
Proceedings in Computational Statistics: 14ième Symposium tenu à Utrecht,Pays-Bas,
pages 65-76, New York: Springer.
Deville, J.-C. (2002). La correction de la nonréponse par calage
généralisé. Dans les Actes des Journées de Méthodologie Statistique,
Paris. Insee-Méthodes.
Deville, J.-C. (2004). Calage, calage généralisé et hypercalage. Rapport
technique, document interne, INSEE, Paris.
Deville, J.-C. (2005). Calibration, past, present and future? Présentation
à la conférence :Calibration Tools for Survey Statisticians,
Neuchâtel.
Deville, J.-C., et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American
Statistical Association, 87, 376-382.
Haziza, D., et Lesage, E.
(2016). A discussion of weighting procedures for unit nonresponse.Va paraitre dans leJournal of Official Statistics.
Kass, G.V. (1980). An exploratory
technique for investigating large quantities of categorical data.Applied Statistics, 119-127.
Kott, P.S., et Chang, T. (2010). Using calibration weighting
to adjust for nonignorable unit nonresponse. Journal of the American
Statistical Association, 105(491), 1265-1275.
Lesage, E., et Haziza, D. (2015). On the problem of bias and
variance amplification of the instrumental calibration estimator in the
presence of unit nonresponse. En révision pour leJournal of Survey
Statistics and Methodology.
Schouten, B., Cobben, F. et Bethlehem, J. (2009). Indicateurs
de la représentativité de la réponse aux enquêtes. Techniques d’enquête, 35, 1, 107-121. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2009001/article/10887-fra.pdf.
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.