Quelques remarques sur un petit exemple de Jean -Claude Deville au sujet de la non-réponse non-ignorable Section 6. Discussion

L’exemple de Deville est particulièrement heureux, car pour les deux modèles, les trois méthodes d’estimation fournissent exactement les mêmes estimateurs. Évidemment, si le modèle est plus compliqué, l’usage de la méthode du maximum de vraisemblance devient laborieux voire impossible. La méthode de calage et de calage généralisé fonctionne dans tous les cas pour autant que le nombre de variables de calage dont les totaux sont connus soit suffisant et que la matrice

k R x k z k Τ MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaaeqbqabS qaaiaadUgacqGHiiIZcaWGsbaabeqdcqGHris5aOGaaGPaVlaahIha daWgaaWcbaGaam4AaaqabaGccaWH6bWaa0baaSqaaiaadUgaaeaacq GHKoavaaaaaa@447A@

soit inversible. Dans cet exemple, le déterminant de cette matrice apparaît au dénominateur des estimateurs. Un faible déterminant rend donc les estimations particulièrement hasardeuses. Lesage et Haziza (2015) recommandent par ailleurs de vérifier que les corrélations entre les variables x k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWH4bWaaS baaSqaaiaadUgaaeqaaaaa@39C6@ et z k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWH6bWaaS baaSqaaiaadUgaaeqaaaaa@39C8@ soient suffisamment élevées afin d’éviter une possible amplification du biais.

Si les variables sont quantitatives, les solutions vont dépendre de la fonction de calage utilisée F ( . ) . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWGgbGaaG ikaiaai6cacaaIPaGaaiOlaaaa@3B43@ On préconise l’utilisation de la fonction de calage F ( z k Τ λ ) = 1 + exp ( z k Τ λ ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWGgbWaae WaaeaacaWH6bWaa0baaSqaaiaadUgaaeaacqGHKoavaaGccaWH7oaa caGLOaGaayzkaaGaaGypaiaaigdacqGHRaWkciGGLbGaaiiEaiaacc hadaqadaqaaiaahQhadaqhaaWcbaGaam4Aaaqaaiabgs6aubaakiaa hU7aaiaawIcacaGLPaaaaaa@4AB5@ qui a l’avantage de fournir des poids supérieurs à 1. L’inverse de ces poids peut dès lors être interprété comme une probabilité de réponse estimée au moyen d’un modèle logistique.

La difficulté principale reste évidemment le choix entre les deux modèles proposés. Dans l’exemple de Deville, on pourrait trouver plus « logique » de voir la non-réponse plutôt dépendre du fait de consommer de la drogue que du sexe. Cependant, on se trouve assez démuni pour établir un choix entre les deux modèles. Les valeurs des deux fonctions de vraisemblance pour les paramètres estimés sont exactement égales. Est-il possible d’aller au-delà de l’intime conviction pour choisir le modèle ? Comme suggéré dans Haziza et Lesage (2016), nous préconisons dans tous les cas de calculer les deux pondérations et de comparer les poids et les estimations obtenues avec chacune d’elles.

Une piste consiste peut-être à calculer un indice de dispersion des probabilités de réponse comme la variance. En effet, si cette variance est élevée, cela signifie que le modèle a permis de calculer des probabilités de réponse plus contrastée d’un individu à l’autre et donc qu’il a pu mieux prendre en compte cette non-réponse. La validation par recherche de poids contrasté est la base de l’identification des groupes de réponse homogènes pour toutes les méthodes de segmentation par exemple avec l’algorithme CHAID (Chi-square Automatic Interaction Detector) développé par Kass (1980). En effet, avec cette méthode, à chaque étape, on scinde les groupes de réponses homogènes selon les catégories qui rendent les probabilités de réponse les plus contrastées. En appliquant ce même principe pour réaliser le choix du modèle, on peut choisir le modèle qui fournit les poids les plus contrastés. En effet, si la variance est faible, cela signifie que le modèle de non-réponse n’a pas pu mettre en évidence des différences de probabilités de non-réponse entre les individus. La variance des probabilités de réponse est par ailleurs le carré du R-indicateur défini par Schouten, Cobben et Bethlehem (2009), utilisé ici pour choisir un modèle de non-réponse.

Dans les deux cas, la moyenne des probabilités de réponse vaut 0,5. En effet,

p ¯ = n H . n H . p ^ H + n F . p ^ F n = 300 × 0,4 + 300 × 0,6 600 = 0,5 MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaaceWGWbGbae bacaaI9aGaamOBamaaBaaaleaacaWGibGaaGOlaaqabaGcdaWcaaqa aiaad6gadaWgaaWcbaGaamisaiaai6caaeqaaOGabmiCayaajaWaaS baaSqaaiaadIeaaeqaaOGaey4kaSIaamOBamaaBaaaleaacaWGgbGa aGOlaaqabaGcceWGWbGbaKaadaWgaaWcbaGaamOraaqabaaakeaaca WGUbaaaiaai2dadaWcaaqaaiaaiodacaaIWaGaaGimaiabgEna0kaa bcdacaqGSaGaaeinaiabgUcaRiaaiodacaaIWaGaaGimaiabgEna0k aabcdacaqGSaGaaeOnaaqaaiaaiAdacaaIWaGaaGimaaaacaaI9aGa aeimaiaabYcacaqG1aaaaa@5B09@

et

q ¯ = n ^ . D n . D q ^ D + n ^ . S q ^ S n = 300 × 0,2 + 300 × 0,8 600 = 0,5 . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaaceWGXbGbae bacaaI9aGabmOBayaajaWaaSbaaSqaaiaai6cacaWGebaabeaakmaa laaabaGaamOBamaaBaaaleaacaaIUaGaamiraaqabaGcceWGXbGbaK aadaWgaaWcbaGaamiraaqabaGccqGHRaWkceWGUbGbaKaadaWgaaWc baGaaGOlaiaadofaaeqaaOGabmyCayaajaWaaSbaaSqaaiaadofaae qaaaGcbaGaamOBaaaacaaI9aWaaSaaaeaacaaIZaGaaGimaiaaicda cqGHxdaTcaqGWaGaaeilaiaabkdacqGHRaWkcaaIZaGaaGimaiaaic dacqGHxdaTcaqGWaGaaeilaiaabIdaaeaacaaI2aGaaGimaiaaicda aaGaaGypaiaabcdacaqGSaGaaeynaiaai6caaaa@5BF2@

Pour le modèle MAR, la variance vaut

V M A R = n H . ( p ^ H p ¯ ) 2 + n F . ( p ^ F p ¯ ) 2 n = 300 ( 0,4 0,5 ) 2 + 300 ( 0,6 0,5 ) 2 600 = 0,01 . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWGwbWaaS baaSqaaiaad2eacaWGbbGaamOuaaqabaGccaaI9aWaaSaaaeaacaWG UbWaaSbaaSqaaiaadIeacaaIUaaabeaakmaabmaabaGabmiCayaaja WaaSbaaSqaaiaadIeaaeqaaOGaeyOeI0IabmiCayaaraaacaGLOaGa ayzkaaWaaWbaaSqabeaacaaIYaaaaOGaey4kaSIaamOBamaaBaaale aacaWGgbGaaGOlaaqabaGcdaqadaqaaiqadchagaqcamaaBaaaleaa caWGgbaabeaakiabgkHiTiqadchagaqeaaGaayjkaiaawMcaamaaCa aaleqabaGaaGOmaaaaaOqaaiaad6gaaaGaaGypamaalaaabaGaaG4m aiaaicdacaaIWaWaaeWaaeaacaqGWaGaaeilaiaabsdacqGHsislca qGWaGaaeilaiaabwdaaiaawIcacaGLPaaadaahaaWcbeqaaiaaikda aaGccqGHRaWkcaaIZaGaaGimaiaaicdadaqadaqaaiaabcdacaqGSa GaaeOnaiabgkHiTiaabcdacaqGSaGaaeynaaGaayjkaiaawMcaamaa CaaaleqabaGaaGOmaaaaaOqaaiaaiAdacaaIWaGaaGimaaaacaaI9a GaaeimaiaabYcacaqGWaGaaeymaiaai6caaaa@6BF9@

Pour le modèle NMAR, la variance vaut

V N M A R = n ^ . D ( q ^ D q ¯ ) 2 + n ^ . S ( q ^ S q ¯ ) 2 n = 300 ( 0,2 0,5 ) 2 + 300 ( 0,8 0,5 ) 2 600 = 0,09 . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWGwbWaaS baaSqaaiaad6eacaWGnbGaamyqaiaadkfaaeqaaOGaaGypamaalaaa baGabmOBayaajaWaaSbaaSqaaiaai6cacaWGebaabeaakmaabmaaba GabmyCayaajaWaaSbaaSqaaiaadseaaeqaaOGaeyOeI0IabmyCayaa raaacaGLOaGaayzkaaWaaWbaaSqabeaacaaIYaaaaOGaey4kaSIabm OBayaajaWaaSbaaSqaaiaai6cacaWGtbaabeaakmaabmaabaGabmyC ayaajaWaaSbaaSqaaiaadofaaeqaaOGaeyOeI0IabmyCayaaraaaca GLOaGaayzkaaWaaWbaaSqabeaacaaIYaaaaaGcbaGaamOBaaaacaaI 9aWaaSaaaeaacaaIZaGaaGimaiaaicdadaqadaqaaiaabcdacaqGSa GaaeOmaiabgkHiTiaabcdacaqGSaGaaeynaaGaayjkaiaawMcaamaa CaaaleqabaGaaGOmaaaakiabgUcaRiaaiodacaaIWaGaaGimamaabm aabaGaaeimaiaabYcacaqG4aGaeyOeI0IaaeimaiaabYcacaqG1aaa caGLOaGaayzkaaWaaWbaaSqabeaacaaIYaaaaaGcbaGaaGOnaiaaic dacaaIWaaaaiaai2dacaqGWaGaaeilaiaabcdacaqG5aGaaGOlaaaa @6D0A@

La plus grande variance du modèle NMAR plaide en sa faveur. Les probabilités de réponse sont en effet beaucoup plus contrastées.

Remerciements

L’auteur remercie Audrey-Anne Vallée pour sa lecture méticuleuse d’une version précédente de ce texte et un arbitre anonyme pour ses commentaires particulièrement pertinents.

Bibliographie

Chang, T., et Kott, P.S. (2008). Using calibration weighting to adjust for nonresponse under a plausible model. Biometrika, 95, 555-571.

Deville, J.-C. (2000). Generalized calibration and application to weighting for non-response. Dans Compstat - Proceedings in Computational Statistics: 14ième Symposium tenu à Utrecht, Pays-Bas, pages 65-76, New York: Springer.

Deville, J.-C. (2002). La correction de la nonréponse par calage généralisé. Dans les Actes des Journées de Méthodologie Statistique, Paris. Insee-Méthodes.

Deville, J.-C. (2004). Calage, calage généralisé et hypercalage. Rapport technique, document interne, INSEE, Paris.

Deville, J.-C. (2005). Calibration, past, present and future? Présentation à la conférence : Calibration Tools for Survey Statisticians, Neuchâtel.

Deville, J.-C., et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Association, 87, 376-382.

Haziza, D., et Lesage, E. (2016). A discussion of weighting procedures for unit nonresponse. Va paraitre dans le Journal of Official Statistics.

Kass, G.V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 119-127.

Kott, P.S. (2006). Utilisation de la pondération par calage pour la correction de la non-réponse et des erreurs de couverture. Techniques d’enquête, 32, 2, 149-160. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2006002/article/9547-fra.pdf.

Kott, P.S., et Chang, T. (2010). Using calibration weighting to adjust for nonignorable unit nonresponse. Journal of the American Statistical Association, 105(491), 1265-1275.

Lesage, E., et Haziza, D. (2015). On the problem of bias and variance amplification of the instrumental calibration estimator in the presence of unit nonresponse. En révision pour le Journal of Survey Statistics and Methodology.

Schouten, B., Cobben, F. et Bethlehem, J. (2009). Indicateurs de la représentativité de la réponse aux enquêtes. Techniques d’enquête, 35, 1, 107-121. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2009001/article/10887-fra.pdf.

Date de modification :