Une mesure de l’effet de plan pour la pondération par calage dans les échantillons à un degré 1. Introduction

Sous sa forme générale, l’effet de plan ( deff ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaqadaqaai aabsgacaqGLbGaaeOzaiaabAgaaiaawIcacaGLPaaaaaa@3D8F@  mesure l’augmentation ou la diminution relative de la variance d’un estimateur attribuable aux écarts par rapport à l’échantillonnage aléatoire simple. Kish (1965) a présenté le deff MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqGKbGaae yzaiaabAgacaqGMbaaaa@3C06@  comme un moyen commode d’évaluer l’effet de la mise en grappes, ou groupement, sur l’estimateur d’une moyenne. Park et Lee (2004) offrent un historique partiel de la formulation et de l’utilisation du deff . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqGKbGaae yzaiaabAgacaqGMbGaaeOlaaaa@3CB7@  Les effets de plan sont particulièrement utiles lorsqu’on cherche à déterminer approximativement la taille totale d’échantillon nécessaire dans le cas d’un échantillonnage en grappes. La mise en grappes entraîne habituellement une certaine perte d’efficacité et la variance d’un échantillon aléatoire simple, qu’il est facile de calculer, peut être multipliée par un deff MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqGKbGaae yzaiaabAgacaqGMbaaaa@3C06@  pour donner une approximation de la variance que l’on obtiendrait à partir d’un échantillon en grappes. Cette approximation peut, à son tour, être utilisée pour déterminer la taille totale d’échantillon nécessaire dans le cas d’un échantillon en grappes pour obtenir un niveau de précision souhaité. Des travaux ultérieurs menés par Rao et Scott (1984) et d’autres ont montré que des versions plus compliquées du deff MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqGKbGaae yzaiaabAgacaqGMbaaaa@3C06@  étaient utiles pour ajuster les statistiques inférentielles calculées d’après les données d’une enquête complexe.

Une version spécialisée du deff MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaqGKbGaae yzaiaabAgacaqGMbaaaa@3C06@ a été proposée dans Kish (1965), qui tenait uniquement compte de l’effet de l’utilisation de poids qui ne sont pas tous égaux. Kish a calculé l’« effet de plan dû à la pondération » dans une situation où des poids variables étaient utilisés pour d’autres raisons que l’efficacité statistique. Cependant, dans le cas de certains plans d’échantillonnage et estimateurs, l’utilisation de poids variables peut être relativement efficace. Une enquête sur les établissements où les variances de population des variables d’analyse diffèrent nettement d’une industrie à l’autre en est un exemple. Le calage sur des comptes de population peut aussi produire des poids de tailles différentes, mais il s’agit d’un outil essentiel pour essayer de corriger les erreurs de couverture dans certaines enquêtes, dont les enquêtes téléphoniques. Spencer (2000) a proposé une approche assistée par modèle simple pour estimer l’effet, sur la variance, de l’utilisation de poids variables dans une situation où une variable d’analyse dépend d’une seule covariable.

Les mesures de Kish et de Spencer, présentées à la section 2, n’offrent pas une mesure agrégée de l’effet des gains de précision qui peuvent résulter de l’échantillonnage avec probabilités variables et de l’utilisation d’un estimateur par calage, comme l’estimateur par la régression généralisée (GREG). Alors que les effets de plan de Kish visent à mesurer l’effet des poids variables, ils ne sont informatifs que dans des circonstances particulières, ne tiennent pas compte d’autres variables d’intérêt, et peuvent mesurer incorrectement l’effet de la pondération différentielle dans certaines circonstances, faits qui sont mentionnés dans Kish (1992). Les praticiens des sondages doivent être prudents lorsqu’ils appliquent cette mesure dans des scénarios d’échantillonnage informatif et d’estimation pour lesquels il existe une relation intentionnelle entre les poids et les variables d’intérêt. L’approche de Spencer tient sous échantillonnage à un degré avec remise dans le cas d’un estimateur très simple du total construit en prenant comme poids l’inverse des probabilités de sélection sans autre ajustement. Peu d’exemples empiriques visant à comparer ces mesures sont décrits dans la littérature.

Des ajustements par calage sont souvent appliqués pour réduire les variances et corriger le sous-dénombrement et la non-réponse dans les sondages (par exemple Särndal et Lundström 2005; Kott 2009). Quand les covariables de calage sont corrélées au mécanisme de couverture/réponse, les poids de calage peuvent améliorer l’erreur quadratique moyenne (EQM) d’un estimateur. Dans de nombreuses applications, puisque le calage comprend des ajustements au niveau de l’unité, les poids de calage peuvent varier plus que les poids de base ou la non-réponse par catégorie ou les ajustements par poststratification (Kalton et Flores-Cervantes 2003; Brick et Montaquila 2009). Donc, une mesure idéale de l’effet des poids de calage tient compte non seulement de la corrélation entre la variable d’intérêt y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWG5baaaa@3963@ et les poids, mais aussi de la corrélation entre y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWG5baaaa@3963@ et les covariables de calage x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWH4baaaa@3966@ afin d’éviter de « pénaliser » les poids pour la simple raison qu’ils varient.

À la section 3, nous présentons une nouvelle mesure de l’effet de plan qui tient compte de l’effet conjoint d’un plan d’échantillonnage avec probabilités de sélection non égales et d’ajustements des poids inégaux dans la classe plus générale des estimateurs par calage. Nous supposons qu’un plan d’échantillonnage probabiliste est utilisé et qu’il n’existe pas de problèmes de données manquantes qui induiraient une dépendance entre l’inclusion dans l’échantillon et les valeurs de y . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWG5bGaae Olaaaa@3A14@ Notre mesure agrégée incorpore la variable étudiée, en utilisant une estimation de la variance par la régression généralisée pour refléter les multiples covariables de calage. À la section 4, nous appliquons les estimateurs dans une simulation en utilisant des variables similaires à celles pour lesquelles des données sont recueillies dans les enquêtes auprès des établissements et dans les enquêtes auprès des ménages réalisées par téléphone, et montrons empiriquement comment l’estimateur proposé donne de meilleurs résultats que les méthodes existantes en présence de poids de calage inégaux. La section 5 présente la conclusion.

Date de modification :