Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Aide à l'ordre
entrées

Résultats

Tout (36)

Tout (36) (0 à 10 de 36 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100004
    Description : Conformément au Plan d’action sur les données désagrégées (PADD) à long terme de Statistique Canada, plusieurs initiatives ont été mises en œuvre dans l’Enquête sur la population active (EPA). Une des initiatives les plus directes fut une augmentation ciblée dans la taille de l’échantillon mensuel de l’EPA. En outre, un programme d’enquête supplémentaire régulier a été introduit, où une série supplémentaire de questions a été posée à un sous-ensemble de répondants de l’EPA et analysée dans un cycle de production mensuel ou trimestriel. Enfin, les estimations fondées sur les méthodologies de l’estimation sur petits domaines (EPD) sont réintroduites dans l’EPA et comprendront une portée élargie avec davantage de valeur analytique qu’auparavant. Le présent article donne un aperçu de ces trois initiatives.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X200900211044
    Description :

    Dans les enquêtes par sondage de grande portée, il est fréquent d'employer des plans de sondage stratifiés à plusieurs degrés où les unités sont sélectionnées par échantillonnage aléatoire simple sans remise à chaque degré. L'exécution de l'estimation de la variance sous ce genre de plan peut être assez fastidieuse, particulièrement pour les estimateurs non linéaires. Diverses méthodes bootstrap d'estimation de la variance ont été proposées, mais la plupart sont limitées à des plans à un seul degré ou à des plans en grappes à deux degrés. Nous proposons une extension de la méthode du bootstrap rééchelonné (Rao et Wu 1988) aux plans stratifiés à plusieurs degrés qui peut être adaptée facilement à n'importe quel nombre de degrés. Cette méthode convient pour une grande gamme de méthodes de repondération, y compris la classe générale des estimateurs par calage. Nous avons réalisé une étude par simulation Monte Carlo pour examiner la performance de l'estimateur de variance bootstrap rééchelonné à plusieurs degrés.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 11-536-X200900110812
    Description :

    L'estimation de la variance en présence de données imputées a fait couler beaucoup d'encre. Il est bien connu que le fait de traiter les valeurs imputées comme s'il s'agissait de valeurs observées peut entraîner une sous-estimation grave de la variance de l'estimateur imputé. Plusieurs approches et techniques ont été mises au point ces dernières années. Plus précisément, Rao et Shao (1992) ont proposé un estimateur jackknife modifié qui fonctionne bien lorsque la fraction de sondage est petite. Toutefois, dans bien des cas, cette condition n'est pas satisfaite. Par conséquent, l'estimateur jackknife modifié de Rao-Shao peut donner lieu à des estimateurs invalides de la variance. Pour surmonter ce problème, Lee, Rancourt et Särndal (1995) ont proposé d'apporter un rectificatif simple à l'estimateur jackknife modifié de Rao-Shao. Dans notre présentation, nous expliquons les propriétés de l'estimateur de la variance obtenu dans le cadre d'un échantillonnage aléatoire simple stratifié sans remplacement. Par ailleurs, en utilisant l'approche inversée élaborée par Shao et Steel (1999), nous examinons un autre estimateur de la variance qui fonctionne bien lorsque les fractions de sondage ne sont pas négligeables. Nous aborderons brièvement le cas des plans de sondage probabilistes inégaux, tels que la probabilité proportionnelle à la taille.

    Date de diffusion : 2009-08-11

  • Articles et rapports : 12-001-X200900110883
    Description :

    Nous appliquons une méthode bayésienne pour résoudre le problème des solutions limites de l'estimation du maximum de vraisemblance (MV) dans un tableau de contingence à double entrée incomplet en utilisant un modèle log-linéaire et des lois a priori de Dirichlet. Nous comparons cinq lois a priori de Dirichlet pour estimer les probabilités multinomiales par case sous un modèle de non réponse non ignorable. Trois de ces lois a priori ont été utilisées dans le cas d'un tableau à simple entrée incomplet et les deux autres sont deux nouvelles lois a priori proposées afin de tenir compte de la différence entre les profils de réponse des répondants et des électeurs indécis. Les estimations bayésiennes obtenues à l'aide des trois premières lois a priori n'ont pas systématiquement de meilleures propriétés que les estimations du MV, contrairement à ce qu'indiquaient des études antérieures, tandis que les deux nouvelles lois a priori donnent de meilleurs résultats que les trois lois a priori antérieures et que les estimations du MV chaque fois qu'est obtenue une solution limite. Nous utilisons quatre jeux de données provenant des sondages électoraux réalisés en 1998 dans l'État de l'Ohio pour illustrer comment il convient d'utiliser et d'interpréter les résultats des estimations pour les élections. Nous procédons à des études par simulation pour comparer les propriétés de cinq estimations bayésiennes sous un modèle de non réponse non ignorable.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200900110884
    Description :

    Le présent article traite de l'estimation pour petits domaines de la proportion de personnes sans assurance maladie dans divers groupes minoritaires. Les petits domaines sont définis par le croisement de l'âge, du sexe et d'autres caractéristiques démographiques. Des méthodes d'estimation bayésiennes hiérarchiques ainsi qu'empiriques sont appliquées. En outre, des approximations exactes jusqu'à l'ordre deux des erreurs quadratiques moyennes des estimateurs bayésiens empiriques et des estimateurs corrigés du biais de ces erreurs quadratiques moyennes sont fournies. La méthodologie générale est illustrée au moyen d'estimations de la proportion de personnes non assurées pour plusieurs petits domaines de la sous population asiatique.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800210759
    Description :

    L'analyse des données recueillies auprès d'un échantillon stratifié à plusieurs degrés requiert de l'information sur le plan de sondage, telle que les identificateurs de strate et d'unité primaire d'échantillonnage (UPE), ou les poids de rééchantillonnage connexes, pour l'estimation de la variance. Dans certains fichiers de données à grande diffusion, l'information sur le plan de sondage est masquée en vue d'éviter le risque de divulgation, tout en permettant à l'utilisateur d'obtenir des estimations valides des variances. Par exemple, dans le cas des enquêtes aréolaires comptant un nombre limité d'UPE, les UPE originales sont divisées et (ou) recombinées pour construire des pseudo UPE dans lesquelles sont permutées les unités d'échantillonnage de deuxième degré et de degré subséquent. Cependant, ces méthodes de masquage des UPE faussent manifestement la structure de mise en grappes du plan d'échantillonnage, ce qui donne des estimations de variance biaisées pouvant présenter un rapport systématique entre les deux estimations de variance obtenues avec et sans masquage des identificateurs d'UPE. Certains travaux antérieurs ont révélé certaines tendances du ratio des estimations de la variance obtenues avec et sans masquage si on représente ce ratio graphiquement en fonction de l'effet de plan sans masquage. Le présent article traite de l'effet du masquage des UPE sur les estimations de la variance sous échantillonnage en grappes en fonction de divers aspects, dont la structure de mise en grappes et le degré de masquage. En outre, nous tâchons d'établir une stratégie de masquage des UPE par permutation des unités d'échantillonnage du degré subséquent qui réduit le biais résultant des estimations de la variance. En guise d'illustration, nous utilisons des données provenant de la National Health Interview Survey (NHIS) auxquelles nous avons apporté certaines modifications artificielles. La stratégie proposée permet de bien réduire le biais des estimations de la variance. Les résultats tant théoriques qu'empiriques indiquent que l'effet du masquage des UPE sur les estimations de la variance est modeste si la permutation des unités d'échantillonnage de degré subséquent est minimale. Nous avons appliqué la stratégie de masquage proposée aux données diffusées de la National Health and Nutrition Examination Survey (NHANES) de 2003 2004.

    Date de diffusion : 2008-12-23
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (35)

Analyses (35) (0 à 10 de 35 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100004
    Description : Conformément au Plan d’action sur les données désagrégées (PADD) à long terme de Statistique Canada, plusieurs initiatives ont été mises en œuvre dans l’Enquête sur la population active (EPA). Une des initiatives les plus directes fut une augmentation ciblée dans la taille de l’échantillon mensuel de l’EPA. En outre, un programme d’enquête supplémentaire régulier a été introduit, où une série supplémentaire de questions a été posée à un sous-ensemble de répondants de l’EPA et analysée dans un cycle de production mensuel ou trimestriel. Enfin, les estimations fondées sur les méthodologies de l’estimation sur petits domaines (EPD) sont réintroduites dans l’EPA et comprendront une portée élargie avec davantage de valeur analytique qu’auparavant. Le présent article donne un aperçu de ces trois initiatives.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X200900211044
    Description :

    Dans les enquêtes par sondage de grande portée, il est fréquent d'employer des plans de sondage stratifiés à plusieurs degrés où les unités sont sélectionnées par échantillonnage aléatoire simple sans remise à chaque degré. L'exécution de l'estimation de la variance sous ce genre de plan peut être assez fastidieuse, particulièrement pour les estimateurs non linéaires. Diverses méthodes bootstrap d'estimation de la variance ont été proposées, mais la plupart sont limitées à des plans à un seul degré ou à des plans en grappes à deux degrés. Nous proposons une extension de la méthode du bootstrap rééchelonné (Rao et Wu 1988) aux plans stratifiés à plusieurs degrés qui peut être adaptée facilement à n'importe quel nombre de degrés. Cette méthode convient pour une grande gamme de méthodes de repondération, y compris la classe générale des estimateurs par calage. Nous avons réalisé une étude par simulation Monte Carlo pour examiner la performance de l'estimateur de variance bootstrap rééchelonné à plusieurs degrés.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 11-536-X200900110812
    Description :

    L'estimation de la variance en présence de données imputées a fait couler beaucoup d'encre. Il est bien connu que le fait de traiter les valeurs imputées comme s'il s'agissait de valeurs observées peut entraîner une sous-estimation grave de la variance de l'estimateur imputé. Plusieurs approches et techniques ont été mises au point ces dernières années. Plus précisément, Rao et Shao (1992) ont proposé un estimateur jackknife modifié qui fonctionne bien lorsque la fraction de sondage est petite. Toutefois, dans bien des cas, cette condition n'est pas satisfaite. Par conséquent, l'estimateur jackknife modifié de Rao-Shao peut donner lieu à des estimateurs invalides de la variance. Pour surmonter ce problème, Lee, Rancourt et Särndal (1995) ont proposé d'apporter un rectificatif simple à l'estimateur jackknife modifié de Rao-Shao. Dans notre présentation, nous expliquons les propriétés de l'estimateur de la variance obtenu dans le cadre d'un échantillonnage aléatoire simple stratifié sans remplacement. Par ailleurs, en utilisant l'approche inversée élaborée par Shao et Steel (1999), nous examinons un autre estimateur de la variance qui fonctionne bien lorsque les fractions de sondage ne sont pas négligeables. Nous aborderons brièvement le cas des plans de sondage probabilistes inégaux, tels que la probabilité proportionnelle à la taille.

    Date de diffusion : 2009-08-11

  • Articles et rapports : 12-001-X200900110883
    Description :

    Nous appliquons une méthode bayésienne pour résoudre le problème des solutions limites de l'estimation du maximum de vraisemblance (MV) dans un tableau de contingence à double entrée incomplet en utilisant un modèle log-linéaire et des lois a priori de Dirichlet. Nous comparons cinq lois a priori de Dirichlet pour estimer les probabilités multinomiales par case sous un modèle de non réponse non ignorable. Trois de ces lois a priori ont été utilisées dans le cas d'un tableau à simple entrée incomplet et les deux autres sont deux nouvelles lois a priori proposées afin de tenir compte de la différence entre les profils de réponse des répondants et des électeurs indécis. Les estimations bayésiennes obtenues à l'aide des trois premières lois a priori n'ont pas systématiquement de meilleures propriétés que les estimations du MV, contrairement à ce qu'indiquaient des études antérieures, tandis que les deux nouvelles lois a priori donnent de meilleurs résultats que les trois lois a priori antérieures et que les estimations du MV chaque fois qu'est obtenue une solution limite. Nous utilisons quatre jeux de données provenant des sondages électoraux réalisés en 1998 dans l'État de l'Ohio pour illustrer comment il convient d'utiliser et d'interpréter les résultats des estimations pour les élections. Nous procédons à des études par simulation pour comparer les propriétés de cinq estimations bayésiennes sous un modèle de non réponse non ignorable.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200900110884
    Description :

    Le présent article traite de l'estimation pour petits domaines de la proportion de personnes sans assurance maladie dans divers groupes minoritaires. Les petits domaines sont définis par le croisement de l'âge, du sexe et d'autres caractéristiques démographiques. Des méthodes d'estimation bayésiennes hiérarchiques ainsi qu'empiriques sont appliquées. En outre, des approximations exactes jusqu'à l'ordre deux des erreurs quadratiques moyennes des estimateurs bayésiens empiriques et des estimateurs corrigés du biais de ces erreurs quadratiques moyennes sont fournies. La méthodologie générale est illustrée au moyen d'estimations de la proportion de personnes non assurées pour plusieurs petits domaines de la sous population asiatique.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800210759
    Description :

    L'analyse des données recueillies auprès d'un échantillon stratifié à plusieurs degrés requiert de l'information sur le plan de sondage, telle que les identificateurs de strate et d'unité primaire d'échantillonnage (UPE), ou les poids de rééchantillonnage connexes, pour l'estimation de la variance. Dans certains fichiers de données à grande diffusion, l'information sur le plan de sondage est masquée en vue d'éviter le risque de divulgation, tout en permettant à l'utilisateur d'obtenir des estimations valides des variances. Par exemple, dans le cas des enquêtes aréolaires comptant un nombre limité d'UPE, les UPE originales sont divisées et (ou) recombinées pour construire des pseudo UPE dans lesquelles sont permutées les unités d'échantillonnage de deuxième degré et de degré subséquent. Cependant, ces méthodes de masquage des UPE faussent manifestement la structure de mise en grappes du plan d'échantillonnage, ce qui donne des estimations de variance biaisées pouvant présenter un rapport systématique entre les deux estimations de variance obtenues avec et sans masquage des identificateurs d'UPE. Certains travaux antérieurs ont révélé certaines tendances du ratio des estimations de la variance obtenues avec et sans masquage si on représente ce ratio graphiquement en fonction de l'effet de plan sans masquage. Le présent article traite de l'effet du masquage des UPE sur les estimations de la variance sous échantillonnage en grappes en fonction de divers aspects, dont la structure de mise en grappes et le degré de masquage. En outre, nous tâchons d'établir une stratégie de masquage des UPE par permutation des unités d'échantillonnage du degré subséquent qui réduit le biais résultant des estimations de la variance. En guise d'illustration, nous utilisons des données provenant de la National Health Interview Survey (NHIS) auxquelles nous avons apporté certaines modifications artificielles. La stratégie proposée permet de bien réduire le biais des estimations de la variance. Les résultats tant théoriques qu'empiriques indiquent que l'effet du masquage des UPE sur les estimations de la variance est modeste si la permutation des unités d'échantillonnage de degré subséquent est minimale. Nous avons appliqué la stratégie de masquage proposée aux données diffusées de la National Health and Nutrition Examination Survey (NHANES) de 2003 2004.

    Date de diffusion : 2008-12-23
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015031
    Description :

    La U.S. Third National Health and Nutrition Examination Survey (NHANES III) a été réalisée de 1988 à 1994. Cette enquête visait avant tout à fournir des estimations de paramètres transversaux considérés comme pratiquement constants durant la période de collecte des données de six ans. Cependant, dans le cas de certaines variables (p. ex., la concentration sérique du plomb, l'indice de masse corporelle et le comportement concernant l'usage du tabac), des considérations importantes donnent à penser que des changements de niveau non négligeables pourraient être survenus entre 1988 et 1994. Pour ces variables, la NHANES III pourrait être une source de renseignements sur les tendances temporelles plus précieuse que d'autres études portant sur des populations et des échantillons plus restreints. Deux difficultés compliquent l'étude des tendances temporelles possibles. Premièrement, il existe un certain déséquilibre en ce qui a trait à l'attribution des interviews et des calendriers d'examen dans les diverses régions. Cette situation pose un problème pratique, car on note des écarts considérables d'une région à l'autre, dans le cas de certaines variables. Deuxièmement, des variations non négligeables des niveaux au fil du temps peuvent entacher d'un biais non négligeable certains estimateurs habituels de la variance NHANES III. Dans la présente communication, nous nous penchons sur ces deux inconvénients et présentons quelques-unes de leurs conséquences relativement à l'établissement de politiques en matière de statistique.

    Date de diffusion : 1999-10-22
Date de modification :