Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (15)

Tout (15) (0 à 10 de 15 résultats)

  • Articles et rapports : 12-001-X201900100001
    Description :

    On presse de plus en plus les démographes de désagréger leurs estimations et leurs prévisions selon des caractéristiques comme la région, l’ethnicité ou le revenu. Les méthodes démographiques classiques ont été conçues pour de grands échantillons et donnent de piètres résultats lorsqu’elles portent sur des données désagrégées. Les méthodes reposant sur des modèles statistiques bayésiens en bonne et due forme produisent de meilleurs résultats. Nous illustrerons notre propos par des exemples tirés d’un projet à long terme visant à la conception d’approches bayésiennes d’estimation et de prévision démographiques. Dans notre premier exemple, nous estimons les taux de mortalité désagrégés selon l’âge et le sexe pour une petite population; dans le second, nous estimons et prévoyons simultanément la prévalence de l’obésité désagrégée selon l’âge. Nous concluons en répondant à deux objections habituelles à l’utilisation de méthodes bayésiennes par les organismes statistiques.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201900100007
    Description :

    L’estimateur Horvitz-Thompson (HT) est largement utilisé dans l’échantillonnage d’enquête. Cependant, la variance de l’estimateur HT devient importante lorsque les probabilités d’inclusion sont très hétérogènes. Pour surmonter cette lacune, nous proposons dans le présent document une méthode à seuil ferme pour les probabilités d’inclusion du premier degré. Plus précisément, nous choisissons soigneusement une valeur seuil, puis nous remplaçons les probabilités d’inclusion plus petites que le seuil par le seuil. Grâce à cette stratégie de réduction, nous construisons un nouvel estimateur appelé estimateur amélioré de Horvitz-Thompson (HTA) pour estimer le total de la population. L’estimateur HTA augmente beaucoup la précision de l’estimation, mais il apporte un biais relativement faible. Nous calculons l’erreur quadratique moyenne de l’estimateur HTA et son estimateur sans biais, et comparons théoriquement l’estimateur HTA avec l’estimateur HT. Nous appliquons également notre idée pour construire un estimateur de ratio amélioré. Nous analysons numériquement les ensembles de données simulées et réelles pour illustrer que les estimateurs proposés sont plus efficaces et robustes que les estimateurs classiques.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201900100008
    Description :

    Le présent document étudie l’estimation de quantiles sur petits domaines selon un modèle de régression non paramétrique à erreurs emboîtées au niveau de l’unité. Nous supposons que les distributions des erreurs spécifiques sur petits domaines satisfont un modèle du rapport de densité semi-paramétrique. Nous ajustons le modèle non paramétrique à l’aide de la méthode par régression spline pénalisé d’Opsomer, Claeskens, Ranalli, Kauermann et Breidt (2008). Nous appliquons ensuite la vraisemblance empirique pour estimer les paramètres dans le modèle du rapport de densité à partir des résidus. Cela donne des estimations propres au domaine naturelles des distributions des erreurs. Puis, nous employons une méthode des noyaux pour obtenir des estimations lissées des distributions des erreurs. Ces estimations sont alors utilisées pour faire une estimation de quantiles dans deux situations : dans l’une d’elles, nous ne connaissons que les moyennes de puissances des covariables au niveau de la population; dans l’autre, nous connaissons les valeurs des covariables de toutes les unités d’échantillonnage dans la population. Selon des expériences de simulation, les méthodes proposées pour l’estimation des quantiles sur petits domaines fonctionnent bien pour des quantiles situés près de la médiane dans le premier cas et pour un large éventail de quantiles dans le second. Un estimateur de l’erreur quadratique moyenne bootstrap des estimateurs proposés est également examiné. Un exemple empirique fondé sur les données sur les revenus des Canadiens en fait partie.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201100111445
    Description :

    Dans le présent article, nous étudions l'estimation sur petits domaines en nous servant de modèles au niveau du domaine. Nous considérons d'abord le modèle de Fay-Herriot (Fay et Herriot 1979) pour le cas d'une variance d'échantillonnage connue lissée et le modèle de You-Chapman (You et Chapman 2006) pour le cas de la modélisation de la variance d'échantillonnage. Ensuite, nous considérons des modèles spatiaux hiérarchiques bayésiens (HB) qui étendent les modèles de Fay-Herriot et de You-Chapman en tenant compte à la fois de l'hétérogénéité géographiquement non structurée et des effets de corrélation spatiale entre les domaines pour le lissage local. Les modèles proposés sont mis en 'uvre en utilisant la méthode d'échantillonnage de Gibbs pour une inférence entièrement bayésienne. Nous appliquons les modèles proposés à l'analyse de données d'enquête sur la santé et comparons les estimations fondées sur le modèle HB aux estimations directes fondées sur le plan. Nos résultats montrent que les estimations fondées sur le modèle HB ont de meilleures propriétés que les estimations directes. En outre, les modèles spatiaux au niveau du domaine proposés produisent des CV plus petits que les modèles de Fay-Herriot et de You-Chapman, particulièrement pour les domaines ayant trois domaines voisins ou plus. Nous présentons aussi une comparaison des modèles bayésiens et une analyse de l'adéquation du modèle.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X200900211041
    Description :

    L'estimation de la composition sur petits domaines peut poser un problème de données manquantes informatives, si la probabilité que les données manquent varie d'une catégorie d'intérêt à l'autre, ainsi que d'un petit domaine à l'autre. Nous élaborons une approche de modélisation mixte double qui combine un modèle mixte à effets aléatoires pour les données complètes sous-jacentes et un modèle mixte à effets aléatoires du mécanisme de création différentielle de données manquantes. L'effet du plan d'échantillonnage peut être intégré au moyen d'un modèle d'échantillonnage sous quasi-vraisemblance. L'erreur quadratique moyenne conditionnelle de prédiction associée est approximée sous forme d'une décomposition en trois parties, correspondant à une variance de prédiction naïve, une correction positive qui tient compte de l'incertitude hypothétique de l'estimation des paramètres basée sur les données complètes latentes et une autre correction positive pour la variation supplémentaire due aux données manquantes. Nous illustrons notre approche en l'appliquant à l'estimation de la composition des ménages des municipalités au moyen des données sur les ménages tirées des registres norvégiens, qui présentent un sous-enregistrement informatif du numéro d'identification du logement.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X20060019264
    Description :

    L'échantillonnage pour le suivi des cas de non réponse (échantillonnage SCNR) est une innovation qui a été envisagée lors de l'élaboration de la méthodologie du recensement décennal des États Unis de 2000. L'échantillonnage SCNR consiste à envoyer des recenseurs auprès d'un échantillon seulement des ménages qui n'ont pas répondu au questionnaire initial envoyé par la poste; ce qui réduit les coûts, mais crée un problème important d'estimation pour petits domaines. Nous proposons un modèle permettant d'imputer les caractéristiques des ménages qui n'ont pas répondu au questionnaire envoyé par la poste, afin de profiter des économies importantes que permet de réaliser l'échantillonnage SCNR, tout en obtenant un niveau de précision acceptable pour les petits domaines. Notre stratégie consiste à modéliser les caractéristiques des ménages en utilisant un petit nombre de covariables aux niveaux élevés de détail géographique et des covariables plus détaillées (plus nombreuses) aux niveaux plus agrégés de détail géographique. Pour cela, nous commençons par classer les ménages en un petit nombre de types. Puis, au moyen d'un modèle loglinéaire hiérarchique, nous estimons dans chaque îlot la distribution des types de ménage parmi les ménages non-répondants non échantillonnés. Cette distribution dépend des caractéristiques des ménages répondants qui ont retourné le questionnaire par la poste appartenant au même îlot et des ménages non-répondants échantillonnés dans les îlots voisins. Nous pouvons alors imputer les ménages non-répondants non échantillonnés d'après cette distribution estimée des types de ménage. Nous évaluons les propriétés de notre modèle loglinéaire par simulation. Les résultats montrent que, comparativement aux estimations produites par des modèles de rechange, notre modèle loglinéaire produit des estimations dont l'EQM est nettement plus faible dans de nombreux cas et à peu près la même dans la plupart des autres cas. Bien que l'échantillonnage SCNR n'ait pas été utilisé lors du recensement de 2000, notre stratégie d'estimation et d'imputation peut être appliquée lors de tout recensement ou enquête recourant cet échantillonnage où les unités forment des grappes telles que les caractéristiques des non répondants sont reliées aux caractéristiques des répondants vivant dans le même secteur, ainsi qu'aux caractéristiques des non répondants échantillonnés dans les secteurs voisins.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050029047
    Description :

    Nous considérons le problème de l'estimation, en présence de non réponse non ignorable importante, du nombre de ménages privés de diverses tailles et du nombre total de ménages en Norvège. L'approche est fondée sur un modèle de population pour la taille du ménage, sachant la taille enregistrée de la famille. Nous tenons compte du biais de non réponse éventuel en modélisant le mécanisme de réponse sachant la taille du ménage. Nous évaluons divers modèles, ainsi qu'un estimateur du maximum de vraisemblance et une poststratification fondée sur l'imputation. Nous comparons les résultats à ceux d'une poststratification pure avec la taille enregistrée de la famille comme variable de stratification et des méthodes d'estimation employées pour la production de statistiques officielles d'après l'Enquête sur les dépenses de consommation de la Norvège. L'étude indique que la modélisation de la réponse, la poststratification et l'imputation sont des éléments importants d'une approche satisfaisante.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029052
    Description :

    De nombreuses analyses statistiques, particulièrement l'analyse multiniveaux, requièrent l'estimation d'une matrice des variances-covariances d'échantillonnage. Dans le cas de problèmes univariés, des fonctions reliant la variance à la moyenne ont été utilisées pour obtenir des estimations de la variance, en regroupant l'information sur l'ensemble des unités ou des variables. Nous présentons des fonctions de variance et de corrélation pour des moyennes multivariées de questions d'enquête avec valeurs ordonnées, pour des données complètes, ainsi que pour des données avec non réponse structurée. Nous élaborons aussi des méthodes permettant d'évaluer l'ajustement du modèle et de calculer des estimateurs composites qui combinent des prédictions directes et fondées sur un modèle. Nous utilisons des données d'enquête provenant de la Consumer Assessments of Health Plans Study (CAHPS®) pour illustrer l'application de la méthodologie.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 11-522-X20040018733
    Description :

    Une enquête auprès d'utilisateurs de drogues injectables exploite l'information obtenue des centres d'échange de seringues de même que des utilisateurs échantillonnés. Le cadre méthodologique permet d'en tirer divers estimés.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 12-001-X20040027753
    Description :

    Les échantillonneurs se méfient souvent des approches d'inférence fondées sur un modèle, parce qu'ils craignent que soient commises des erreurs de spécification lorsque les modèles sont appliqués à de grands échantillons provenant de populations complexes. Nous soutenons que le paradigme de l'inférence fondée sur un modèle peut donner de très bons résultats dans les conditions d'enquête, à condition que les modèles soient choisis de façon à tenir compte du plan d'échantillonnage et d'éviter de faire des hypothèses fortes au sujet des paramètres. L'estimateur d'Horvitz Thompson (HT) est un estimateur simple sans biais par rapport au plan de sondage du total de population finie. Du point de vue de la modélisation, l'estimateur HT fonctionne bien lorsque les ratios des valeurs de la variable de résultat et des probabilités d'inclusion sont interchangeables. Si cette hypothèse n'est pas satisfaite, l'estimateur HT peut être très inefficace. Dans Zheng et Little (2003, 2004), nous avons utilisé des fonctions splines pénalisées (p splines) pour modéliser des relations à variation lisse entre le résultat et les probabilités d'inclusion sous échantillonnage à un degré avec probabilité proportionnelle à la taille (PPT). Nous avons montré que les estimateurs fondés sur un modèle à fonction p spline sont généralement plus efficaces que l'estimateur HT et peuvent fournir des intervalles de confiance plus étroits dont la couverture est proche du niveau de confiance nominal. Dans le présent article, nous étendons cette approche aux plans d'échantillonnage à deux degrés. Nous utilisons un modèle mixte fondé sur une p spline qui est ajusté à une relation non paramétrique entre les moyennes des unités primaires d'échantillonnage (UPE) et une mesure de la taille des UPE, et auquel sont intégrés des effets aléatoires pour modéliser la mise en grappes. Pour l'estimation de la variance, nous considérons les méthodes d'estimation de la variance fondées sur un modèle bayésien empirique, la méthode du jackknife et la méthode des répliques répétées équilibrées (BRR). Des études en simulation portant sur des données simulées et des échantillons tirés des microdonnées à grande diffusion du Recensement de 1990 montrent que l'estimateur fondé sur un modèle à fonction p spline donne de meilleurs résultats que l'estimateur HT et que les estimateurs linéaires assistés par un modèle. Les simulations montrent aussi que les méthodes d'estimation de la variance produisent des intervalles de confiance dont la couverture est satisfaisante. Fait intéressant, ces progrès peuvent être observés pour un plan d'échantillonnage courant à probabilités de sélection égales, où la sélection à la première étape est PPT et où les probabilités de sélection à la deuxième étape sont proportionnelles à l'inverse des probabilités de sélection à la première étape, et où l'estimateur HT mène à la moyenne non pondérée. Dans les situations favorisant le plus l'utilisation de l'estimateur HT, les estimateurs fondés sur un modèle ont une efficacité comparable.

    Date de diffusion : 2005-02-03
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (15)

Analyses (15) (0 à 10 de 15 résultats)

  • Articles et rapports : 12-001-X201900100001
    Description :

    On presse de plus en plus les démographes de désagréger leurs estimations et leurs prévisions selon des caractéristiques comme la région, l’ethnicité ou le revenu. Les méthodes démographiques classiques ont été conçues pour de grands échantillons et donnent de piètres résultats lorsqu’elles portent sur des données désagrégées. Les méthodes reposant sur des modèles statistiques bayésiens en bonne et due forme produisent de meilleurs résultats. Nous illustrerons notre propos par des exemples tirés d’un projet à long terme visant à la conception d’approches bayésiennes d’estimation et de prévision démographiques. Dans notre premier exemple, nous estimons les taux de mortalité désagrégés selon l’âge et le sexe pour une petite population; dans le second, nous estimons et prévoyons simultanément la prévalence de l’obésité désagrégée selon l’âge. Nous concluons en répondant à deux objections habituelles à l’utilisation de méthodes bayésiennes par les organismes statistiques.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201900100007
    Description :

    L’estimateur Horvitz-Thompson (HT) est largement utilisé dans l’échantillonnage d’enquête. Cependant, la variance de l’estimateur HT devient importante lorsque les probabilités d’inclusion sont très hétérogènes. Pour surmonter cette lacune, nous proposons dans le présent document une méthode à seuil ferme pour les probabilités d’inclusion du premier degré. Plus précisément, nous choisissons soigneusement une valeur seuil, puis nous remplaçons les probabilités d’inclusion plus petites que le seuil par le seuil. Grâce à cette stratégie de réduction, nous construisons un nouvel estimateur appelé estimateur amélioré de Horvitz-Thompson (HTA) pour estimer le total de la population. L’estimateur HTA augmente beaucoup la précision de l’estimation, mais il apporte un biais relativement faible. Nous calculons l’erreur quadratique moyenne de l’estimateur HTA et son estimateur sans biais, et comparons théoriquement l’estimateur HTA avec l’estimateur HT. Nous appliquons également notre idée pour construire un estimateur de ratio amélioré. Nous analysons numériquement les ensembles de données simulées et réelles pour illustrer que les estimateurs proposés sont plus efficaces et robustes que les estimateurs classiques.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201900100008
    Description :

    Le présent document étudie l’estimation de quantiles sur petits domaines selon un modèle de régression non paramétrique à erreurs emboîtées au niveau de l’unité. Nous supposons que les distributions des erreurs spécifiques sur petits domaines satisfont un modèle du rapport de densité semi-paramétrique. Nous ajustons le modèle non paramétrique à l’aide de la méthode par régression spline pénalisé d’Opsomer, Claeskens, Ranalli, Kauermann et Breidt (2008). Nous appliquons ensuite la vraisemblance empirique pour estimer les paramètres dans le modèle du rapport de densité à partir des résidus. Cela donne des estimations propres au domaine naturelles des distributions des erreurs. Puis, nous employons une méthode des noyaux pour obtenir des estimations lissées des distributions des erreurs. Ces estimations sont alors utilisées pour faire une estimation de quantiles dans deux situations : dans l’une d’elles, nous ne connaissons que les moyennes de puissances des covariables au niveau de la population; dans l’autre, nous connaissons les valeurs des covariables de toutes les unités d’échantillonnage dans la population. Selon des expériences de simulation, les méthodes proposées pour l’estimation des quantiles sur petits domaines fonctionnent bien pour des quantiles situés près de la médiane dans le premier cas et pour un large éventail de quantiles dans le second. Un estimateur de l’erreur quadratique moyenne bootstrap des estimateurs proposés est également examiné. Un exemple empirique fondé sur les données sur les revenus des Canadiens en fait partie.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201100111445
    Description :

    Dans le présent article, nous étudions l'estimation sur petits domaines en nous servant de modèles au niveau du domaine. Nous considérons d'abord le modèle de Fay-Herriot (Fay et Herriot 1979) pour le cas d'une variance d'échantillonnage connue lissée et le modèle de You-Chapman (You et Chapman 2006) pour le cas de la modélisation de la variance d'échantillonnage. Ensuite, nous considérons des modèles spatiaux hiérarchiques bayésiens (HB) qui étendent les modèles de Fay-Herriot et de You-Chapman en tenant compte à la fois de l'hétérogénéité géographiquement non structurée et des effets de corrélation spatiale entre les domaines pour le lissage local. Les modèles proposés sont mis en 'uvre en utilisant la méthode d'échantillonnage de Gibbs pour une inférence entièrement bayésienne. Nous appliquons les modèles proposés à l'analyse de données d'enquête sur la santé et comparons les estimations fondées sur le modèle HB aux estimations directes fondées sur le plan. Nos résultats montrent que les estimations fondées sur le modèle HB ont de meilleures propriétés que les estimations directes. En outre, les modèles spatiaux au niveau du domaine proposés produisent des CV plus petits que les modèles de Fay-Herriot et de You-Chapman, particulièrement pour les domaines ayant trois domaines voisins ou plus. Nous présentons aussi une comparaison des modèles bayésiens et une analyse de l'adéquation du modèle.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X200900211041
    Description :

    L'estimation de la composition sur petits domaines peut poser un problème de données manquantes informatives, si la probabilité que les données manquent varie d'une catégorie d'intérêt à l'autre, ainsi que d'un petit domaine à l'autre. Nous élaborons une approche de modélisation mixte double qui combine un modèle mixte à effets aléatoires pour les données complètes sous-jacentes et un modèle mixte à effets aléatoires du mécanisme de création différentielle de données manquantes. L'effet du plan d'échantillonnage peut être intégré au moyen d'un modèle d'échantillonnage sous quasi-vraisemblance. L'erreur quadratique moyenne conditionnelle de prédiction associée est approximée sous forme d'une décomposition en trois parties, correspondant à une variance de prédiction naïve, une correction positive qui tient compte de l'incertitude hypothétique de l'estimation des paramètres basée sur les données complètes latentes et une autre correction positive pour la variation supplémentaire due aux données manquantes. Nous illustrons notre approche en l'appliquant à l'estimation de la composition des ménages des municipalités au moyen des données sur les ménages tirées des registres norvégiens, qui présentent un sous-enregistrement informatif du numéro d'identification du logement.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X20060019264
    Description :

    L'échantillonnage pour le suivi des cas de non réponse (échantillonnage SCNR) est une innovation qui a été envisagée lors de l'élaboration de la méthodologie du recensement décennal des États Unis de 2000. L'échantillonnage SCNR consiste à envoyer des recenseurs auprès d'un échantillon seulement des ménages qui n'ont pas répondu au questionnaire initial envoyé par la poste; ce qui réduit les coûts, mais crée un problème important d'estimation pour petits domaines. Nous proposons un modèle permettant d'imputer les caractéristiques des ménages qui n'ont pas répondu au questionnaire envoyé par la poste, afin de profiter des économies importantes que permet de réaliser l'échantillonnage SCNR, tout en obtenant un niveau de précision acceptable pour les petits domaines. Notre stratégie consiste à modéliser les caractéristiques des ménages en utilisant un petit nombre de covariables aux niveaux élevés de détail géographique et des covariables plus détaillées (plus nombreuses) aux niveaux plus agrégés de détail géographique. Pour cela, nous commençons par classer les ménages en un petit nombre de types. Puis, au moyen d'un modèle loglinéaire hiérarchique, nous estimons dans chaque îlot la distribution des types de ménage parmi les ménages non-répondants non échantillonnés. Cette distribution dépend des caractéristiques des ménages répondants qui ont retourné le questionnaire par la poste appartenant au même îlot et des ménages non-répondants échantillonnés dans les îlots voisins. Nous pouvons alors imputer les ménages non-répondants non échantillonnés d'après cette distribution estimée des types de ménage. Nous évaluons les propriétés de notre modèle loglinéaire par simulation. Les résultats montrent que, comparativement aux estimations produites par des modèles de rechange, notre modèle loglinéaire produit des estimations dont l'EQM est nettement plus faible dans de nombreux cas et à peu près la même dans la plupart des autres cas. Bien que l'échantillonnage SCNR n'ait pas été utilisé lors du recensement de 2000, notre stratégie d'estimation et d'imputation peut être appliquée lors de tout recensement ou enquête recourant cet échantillonnage où les unités forment des grappes telles que les caractéristiques des non répondants sont reliées aux caractéristiques des répondants vivant dans le même secteur, ainsi qu'aux caractéristiques des non répondants échantillonnés dans les secteurs voisins.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050029047
    Description :

    Nous considérons le problème de l'estimation, en présence de non réponse non ignorable importante, du nombre de ménages privés de diverses tailles et du nombre total de ménages en Norvège. L'approche est fondée sur un modèle de population pour la taille du ménage, sachant la taille enregistrée de la famille. Nous tenons compte du biais de non réponse éventuel en modélisant le mécanisme de réponse sachant la taille du ménage. Nous évaluons divers modèles, ainsi qu'un estimateur du maximum de vraisemblance et une poststratification fondée sur l'imputation. Nous comparons les résultats à ceux d'une poststratification pure avec la taille enregistrée de la famille comme variable de stratification et des méthodes d'estimation employées pour la production de statistiques officielles d'après l'Enquête sur les dépenses de consommation de la Norvège. L'étude indique que la modélisation de la réponse, la poststratification et l'imputation sont des éléments importants d'une approche satisfaisante.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029052
    Description :

    De nombreuses analyses statistiques, particulièrement l'analyse multiniveaux, requièrent l'estimation d'une matrice des variances-covariances d'échantillonnage. Dans le cas de problèmes univariés, des fonctions reliant la variance à la moyenne ont été utilisées pour obtenir des estimations de la variance, en regroupant l'information sur l'ensemble des unités ou des variables. Nous présentons des fonctions de variance et de corrélation pour des moyennes multivariées de questions d'enquête avec valeurs ordonnées, pour des données complètes, ainsi que pour des données avec non réponse structurée. Nous élaborons aussi des méthodes permettant d'évaluer l'ajustement du modèle et de calculer des estimateurs composites qui combinent des prédictions directes et fondées sur un modèle. Nous utilisons des données d'enquête provenant de la Consumer Assessments of Health Plans Study (CAHPS®) pour illustrer l'application de la méthodologie.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 11-522-X20040018733
    Description :

    Une enquête auprès d'utilisateurs de drogues injectables exploite l'information obtenue des centres d'échange de seringues de même que des utilisateurs échantillonnés. Le cadre méthodologique permet d'en tirer divers estimés.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 12-001-X20040027753
    Description :

    Les échantillonneurs se méfient souvent des approches d'inférence fondées sur un modèle, parce qu'ils craignent que soient commises des erreurs de spécification lorsque les modèles sont appliqués à de grands échantillons provenant de populations complexes. Nous soutenons que le paradigme de l'inférence fondée sur un modèle peut donner de très bons résultats dans les conditions d'enquête, à condition que les modèles soient choisis de façon à tenir compte du plan d'échantillonnage et d'éviter de faire des hypothèses fortes au sujet des paramètres. L'estimateur d'Horvitz Thompson (HT) est un estimateur simple sans biais par rapport au plan de sondage du total de population finie. Du point de vue de la modélisation, l'estimateur HT fonctionne bien lorsque les ratios des valeurs de la variable de résultat et des probabilités d'inclusion sont interchangeables. Si cette hypothèse n'est pas satisfaite, l'estimateur HT peut être très inefficace. Dans Zheng et Little (2003, 2004), nous avons utilisé des fonctions splines pénalisées (p splines) pour modéliser des relations à variation lisse entre le résultat et les probabilités d'inclusion sous échantillonnage à un degré avec probabilité proportionnelle à la taille (PPT). Nous avons montré que les estimateurs fondés sur un modèle à fonction p spline sont généralement plus efficaces que l'estimateur HT et peuvent fournir des intervalles de confiance plus étroits dont la couverture est proche du niveau de confiance nominal. Dans le présent article, nous étendons cette approche aux plans d'échantillonnage à deux degrés. Nous utilisons un modèle mixte fondé sur une p spline qui est ajusté à une relation non paramétrique entre les moyennes des unités primaires d'échantillonnage (UPE) et une mesure de la taille des UPE, et auquel sont intégrés des effets aléatoires pour modéliser la mise en grappes. Pour l'estimation de la variance, nous considérons les méthodes d'estimation de la variance fondées sur un modèle bayésien empirique, la méthode du jackknife et la méthode des répliques répétées équilibrées (BRR). Des études en simulation portant sur des données simulées et des échantillons tirés des microdonnées à grande diffusion du Recensement de 1990 montrent que l'estimateur fondé sur un modèle à fonction p spline donne de meilleurs résultats que l'estimateur HT et que les estimateurs linéaires assistés par un modèle. Les simulations montrent aussi que les méthodes d'estimation de la variance produisent des intervalles de confiance dont la couverture est satisfaisante. Fait intéressant, ces progrès peuvent être observés pour un plan d'échantillonnage courant à probabilités de sélection égales, où la sélection à la première étape est PPT et où les probabilités de sélection à la deuxième étape sont proportionnelles à l'inverse des probabilités de sélection à la première étape, et où l'estimateur HT mène à la moyenne non pondérée. Dans les situations favorisant le plus l'utilisation de l'estimateur HT, les estimateurs fondés sur un modèle ont une efficacité comparable.

    Date de diffusion : 2005-02-03
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :