Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (15)

Tout (15) (0 à 10 de 15 résultats)

  • Articles et rapports : 12-001-X202300200001
    Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.

    Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 11-536-X200900110809
    Description :

    L'échantillonnage par grappes et l'échantillonnage à plusieurs degrés nécessitent l'échantillonnage d'unités auprès de plus d'une population. Il y a habituellement de l'information auxiliaire disponible sur la population et sur l'échantillon à chacun de ces niveaux. Les poids de calage d'un échantillon sont généralement produits uniquement au moyen de l'information auxiliaire à ce niveau. Cette approche laisse de côté de l'information disponible aux autres niveaux. En outre, il est souvent utile de coupler les poids de calage entre les échantillons à différents niveaux. Grâce à la pondération intégrée de l'échantillonnage par grappes, les poids des unités d'une grappe sont tous identiques et équivalents au poids de la grappe. On présente une généralisation de la pondération intégrée aux plans d'échantillonnage à plusieurs degrés. Ce processus s'appelle la pondération couplée.

    Date de diffusion : 2009-08-11

  • Articles et rapports : 12-001-X200900110880
    Description :

    Le présent article décrit un cadre pour l'estimation par calage sous les plans d'échantillonnage à deux phases. Les travaux présentés découlent de la poursuite du développement de logiciels généralisés d'estimation à Statistique Canada. Un objectif important de ce développement est d'offrir une grande gamme d'options en vue d'utiliser efficacement l'information auxiliaire dans différents plans d'échantillonnage. Cet objectif est reflété dans la méthodologie générale pour les plans d'échantillonnage à deux phases exposée dans le présent article.

    Nous considérons le plan d'échantillonnage à deux phases classique. Un échantillon de première phase est tiré à partir d'une population finie, puis un échantillon de deuxième phase est tiré en tant que sous échantillon du premier. La variable étudiée, dont le total de population inconnu doit être estimé, est observée uniquement pour les unités contenues dans l'échantillon de deuxième phase. Des plans d'échantillonnage arbitraires sont permis à chaque phase de l'échantillonnage. Divers types d'information auxiliaire sont identifiés pour le calcul des poids de calage à chaque phase. Les variables auxiliaires et les variables étudiées peuvent être continues ou catégoriques.

    L'article apporte une contribution à quatre domaines importants dans le contexte général du calage pour les plans d'échantillonnage à deux phases :1) nous dégageons trois grands types d'information auxiliaire pour les plans à deux phases et les utilisons dans l'estimation. L'information est intégrée dans les poids en deux étapes : un calage de première phase et un calage de deuxième phase. Nous discutons de la composition des vecteurs auxiliaires appropriés pour chaque étape et utilisons une méthode de linéarisation pour arriver aux résidus qui déterminent la variance asymptotique de l'estimateur par calage ;2) nous examinons l'effet de divers choix de poids de départ pour le calage. Les deux choix « naturels » produisent généralement des estimateurs légèrement différents. Cependant, sous certaines conditions, ces deux estimateurs ont la même variance asymptotique ;3) nous réexaminons l'estimation de la variance pour l'estimateur par calage à deux phases. Nous proposons une nouvelle méthode qui peut représenter une amélioration considérable par rapport à la technique habituelle de conditionnement sur l'échantillon de première phase. Une simulation décrite à la section 10 sert à valider les avantages de cette nouvelle méthode ;4) nous comparons l'approche par calage à la méthode de régression assistée par modèle classique qui comporte l'ajustement d'un modèle de régression linéaire à deux niveaux. Nous montrons que l'estimateur assisté par modèle a des propriétés semblables à celles d'un estimateur par calage à deux phases.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800210760
    Description :

    Pour concevoir un échantillon aléatoire simple stratifié sans remise à partir d'une population finie, il faut résoudre deux grandes questions : définir une règle de partition de la population en strates et répartir les unités d'échantillonnage entre les strates sélectionnées. Dans le présent article, nous examinons une stratégie arborescente en vue d'aborder conjointement ces deux questions quand l'enquête est polyvalente et que de l'information multivariée, quantitative ou qualitative, est disponible. Nous formons les strates à l'aide d'un algorithme divisif hiérarchique qui sélectionne des partitions de plus en plus fines en minimisant, à chaque étape, la répartition d'échantillon requise pour atteindre les niveaux de précision établis pour chaque variable étudiée. De cette façon, nous pouvons satisfaire un grand nombre de contraintes sans augmenter fortement la taille globale d'échantillon et sans écarter certaines variables sélectionnées pour la stratification ni diminuer le nombre de leurs intervalles de classe. En outre, l'algorithme a tendance à ne pas définir de strate vide ou presque vide, ce qui évite de devoir regrouper certaines strates. Nous avons appliqué la méthode au remaniement de l'Enquête sur la structure des exploitations agricoles en Italie. Les résultats indiquent que le gain d'efficacité réalisé en utilisant notre stratégie n'est pas trivial. Pour une taille d'échantillon donnée, cette méthode permet d'obtenir la précision requise en exploitant un nombre de strates qui est habituellement égal à une fraction très faible du nombre de strates disponibles quand on combine toutes les classes possibles provenant de n'importe quelle covariable.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 11-522-X200600110409
    Description :

    Dans le cas de l'échantillonnage avec probabilités de sélection inégales, les corrélations entre les probabilités de sélection et les données échantillonnées peuvent induire un biais. Pour le corriger, on fait souvent appel à des poids de sondage correspondant à l'inverse de la probabilité de sélection. Les plans d'échantillonnage fortement disproportionnels donnent lieu à des poids élevés, susceptibles d'introduire une variabilité superflue dans des statistiques telles que l'estimation de la moyenne de la population. L'élagage des poids consiste à réduire ceux dont la valeur est élevée à une valeur seuil fixée et à rajuster ceux dont la valeur est inférieure à ce seuil afin que leur somme demeure égale à celle des poids non élagués. Cet élagage réduit la variabilité, mais introduit un certain biais. Les méthodes habituelles ne sont pas « guidées par les données », c'est à dire qu'elles ne se fondent pas sur les données pour arriver au compromis biais variance approprié, ou bien elles le font de façon très inefficace. Cette communication décrit l'élaboration de méthodes bayésiennes de sélection des variables pour l'élagage des poids destinées à compléter les méthodes habituelles, ponctuelles, fondées sur le plan de sondage, lors de l'utilisation de plans à probabilités d'inclusion disproportionnelles où les variances dues aux poids de sondage excèdent la correction pour le biais. Ces méthodes sont utilisées pour estimer les paramètres de population provenant de modèles de régression linéaire et de régression linéaire généralisée dans le contexte de plans d'échantillonnage à probabilités de sélection connues stratifiés et stratifiés a posteriori. Des applications seront décrites dans le cas de données provenant d'enquêtes sur les blessures causées par des accidents de circulation, pour lesquelles des plans de sondage fortement disproportionnels sont souvent utilisés.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X200700210498
    Description :

    Dans le présent document, nous décrivons une méthodologie utilisée pour combiner un échantillon de convenance avec un échantillon probabiliste afin de produire un estimateur ayant une erreur quadratique moyenne (EQM) plus faible que les estimateurs fondés uniquement sur un échantillon probabiliste. Nous examinons ensuite les propriétés de l'estimateur composite obtenu, qui est en fait une combinaison linéaire des estimateurs de l'échantillon de convenance et de l'échantillon probabiliste, les poids étant fonction du biais. Nous discutons des propriétés de l'estimateur dans le contexte de l'échantillonnage de convenance électronique. Notre analyse démontre que le recours à un échantillon de convenance pour suppléer un échantillon probabiliste en vue d'améliorer l'EQM de l'estimation pourrait s'avérer utile seulement dans des circonstances restreintes. Premièrement, le biais résiduel de l'estimateur fondé sur l'échantillon de convenance doit être très faible, représentant tout au plus 0,1 de l'écart-type de la population obtenue. En cas de résultat dichotomique, cela signifie un biais ne dépassant pas cinq points de pourcentage à 50 % de prévalence, et trois points de pourcentage à 10 % de prévalence. Deuxièmement, l'échantillon probabiliste devrait contenir au moins 1 000 à 10 000 observations pour donner lieu à une estimation adéquate du biais de l'estimateur de l'échantillon de convenance. Troisièmement, il doit être rentable et faisable de recueillir au moins des milliers (et probablement des dizaines de milliers) d'observations à partir de l'échantillon électronique de convenance. Les conclusions au sujet de l'utilité limitée des échantillons de convenance lorsque le biais de l'estimateur comporte un écart-type de plus de 0,1 s'appliquent également à l'utilisation directe des estimateurs en fonction de cet échantillon.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 11-522-X20040018749
    Description :

    Pour mesurer la santé mentale des réfugiés cambodgiens aux É-U, ce document présente une nouvelle méthode efficiente de dénombrement, de sélection et de caractérisation des ménages afin de créer un échantillon aléatoire de participants admissibles.

    Date de diffusion : 2005-10-27
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (14)

Analyses (14) (0 à 10 de 14 résultats)

  • Articles et rapports : 12-001-X202300200001
    Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.

    Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 11-536-X200900110809
    Description :

    L'échantillonnage par grappes et l'échantillonnage à plusieurs degrés nécessitent l'échantillonnage d'unités auprès de plus d'une population. Il y a habituellement de l'information auxiliaire disponible sur la population et sur l'échantillon à chacun de ces niveaux. Les poids de calage d'un échantillon sont généralement produits uniquement au moyen de l'information auxiliaire à ce niveau. Cette approche laisse de côté de l'information disponible aux autres niveaux. En outre, il est souvent utile de coupler les poids de calage entre les échantillons à différents niveaux. Grâce à la pondération intégrée de l'échantillonnage par grappes, les poids des unités d'une grappe sont tous identiques et équivalents au poids de la grappe. On présente une généralisation de la pondération intégrée aux plans d'échantillonnage à plusieurs degrés. Ce processus s'appelle la pondération couplée.

    Date de diffusion : 2009-08-11

  • Articles et rapports : 12-001-X200900110880
    Description :

    Le présent article décrit un cadre pour l'estimation par calage sous les plans d'échantillonnage à deux phases. Les travaux présentés découlent de la poursuite du développement de logiciels généralisés d'estimation à Statistique Canada. Un objectif important de ce développement est d'offrir une grande gamme d'options en vue d'utiliser efficacement l'information auxiliaire dans différents plans d'échantillonnage. Cet objectif est reflété dans la méthodologie générale pour les plans d'échantillonnage à deux phases exposée dans le présent article.

    Nous considérons le plan d'échantillonnage à deux phases classique. Un échantillon de première phase est tiré à partir d'une population finie, puis un échantillon de deuxième phase est tiré en tant que sous échantillon du premier. La variable étudiée, dont le total de population inconnu doit être estimé, est observée uniquement pour les unités contenues dans l'échantillon de deuxième phase. Des plans d'échantillonnage arbitraires sont permis à chaque phase de l'échantillonnage. Divers types d'information auxiliaire sont identifiés pour le calcul des poids de calage à chaque phase. Les variables auxiliaires et les variables étudiées peuvent être continues ou catégoriques.

    L'article apporte une contribution à quatre domaines importants dans le contexte général du calage pour les plans d'échantillonnage à deux phases :1) nous dégageons trois grands types d'information auxiliaire pour les plans à deux phases et les utilisons dans l'estimation. L'information est intégrée dans les poids en deux étapes : un calage de première phase et un calage de deuxième phase. Nous discutons de la composition des vecteurs auxiliaires appropriés pour chaque étape et utilisons une méthode de linéarisation pour arriver aux résidus qui déterminent la variance asymptotique de l'estimateur par calage ;2) nous examinons l'effet de divers choix de poids de départ pour le calage. Les deux choix « naturels » produisent généralement des estimateurs légèrement différents. Cependant, sous certaines conditions, ces deux estimateurs ont la même variance asymptotique ;3) nous réexaminons l'estimation de la variance pour l'estimateur par calage à deux phases. Nous proposons une nouvelle méthode qui peut représenter une amélioration considérable par rapport à la technique habituelle de conditionnement sur l'échantillon de première phase. Une simulation décrite à la section 10 sert à valider les avantages de cette nouvelle méthode ;4) nous comparons l'approche par calage à la méthode de régression assistée par modèle classique qui comporte l'ajustement d'un modèle de régression linéaire à deux niveaux. Nous montrons que l'estimateur assisté par modèle a des propriétés semblables à celles d'un estimateur par calage à deux phases.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800210760
    Description :

    Pour concevoir un échantillon aléatoire simple stratifié sans remise à partir d'une population finie, il faut résoudre deux grandes questions : définir une règle de partition de la population en strates et répartir les unités d'échantillonnage entre les strates sélectionnées. Dans le présent article, nous examinons une stratégie arborescente en vue d'aborder conjointement ces deux questions quand l'enquête est polyvalente et que de l'information multivariée, quantitative ou qualitative, est disponible. Nous formons les strates à l'aide d'un algorithme divisif hiérarchique qui sélectionne des partitions de plus en plus fines en minimisant, à chaque étape, la répartition d'échantillon requise pour atteindre les niveaux de précision établis pour chaque variable étudiée. De cette façon, nous pouvons satisfaire un grand nombre de contraintes sans augmenter fortement la taille globale d'échantillon et sans écarter certaines variables sélectionnées pour la stratification ni diminuer le nombre de leurs intervalles de classe. En outre, l'algorithme a tendance à ne pas définir de strate vide ou presque vide, ce qui évite de devoir regrouper certaines strates. Nous avons appliqué la méthode au remaniement de l'Enquête sur la structure des exploitations agricoles en Italie. Les résultats indiquent que le gain d'efficacité réalisé en utilisant notre stratégie n'est pas trivial. Pour une taille d'échantillon donnée, cette méthode permet d'obtenir la précision requise en exploitant un nombre de strates qui est habituellement égal à une fraction très faible du nombre de strates disponibles quand on combine toutes les classes possibles provenant de n'importe quelle covariable.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 11-522-X200600110409
    Description :

    Dans le cas de l'échantillonnage avec probabilités de sélection inégales, les corrélations entre les probabilités de sélection et les données échantillonnées peuvent induire un biais. Pour le corriger, on fait souvent appel à des poids de sondage correspondant à l'inverse de la probabilité de sélection. Les plans d'échantillonnage fortement disproportionnels donnent lieu à des poids élevés, susceptibles d'introduire une variabilité superflue dans des statistiques telles que l'estimation de la moyenne de la population. L'élagage des poids consiste à réduire ceux dont la valeur est élevée à une valeur seuil fixée et à rajuster ceux dont la valeur est inférieure à ce seuil afin que leur somme demeure égale à celle des poids non élagués. Cet élagage réduit la variabilité, mais introduit un certain biais. Les méthodes habituelles ne sont pas « guidées par les données », c'est à dire qu'elles ne se fondent pas sur les données pour arriver au compromis biais variance approprié, ou bien elles le font de façon très inefficace. Cette communication décrit l'élaboration de méthodes bayésiennes de sélection des variables pour l'élagage des poids destinées à compléter les méthodes habituelles, ponctuelles, fondées sur le plan de sondage, lors de l'utilisation de plans à probabilités d'inclusion disproportionnelles où les variances dues aux poids de sondage excèdent la correction pour le biais. Ces méthodes sont utilisées pour estimer les paramètres de population provenant de modèles de régression linéaire et de régression linéaire généralisée dans le contexte de plans d'échantillonnage à probabilités de sélection connues stratifiés et stratifiés a posteriori. Des applications seront décrites dans le cas de données provenant d'enquêtes sur les blessures causées par des accidents de circulation, pour lesquelles des plans de sondage fortement disproportionnels sont souvent utilisés.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X200700210498
    Description :

    Dans le présent document, nous décrivons une méthodologie utilisée pour combiner un échantillon de convenance avec un échantillon probabiliste afin de produire un estimateur ayant une erreur quadratique moyenne (EQM) plus faible que les estimateurs fondés uniquement sur un échantillon probabiliste. Nous examinons ensuite les propriétés de l'estimateur composite obtenu, qui est en fait une combinaison linéaire des estimateurs de l'échantillon de convenance et de l'échantillon probabiliste, les poids étant fonction du biais. Nous discutons des propriétés de l'estimateur dans le contexte de l'échantillonnage de convenance électronique. Notre analyse démontre que le recours à un échantillon de convenance pour suppléer un échantillon probabiliste en vue d'améliorer l'EQM de l'estimation pourrait s'avérer utile seulement dans des circonstances restreintes. Premièrement, le biais résiduel de l'estimateur fondé sur l'échantillon de convenance doit être très faible, représentant tout au plus 0,1 de l'écart-type de la population obtenue. En cas de résultat dichotomique, cela signifie un biais ne dépassant pas cinq points de pourcentage à 50 % de prévalence, et trois points de pourcentage à 10 % de prévalence. Deuxièmement, l'échantillon probabiliste devrait contenir au moins 1 000 à 10 000 observations pour donner lieu à une estimation adéquate du biais de l'estimateur de l'échantillon de convenance. Troisièmement, il doit être rentable et faisable de recueillir au moins des milliers (et probablement des dizaines de milliers) d'observations à partir de l'échantillon électronique de convenance. Les conclusions au sujet de l'utilité limitée des échantillons de convenance lorsque le biais de l'estimateur comporte un écart-type de plus de 0,1 s'appliquent également à l'utilisation directe des estimateurs en fonction de cet échantillon.

    Date de diffusion : 2008-01-03

  • Articles et rapports : 11-522-X20040018749
    Description :

    Pour mesurer la santé mentale des réfugiés cambodgiens aux É-U, ce document présente une nouvelle méthode efficiente de dénombrement, de sélection et de caractérisation des ménages afin de créer un échantillon aléatoire de participants admissibles.

    Date de diffusion : 2005-10-27
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X20010016308
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Le Census Bureau utilise une analyse des erreurs de réponse pour évaluer l'efficacité des questions d'une enquête. Pour une enquête donnée, nous choisissons les questions à analyser que nous jugeons essentielles à l'enquête ou qui sont considérées comme problématiques à la suite d'une analyse antérieure. Les questions nouvelles ou révisées sont les plus susceptibles de faire l'objet d'une réinterview, c'est-à-dire d'une nouvelle interview qui consiste à poser de nouveau à un échantillon des répondants à l'enquête un sous-ensemble de questions provenant de l'interview originale. Pour chaque question de la réinterview, nous évaluons la proportion des répondants qui donnent des réponses incohérentes. Nous utilisons l'« indice d'incohérence » pour mesurer la variance de réponse. Pour chaque question, nous indiquons si la variance de réponse est faible, moyenne ou élevée. Dans le cas d'une variance élevée, les questions font l'objet d'un test cognitif et nous recommandons des modifications à apporter aux questions.

    Pour l'analyse des erreurs de réponse de la Schools and Staffing Survey (SASS) parrainée par le National Center for Education Statistics (NCES), nous étudions également les liens possibles entre les réponses incohérentes et les caractéristiques des écoles et des enseignants qui participent à l'enquête. On peut utiliser les résultats de cette analyse pour modifier la méthode d'enquête en vue d'améliorer la qualité des données.

    Date de diffusion : 2002-09-12
Date de modification :