Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (10)

Tout (10) ((10 résultats))

  • Articles et rapports : 12-001-X201400214090
    Description :

    Lorsqu'on s'intéresse à une population finie, il arrive qu'il soit nécessaire de tirer des échantillons dans plusieurs bases de sondage pour représenter l'ensemble des individus. Nous nous intéressons ici au cas de deux échantillons sélectionnés selon un plan à deux degrés, avec un premier degré de tirage commun. Nous appliquons les méthodes de Hartley (1962), Bankier (1986), et Kalton et Anderson (1986), et nous montrons que ces méthodes peuvent être appliquées conditionnellement au premier degré de tirage. Nous comparons également la performance de plusieurs estimateurs dans le cadre d'une étude par simulations. Nos résultats suggèrent que le choix d'un estimateur en présence de bases de sondage multiples se fasse de façon prudente, et qu'un estimateur simple est parfois préférable même s'il n'utilise qu'une partie de l'information collectée.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214096
    Description :

    Afin d’obtenir une meilleure couverture de la population d’intérêt et de réduire les coûts, un certain nombre d’enquêtes s’appuient sur un plan à base de sondage double, suivant lequel des échantillons indépendants sont tirés de deux bases de sondage chevauchantes. La présente étude porte sur les tests du khi-carré dans les enquêtes à base de sondage double en présence de données catégoriques. Nous étendons le test de Wald généralisé (Wald 1943), ainsi que les tests avec correction d’ordre un et correction d’ordre deux de Rao-Scott (Rao et Scott 1981) pour passer d’une enquête à base de sondage unique à une enquête à base de sondage double, et nous déterminons les distributions asymptotiques. Des simulations montrent que les deux tests avec correction de type Rao-Scott donnent de bons résultats, et il est donc recommandé de les utiliser dans les enquêtes à base de sondage double. Un exemple sert à illustrer l’utilisation des tests élaborés.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 11-522-X201300014276
    Description :

    En France, les contraintes budgétaires rendent plus difficile l’embauche d’enquêteurs occasionnels pour prendre en compte des problèmes de collecte. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée. Pour les enquêtes Insee, réalisées à partir d’un échantillon maître, les difficultés apparaissent lors de l’absence prolongée d’un enquêteur sur l’ensemble de la durée de la collecte d’une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l’enquête, ce qui génère de fait un biais. Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en oeuvre en fonction du moment où le problème est diagnostiqué. Si l’ « abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en oeuvre. Elle consiste à interroger un minimum de ménages dans chaque zone de collecte au détriment d’autres zones pour lesquelles aucun problème de collecte n’est a priori diagnostiqué. Il s’agit donc de minimiser la dispersion des poids sous contrainte de respect de la charge de collecte. Si l’ « abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en oeuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d’un échantillon par rapport à la population de base. L’objectif de cette priorisation en cours de collecte est de s’approcher le plus possible au final d’une équi-probabilité de réponse des répondants. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d’analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d’intensifier les efforts de collecte sur les groupes précédemment identifiés. Lors de la présentation orale, les deux points avaient été évoqués succinctement. Toutefois, cet article ne traite que du premier point évoqué ci-dessus, à savoir la « sous-allocation ». La priorisation est en cours de mise en oeuvre pour la première fois à l’Insee pour l’enquête Patrimoine et elle donnera lieu à un article spécifique qui sera rédigé par A. Rebecq.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X201300014286
    Description :

    L’Etude Longitudinale Française depuis l’Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion en maternité. Cette cohorte, consacrée au suivi des enfants, de la naissance à l’âge adulte, aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l’un des 25 jours répartis parmi les quatre saisons, ont été sélectionnés. Cet échantillon est le résultat d’un plan de sondage non standard que nous appellons échantillonnage produit. Il se présente pour cette enquête sous la forme du croisement de deux échantillonnages indépendants: celui des maternités et celui des jours. Si l’on peut facilement imaginer un effet grappe dû à l’échantillonnage de maternités, on peut symétriquement imaginer un effet grappe dû à l’échantillonnage des jours. La dimension temporelle du plan ne pourra alors être négligée si les estimations recherchées sont susceptibles de variations journalières ou saisonnières. Si ce plan non standard peut être vu comme un plan à deux phases bien particulier, il s’avère nécessaire de le définir dans un cadre plus adapté. Après une comparaison entre le plan produit et un plan classique à deux degrés, seront proposés des estimateurs de variance adaptés à ce plan de sondage. Une étude par simulations illustrera nos propos.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211884
    Description :

    Le présent article offre une solution au problème de la détermination de la stratification optimale de la base de sondage de la population disponible en vue de minimiser le coût de l'échantillon requis pour satisfaire aux contraintes de précision sur un ensemble d'estimations cibles différentes. La solution est recherchée en explorant l'univers de toutes les stratifications qu'il est possible d'obtenir par classification croisée des variables auxiliaires catégoriques disponibles dans la base de sondage (les variables auxiliaires continues peuvent être transformées en variables catégoriques par des méthodes appropriées). Par conséquent, l'approche suivie est multivariée en ce qui concerne les variables cibles ainsi que les variables auxiliaires. L'algorithme proposé est fondé sur une approche évolutionniste non déterministe qui fait appel au paradigme de l'algorithme génétique. La caractéristique principale de l'algorithme est que l'on considère chaque stratification possible comme un individu susceptible d'évoluer dont l'adaptation est mesurée par le coût de l'échantillon associé requis pour satisfaire à un ensemble de contraintes de précision, ce coût étant calculé en appliquant l'algorithme de Bethel pour une répartition multivariée. Cet algorithme de stratification optimale, implémenté dans un module (ou package) R (SamplingStrata), a été appliqué jusqu'à présent à un certain nombre d'enquêtes courantes à l'Institut national de statistique de l'Italie : les résultats montrent systématiquement une amélioration importante de l'efficacité des échantillons obtenus comparativement aux stratifications adoptées antérieurement.

    Date de diffusion : 2014-01-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (10)

Analyses (10) ((10 résultats))

  • Articles et rapports : 12-001-X201400214090
    Description :

    Lorsqu'on s'intéresse à une population finie, il arrive qu'il soit nécessaire de tirer des échantillons dans plusieurs bases de sondage pour représenter l'ensemble des individus. Nous nous intéressons ici au cas de deux échantillons sélectionnés selon un plan à deux degrés, avec un premier degré de tirage commun. Nous appliquons les méthodes de Hartley (1962), Bankier (1986), et Kalton et Anderson (1986), et nous montrons que ces méthodes peuvent être appliquées conditionnellement au premier degré de tirage. Nous comparons également la performance de plusieurs estimateurs dans le cadre d'une étude par simulations. Nos résultats suggèrent que le choix d'un estimateur en présence de bases de sondage multiples se fasse de façon prudente, et qu'un estimateur simple est parfois préférable même s'il n'utilise qu'une partie de l'information collectée.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214096
    Description :

    Afin d’obtenir une meilleure couverture de la population d’intérêt et de réduire les coûts, un certain nombre d’enquêtes s’appuient sur un plan à base de sondage double, suivant lequel des échantillons indépendants sont tirés de deux bases de sondage chevauchantes. La présente étude porte sur les tests du khi-carré dans les enquêtes à base de sondage double en présence de données catégoriques. Nous étendons le test de Wald généralisé (Wald 1943), ainsi que les tests avec correction d’ordre un et correction d’ordre deux de Rao-Scott (Rao et Scott 1981) pour passer d’une enquête à base de sondage unique à une enquête à base de sondage double, et nous déterminons les distributions asymptotiques. Des simulations montrent que les deux tests avec correction de type Rao-Scott donnent de bons résultats, et il est donc recommandé de les utiliser dans les enquêtes à base de sondage double. Un exemple sert à illustrer l’utilisation des tests élaborés.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 11-522-X201300014276
    Description :

    En France, les contraintes budgétaires rendent plus difficile l’embauche d’enquêteurs occasionnels pour prendre en compte des problèmes de collecte. Il devient donc nécessaire de respecter une quotité de travail annuelle préalablement fixée. Pour les enquêtes Insee, réalisées à partir d’un échantillon maître, les difficultés apparaissent lors de l’absence prolongée d’un enquêteur sur l’ensemble de la durée de la collecte d’une enquête. En effet, dans ces conditions une partie du territoire peut devenir non couverte par l’enquête, ce qui génère de fait un biais. Afin de répondre à cette nouvelle difficulté, deux méthodes ont été mises en oeuvre en fonction du moment où le problème est diagnostiqué. Si l’ « abandon » de zone intervient avant ou juste au début de la collecte, une procédure dite de « sous-allocation » est mise en oeuvre. Elle consiste à interroger un minimum de ménages dans chaque zone de collecte au détriment d’autres zones pour lesquelles aucun problème de collecte n’est a priori diagnostiqué. Il s’agit donc de minimiser la dispersion des poids sous contrainte de respect de la charge de collecte. Si l’ « abandon » de zone intervient en cours de collecte, une priorisation des enquêtes restantes est mise en oeuvre. Elle se base sur le R-indicateur (indicateur de Représentativité) qui permet de mesurer le degré de similarité d’un échantillon par rapport à la population de base. L’objectif de cette priorisation en cours de collecte est de s’approcher le plus possible au final d’une équi-probabilité de réponse des répondants. Il est basé sur la dispersion des probabilités de réponse estimées des ménages échantillonnés, et se décline en R-indicateurs partiels mesurant cette représentativité variable par variable. Ces R-indicateurs sont des outils permettant d’analyser la collecte en isolant des groupes de populations sous-représentées. Il est possible d’intensifier les efforts de collecte sur les groupes précédemment identifiés. Lors de la présentation orale, les deux points avaient été évoqués succinctement. Toutefois, cet article ne traite que du premier point évoqué ci-dessus, à savoir la « sous-allocation ». La priorisation est en cours de mise en oeuvre pour la première fois à l’Insee pour l’enquête Patrimoine et elle donnera lieu à un article spécifique qui sera rédigé par A. Rebecq.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X201300014286
    Description :

    L’Etude Longitudinale Française depuis l’Enfance (Elfe), démarrée en 2011, compte plus de 18 300 nourrissons dont les parents ont consenti à leur inclusion en maternité. Cette cohorte, consacrée au suivi des enfants, de la naissance à l’âge adulte, aborde les multiples aspects de la vie de l’enfant sous l’angle des sciences sociales, de la santé et de la santé-environnement. Dans chacune des maternités tirées aléatoirement, tous les nourrissons de la population cible, nés durant l’un des 25 jours répartis parmi les quatre saisons, ont été sélectionnés. Cet échantillon est le résultat d’un plan de sondage non standard que nous appellons échantillonnage produit. Il se présente pour cette enquête sous la forme du croisement de deux échantillonnages indépendants: celui des maternités et celui des jours. Si l’on peut facilement imaginer un effet grappe dû à l’échantillonnage de maternités, on peut symétriquement imaginer un effet grappe dû à l’échantillonnage des jours. La dimension temporelle du plan ne pourra alors être négligée si les estimations recherchées sont susceptibles de variations journalières ou saisonnières. Si ce plan non standard peut être vu comme un plan à deux phases bien particulier, il s’avère nécessaire de le définir dans un cadre plus adapté. Après une comparaison entre le plan produit et un plan classique à deux degrés, seront proposés des estimateurs de variance adaptés à ce plan de sondage. Une étude par simulations illustrera nos propos.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211884
    Description :

    Le présent article offre une solution au problème de la détermination de la stratification optimale de la base de sondage de la population disponible en vue de minimiser le coût de l'échantillon requis pour satisfaire aux contraintes de précision sur un ensemble d'estimations cibles différentes. La solution est recherchée en explorant l'univers de toutes les stratifications qu'il est possible d'obtenir par classification croisée des variables auxiliaires catégoriques disponibles dans la base de sondage (les variables auxiliaires continues peuvent être transformées en variables catégoriques par des méthodes appropriées). Par conséquent, l'approche suivie est multivariée en ce qui concerne les variables cibles ainsi que les variables auxiliaires. L'algorithme proposé est fondé sur une approche évolutionniste non déterministe qui fait appel au paradigme de l'algorithme génétique. La caractéristique principale de l'algorithme est que l'on considère chaque stratification possible comme un individu susceptible d'évoluer dont l'adaptation est mesurée par le coût de l'échantillon associé requis pour satisfaire à un ensemble de contraintes de précision, ce coût étant calculé en appliquant l'algorithme de Bethel pour une répartition multivariée. Cet algorithme de stratification optimale, implémenté dans un module (ou package) R (SamplingStrata), a été appliqué jusqu'à présent à un certain nombre d'enquêtes courantes à l'Institut national de statistique de l'Italie : les résultats montrent systématiquement une amélioration importante de l'efficacité des échantillons obtenus comparativement aux stratifications adoptées antérieurement.

    Date de diffusion : 2014-01-15
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :