Analyse des données

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

2 facets displayed. 0 facets selected.

Géographie

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (10)

Tout (10) ((10 résultats))

  • Articles et rapports : 12-001-X201400214092
    Description :

    Les méthodologistes d’enquête étudient depuis longtemps les effets des intervieweurs sur la variance des estimations d’enquête. Les modèles statistiques tenant compte des effets aléatoires des intervieweurs sont souvent intégrés à ce genre d’études, et l’intérêt de la recherche repose sur l’ampleur de la composante de la variance de l’intervieweur. Une question peut se poser au cours d’une étude méthodologique : différents groupes d’intervieweurs (p. ex. ceux ayant de l’expérience relative à une enquête donnée par rapport aux nouvelles recrues, ou les intervieweurs IPAO par rapport aux intervieweurs ITAO) ont-ils des composantes de variance considérablement différentes dans ces modèles? Des écarts importants peuvent indiquer un besoin de formation supplémentaire pour certains sous-groupes, les propriétés moins optimales de différents modes ou styles d’interview pour certaines questions d’enquête (en ce qui concerne l’erreur quadratique moyenne globale des estimations d’enquête). Les chercheurs d’enquête désirant des réponses à ces types de questions disposent de différents outils statistiques. Le présent article cherche à fournir un aperçu des approches fréquentiste et bayésienne de rechange de la comparaison des composantes de la variance dans différents groupes d’intervieweurs d’enquête, au moyen d’un cadre de modélisation linéaire généralisée hiérarchique qui tient compte de différents types de variables d’enquête. Nous considérons d’abord les avantages et les limites de chaque approche, en comparant les méthodes utilisées pour l’estimation et l’inférence. Nous présentons ensuite une étude de simulation, en évaluant de façon empirique la capacité de chaque approche d’estimer efficacement les différences entre les composantes de la variance. Nous appliquons alors les deux approches à une analyse des données d’enquête réelles recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États-Unis. Nous concluons que les deux approches ont tendance à donner des inférences très semblables et nous présentons des suggestions à mettre en pratique, compte tenu des différences subtiles observées.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214096
    Description :

    Afin d’obtenir une meilleure couverture de la population d’intérêt et de réduire les coûts, un certain nombre d’enquêtes s’appuient sur un plan à base de sondage double, suivant lequel des échantillons indépendants sont tirés de deux bases de sondage chevauchantes. La présente étude porte sur les tests du khi-carré dans les enquêtes à base de sondage double en présence de données catégoriques. Nous étendons le test de Wald généralisé (Wald 1943), ainsi que les tests avec correction d’ordre un et correction d’ordre deux de Rao-Scott (Rao et Scott 1981) pour passer d’une enquête à base de sondage unique à une enquête à base de sondage double, et nous déterminons les distributions asymptotiques. Des simulations montrent que les deux tests avec correction de type Rao-Scott donnent de bons résultats, et il est donc recommandé de les utiliser dans les enquêtes à base de sondage double. Un exemple sert à illustrer l’utilisation des tests élaborés.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214118
    Description :

    L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

    Date de diffusion : 2014-12-19

  • Avis et consultations : 75-513-X2014001
    Description :

    Depuis l’année de référence 2012, des données annuelles sur le revenu des particuliers et des familles sont produites par l’Enquête canadienne sur le revenu (ECR). L’ECR est une enquête transversale visant à fournir des renseignements sur le revenu et les sources de revenu des Canadiens, de même que sur leurs caractéristiques personnelles et celles de leur ménage. L’ECR produit, dans une large mesure, les mêmes statistiques que l’Enquête sur la dynamique du travail et du revenu (EDTR), dont les dernières données sur le revenu portaient sur l’année de référence 2011. La présente note vise à décrire la méthodologie de l’ECR, ainsi que les principales différences dans les objectifs, la méthodologie et les questionnaires de l’ECR et de l’EDTR.

    Date de diffusion : 2014-12-10

  • Articles et rapports : 82-003-X201401014098
    Géographie : Province ou territoire
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 11F0027M2014094
    Géographie : Canada
    Description :

    Le présent rapport présente une comparaison de la valeur nette des ménages par habitant au Canada et aux États Unis de 1970 à 2012, basée sur des données provenant des comptes du bilan national du Canada et des mouvements de fonds (Flow of Funds Accounts) publiés par la Réserve fédérale américaine.

    Trois approches sont utilisées à cette fin. La première consiste en une comparaison des niveaux à partir de valeurs rajustées en fonction de la parité de pouvoir d’achat (PPA). La deuxième fait appel à des ratios de la valeur nette réelle par habitant et de la valeur nette au revenu disponible. Dans la troisième approche, on décompose la croissance du ratio de la valeur nette au revenu disponible. Ensemble, ces approches produisent des résultats qui se confortent mutuellement et qui sont plus robustes que ceux pouvant être obtenus au moyen d’une seule approche.

    Date de diffusion : 2014-08-20

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211870
    Description :

    Les instituts nationaux de statistique intègrent fréquemment des expériences dans les enquêtes par sondage courantes, par exemple pour déterminer si des modifications du processus d'enquête ont un effet sur les estimations des principaux paramètres de cette dernière, pour quantifier l'effet de diverses mises en oeuvre de l'enquête sur ces estimations, ou pour mieux comprendre les diverses sources d'erreur non due à l'échantillonnage. Le présent article propose une procédure d'analyse fondée sur le plan de sondage pour des plans factoriels complètement randomisés et des plans factoriels en blocs randomisés intégrés dans des échantillons probabilistes. Une statistique de Wald fondée sur le plan de sondage est élaborée pour vérifier si les paramètres de population, comme les moyennes, les totaux et les ratios de deux totaux de population, estimés sous les différentes combinaisons de traitements de l'expérience diffèrent de manière significative. Les méthodes sont illustrées au moyen d'une application réelle d'une expérience intégrée dans l'Enquête sur la population active des Pays-Bas.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211871
    Description :

    Les modèles de régression sont utilisés couramment pour analyser les données d'enquête lorsque l'on souhaite déterminer quels sont les facteurs influents associés à certains indices comportementaux, sociaux ou économiques au sein d'une population cible. Lorsque des données sont recueillies au moyen d'enquêtes complexes, il convient de réexaminer les propriétés des approches classiques de sélection des variables élaborées dans des conditions i.i.d. ne faisant pas appel au sondage. Dans le présent article, nous dérivons un critère BIC fondé sur la pseudovraisemblance pour la sélection des variables dans l'analyse des données d'enquête et proposons une approche de vraisemblance pénalisée dans des conditions de sondage pour sa mise en oeuvre. Les poids de sondage sont attribués comme il convient pour corriger le biais de sélection causé par la distorsion entre l'échantillon et la population cible. Dans un cadre de randomisation conjointe, nous établissons la cohérence de la procédure de sélection proposée. Les propriétés en échantillon fini de l'approche sont évaluées par des analyses et des simulations informatiques en se servant de données provenant de la composante de l'hypertension de l'Enquête sur les personnes ayant une maladie chronique au Canada de 2009.

    Date de diffusion : 2014-01-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (9)

Analyses (9) ((9 résultats))

  • Articles et rapports : 12-001-X201400214092
    Description :

    Les méthodologistes d’enquête étudient depuis longtemps les effets des intervieweurs sur la variance des estimations d’enquête. Les modèles statistiques tenant compte des effets aléatoires des intervieweurs sont souvent intégrés à ce genre d’études, et l’intérêt de la recherche repose sur l’ampleur de la composante de la variance de l’intervieweur. Une question peut se poser au cours d’une étude méthodologique : différents groupes d’intervieweurs (p. ex. ceux ayant de l’expérience relative à une enquête donnée par rapport aux nouvelles recrues, ou les intervieweurs IPAO par rapport aux intervieweurs ITAO) ont-ils des composantes de variance considérablement différentes dans ces modèles? Des écarts importants peuvent indiquer un besoin de formation supplémentaire pour certains sous-groupes, les propriétés moins optimales de différents modes ou styles d’interview pour certaines questions d’enquête (en ce qui concerne l’erreur quadratique moyenne globale des estimations d’enquête). Les chercheurs d’enquête désirant des réponses à ces types de questions disposent de différents outils statistiques. Le présent article cherche à fournir un aperçu des approches fréquentiste et bayésienne de rechange de la comparaison des composantes de la variance dans différents groupes d’intervieweurs d’enquête, au moyen d’un cadre de modélisation linéaire généralisée hiérarchique qui tient compte de différents types de variables d’enquête. Nous considérons d’abord les avantages et les limites de chaque approche, en comparant les méthodes utilisées pour l’estimation et l’inférence. Nous présentons ensuite une étude de simulation, en évaluant de façon empirique la capacité de chaque approche d’estimer efficacement les différences entre les composantes de la variance. Nous appliquons alors les deux approches à une analyse des données d’enquête réelles recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États-Unis. Nous concluons que les deux approches ont tendance à donner des inférences très semblables et nous présentons des suggestions à mettre en pratique, compte tenu des différences subtiles observées.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214096
    Description :

    Afin d’obtenir une meilleure couverture de la population d’intérêt et de réduire les coûts, un certain nombre d’enquêtes s’appuient sur un plan à base de sondage double, suivant lequel des échantillons indépendants sont tirés de deux bases de sondage chevauchantes. La présente étude porte sur les tests du khi-carré dans les enquêtes à base de sondage double en présence de données catégoriques. Nous étendons le test de Wald généralisé (Wald 1943), ainsi que les tests avec correction d’ordre un et correction d’ordre deux de Rao-Scott (Rao et Scott 1981) pour passer d’une enquête à base de sondage unique à une enquête à base de sondage double, et nous déterminons les distributions asymptotiques. Des simulations montrent que les deux tests avec correction de type Rao-Scott donnent de bons résultats, et il est donc recommandé de les utiliser dans les enquêtes à base de sondage double. Un exemple sert à illustrer l’utilisation des tests élaborés.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214118
    Description :

    L’agrégation bootstrap est une puissante méthode de calcul utilisée pour améliorer la performance des estimateurs inefficaces. Le présent article est le premier à explorer l’utilisation de l’agrégation bootstrap dans l’estimation par sondage. Nous y examinons les effets de l’agrégation bootstrap sur les estimateurs d’enquête non différenciables, y compris les fonctions de répartition de l’échantillon et les quantiles. Les propriétés théoriques des estimateurs d’enquête agrégés par bootstrap sont examinées sous le régime fondé sur le plan de sondage et le régime fondé sur le modèle. En particulier, nous montrons la convergence par rapport au plan des estimateurs agrégés par bootstrap et obtenons la normalité asymptotique des estimateurs dans un contexte fondé sur le modèle. L’article explique comment la mise en oeuvre de l’agrégation bootstrap des estimateurs d’enquête peut tirer parti des répliques produites pour l’estimation par sondage de la variance, facilitant l’application de l’agrégation bootstrap dans les enquêtes existantes. Un autre défi important dans la mise en oeuvre de l’agrégation bootstrap en contexte d’enquête est l’estimation de la variance pour les estimateurs agrégés par bootstrap eux-mêmes, et nous examinons deux façons possibles d’estimer la variance. Les expériences par simulation révèlent une amélioration de l’estimateur par agrégation bootstrap proposé par rapport à l’estimateur original et comparent les deux approches d’estimation de la variance.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 82-003-X201401014098
    Géographie : Province ou territoire
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 11F0027M2014094
    Géographie : Canada
    Description :

    Le présent rapport présente une comparaison de la valeur nette des ménages par habitant au Canada et aux États Unis de 1970 à 2012, basée sur des données provenant des comptes du bilan national du Canada et des mouvements de fonds (Flow of Funds Accounts) publiés par la Réserve fédérale américaine.

    Trois approches sont utilisées à cette fin. La première consiste en une comparaison des niveaux à partir de valeurs rajustées en fonction de la parité de pouvoir d’achat (PPA). La deuxième fait appel à des ratios de la valeur nette réelle par habitant et de la valeur nette au revenu disponible. Dans la troisième approche, on décompose la croissance du ratio de la valeur nette au revenu disponible. Ensemble, ces approches produisent des résultats qui se confortent mutuellement et qui sont plus robustes que ceux pouvant être obtenus au moyen d’une seule approche.

    Date de diffusion : 2014-08-20

  • Articles et rapports : 12-001-X201400114003
    Description :

    Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211870
    Description :

    Les instituts nationaux de statistique intègrent fréquemment des expériences dans les enquêtes par sondage courantes, par exemple pour déterminer si des modifications du processus d'enquête ont un effet sur les estimations des principaux paramètres de cette dernière, pour quantifier l'effet de diverses mises en oeuvre de l'enquête sur ces estimations, ou pour mieux comprendre les diverses sources d'erreur non due à l'échantillonnage. Le présent article propose une procédure d'analyse fondée sur le plan de sondage pour des plans factoriels complètement randomisés et des plans factoriels en blocs randomisés intégrés dans des échantillons probabilistes. Une statistique de Wald fondée sur le plan de sondage est élaborée pour vérifier si les paramètres de population, comme les moyennes, les totaux et les ratios de deux totaux de population, estimés sous les différentes combinaisons de traitements de l'expérience diffèrent de manière significative. Les méthodes sont illustrées au moyen d'une application réelle d'une expérience intégrée dans l'Enquête sur la population active des Pays-Bas.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211871
    Description :

    Les modèles de régression sont utilisés couramment pour analyser les données d'enquête lorsque l'on souhaite déterminer quels sont les facteurs influents associés à certains indices comportementaux, sociaux ou économiques au sein d'une population cible. Lorsque des données sont recueillies au moyen d'enquêtes complexes, il convient de réexaminer les propriétés des approches classiques de sélection des variables élaborées dans des conditions i.i.d. ne faisant pas appel au sondage. Dans le présent article, nous dérivons un critère BIC fondé sur la pseudovraisemblance pour la sélection des variables dans l'analyse des données d'enquête et proposons une approche de vraisemblance pénalisée dans des conditions de sondage pour sa mise en oeuvre. Les poids de sondage sont attribués comme il convient pour corriger le biais de sélection causé par la distorsion entre l'échantillon et la population cible. Dans un cadre de randomisation conjointe, nous établissons la cohérence de la procédure de sélection proposée. Les propriétés en échantillon fini de l'approche sont évaluées par des analyses et des simulations informatiques en se servant de données provenant de la composante de l'hypertension de l'Enquête sur les personnes ayant une maladie chronique au Canada de 2009.

    Date de diffusion : 2014-01-15
Références (1)

Références (1) ((1 résultat))

  • Avis et consultations : 75-513-X2014001
    Description :

    Depuis l’année de référence 2012, des données annuelles sur le revenu des particuliers et des familles sont produites par l’Enquête canadienne sur le revenu (ECR). L’ECR est une enquête transversale visant à fournir des renseignements sur le revenu et les sources de revenu des Canadiens, de même que sur leurs caractéristiques personnelles et celles de leur ménage. L’ECR produit, dans une large mesure, les mêmes statistiques que l’Enquête sur la dynamique du travail et du revenu (EDTR), dont les dernières données sur le revenu portaient sur l’année de référence 2011. La présente note vise à décrire la méthodologie de l’ECR, ainsi que les principales différences dans les objectifs, la méthodologie et les questionnaires de l’ECR et de l’EDTR.

    Date de diffusion : 2014-12-10
Date de modification :