Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

80 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

80 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

80 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

80 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (151)

Tout (151) (25 of 151 results)

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Produits techniques : 11-522-X201700014758
    Description :

    "Plusieurs secteurs de compétence au Canada, y compris l’Ontario, utilisent dans leurs modèles de financement des données sur les soins de santé axées sur les patients. Ces initiatives peuvent influencer la qualité de ces données, tant de façon positive que négative, les personnes ayant tendance à accorder davantage d’attention aux données et à leur qualité lorsqu’elles servent à prendre des décisions financières. La formule de financement de l’Ontario utilise des données de plusieurs bases de données nationales hébergées par l’Institut canadien d’information sur la santé (ICIS). Ces bases de données fournissent des renseignements sur les activités et le statut clinique des patients pour un continuum de soins. Comme les modèles de financement peuvent influencer le comportement du codage, l’ICIS collabore avec le Ministère ontarien de la santé et des soins de longue durée, afin d’évaluer et de contrôler la qualité de ces données. L’ICIS utilise un logiciel de forage des données et des techniques de modélisation (qui sont souvent associées aux « mégadonnées »), afin de déceler les anomalies dans les données pour plusieurs facteurs. Les modèles déterminent les tendances de codage clinique « typiques » pour des groupes clés de patients (p. ex. les patients vus dans des unités de soins spéciaux ou renvoyés chez eux pour des soins à domicile), afin que des valeurs aberrantes puissent être déterminées, lorsque les patients ne s’inscrivent pas dans la tendance attendue. Une composante clé de la modélisation est la segmentation des données selon les caractéristiques du patient, du fournisseur et de l’hôpital, afin de tenir compte des différences principales dans la prestation des soins de santé et les populations de patients dans la province. L’analyse de l’ICIS a permis d’identifier plusieurs hôpitaux dont les pratiques de codage semblent changer ou être significativement différentes par rapport à celles de leur groupe de pairs. Des examens plus poussés sont requis pour comprendre pourquoi ces différences existent et pour élaborer des stratégies appropriées pour atténuer les variations. "

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014744
    Description :

    La présentation débutera avec un résumé de la recherche réalisée sur la qualité et l’utilité des paradonnées recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États Unis. La NSFG est une grande enquête nationale sur la fécondité aux États Unis qui est, pour les décideurs, une source importante de données sur l’activité sexuelle, le comportement sexuel et la santé génésique. Depuis de nombreuses années, la NSFG a permis de recueillir diverses formes de paradonnées, y compris les données issues de frappes au clavier (p. ex., Couper et Kreuter 2013), les renseignements du registre des appels, les renseignements détaillés sur les décisions concernant les cas, et les observations des intervieweurs associées aux principales mesures de la NSFG (p. ex., West 2013). Ensuite, certains défis que pose l’utilisation de ces données seront discutés, ainsi que des preuves de leur utilité pour la correction de la non réponse, l’évaluation des intervieweurs et/ou l’utilisation de plans de collecte adaptatifs. Troisièmement, des travaux de recherche seront présentés portant sur l’utilisation des paradonnées recueillies dans le cadre de deux enquêtes par panel, à savoir la Medical Expenditure Panel Survey (MEPS) réalisée aux États Unis et la Panel Labour Market and Social Security (PASS) réalisée en Allemagne. Dans les deux enquêtes, l’information émanant des prises de contact lors de vagues antérieures a été utilisée expérimentalement en vue d’améliorer les taux de prise de contact et de réponse lors des vagues subséquentes. On présentera aussi des travaux de recherche portant sur la PASS dans le cadre desquels des données d’observation des intervieweurs concernant d’importantes variables de résultats ont été recueillies en vue de prendre des décisions quant à la correction de la non réponse ou l’utilisation d’un plan de collecte adaptatif. Cette présentation ne couvrira pas seulement des résultats de la recherche, mais aussi des défis pratiques liés à la mise en œuvre de la collecte et à l’utilisation des deux ensembles de paradonnées.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014739
    Description :

    Les ensembles de données de la statistique de l’état civil, comme la Base canadienne de données sur la mortalité, n’ont pas d’identificateurs pour certaines populations d’intérêt, comme les Premières Nations, les Métis et les Inuits. Le couplage d’enregistrements entre les données de la statistique de l’état civil et les ensembles de données d’enquête ou autres ensembles de données administratives peuvent permettre de contourner cette limite. Le présent document décrit un couplage de la Base canadienne de données sur la mortalité et du Recensement de la population de 2006, ainsi que l’analyse prévue à partir des données couplées.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201600114307
    Description :

    À partir de l’Enquête auprès des peuples autochtones de 2012, la présente étude examine les propriétés psychométriques de l’échelle de détresse psychologique à 10 questions de Kessler (une mesure abrégée de la détresse psychologique non spécifique) appliquée aux Premières Nations vivant à l’extérieur des réserves, aux Métis et aux Inuits âgés de 15 ans et plus.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114172
    Description :

    Quand un échantillon aléatoire tiré d’une base liste complète souffre de non-réponse totale, on peut faire appel à la pondération par calage sur des totaux de population pour éliminer le biais de non-réponse sous un modèle hypothétique de réponse (sélection) ou de prédiction (résultat). De cette façon, la pondération par calage peut non seulement procurer une double protection contre le biais de non-réponse, mais aussi réduire la variance. En employant une astuce simple, on peut estimer simultanément la variance sous le modèle hypothétique de prédiction et l’erreur quadratique moyenne sous la combinaison du modèle hypothétique de réponse et du mécanisme d’échantillonnage probabiliste. Malheureusement, il existe une limite pratique aux types de modèle de réponse que l’on peut supposer lorsque les poids de sondage sont calés sur les totaux de population en une seule étape. En particulier, la fonction de réponse choisie ne peut pas toujours être logistique. Cette limite ne gêne pas la pondération par calage lorsqu’elle est effectuée en deux étapes : de l’échantillon de répondants à l’échantillon complet pour éliminer le biais de réponse, et puis de l’échantillon complet à la population pour réduire la variance. Des gains d’efficacité pourraient découler de l’utilisation de l’approche en deux étapes, même si les variables de calage employées à chaque étape représentent un sous-ensemble des variables de calage de l’approche en une seule étape. L’estimation simultanée de l’erreur quadratique moyenne par linéarisation est possible, mais plus compliquée que lorsque le calage est effectué en une seule étape.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214097
    Description :

    Lorsque les enquêtes mensuelles auprès des entreprises ne sont pas entièrement chevauchantes, il existe deux estimateurs différents du taux de croissance mensuelle du chiffre d’affaires, i) l’un fondé sur les totaux de population estimés mensuellement et ii) l’autre fondé purement sur les entreprises observées aux deux occasions dans la partie chevauchante des enquêtes correspondantes. Les estimations et les variances résultantes pourraient être assez différentes. Le présent article a pour but de proposer un estimateur composite optimal du taux de croissance, ainsi que des totaux de population.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014282
    Description :

    Le Panel des établissements de l’IAB est l’enquête auprès des établissements la plus complète qui soit menée en Allemagne, 16 000 entreprises y participant chaque année. Des interviews sur place en utilisant papier et crayon (IPC) sont réalisées depuis 1993. Un projet courant a pour objet d’examiner les effets possibles du passage de l’enquête à la méthode d’interview sur place assistée par ordinateur (IPAO) combinée à une version en ligne du questionnaire (IWAO). En guise de première étape, des questions sur l’accès à Internet, le désir de remplir le questionnaire en ligne et les raisons du refus ont été incluses dans la vague de 2012 de l’enquête. Les premiers résultats révèlent un refus généralisé de participer à une enquête en ligne. Un examen plus approfondi montre que les petits établissements, les participants de longue date à l’enquête et les répondants d’un certain âge sont réticents à l’idée d’utiliser Internet.

    Date de diffusion : 2014-10-31

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211868
    Description :

    Thompson et Sigman (2000) ont proposé une méthode d'estimation des médianes applicable à des données provenant de populations à forte asymétrie positive. Cette méthode comprend une interpolation sur des intervalles (classes) qui dépendent des données. Ils ont démontré qu'elle possède de bonnes propriétés statistiques pour les médianes calculées d'après un échantillon fortement asymétrique. La présente étude étend les travaux antérieurs aux méthodes d'estimation des déciles pour une population à asymétrie positive en utilisant des données d'enquête complexes. Nous présentons trois méthodes d'interpolation, ainsi que la méthode classique d'estimation des déciles (sans classes) et nous évaluons chaque méthode empiriquement au moyen d'une étude en simulation en utilisant les données sur les logements résidentiels provenant de l'Enquête sur la construction (Survey of Construction). Nous avons constaté qu'une variante de la méthode courante en utilisant le 95e centile comme facteur d'échelle produit les estimations des déciles ayant les meilleures propriétés statistiques.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111826
    Description :

    Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.

    Date de diffusion : 2013-06-28

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (105)

Analyses (105) (25 of 105 results)

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114543
    Description :

    L’estimateur par régression est utilisé de façon intensive en pratique, car il peut améliorer la fiabilité de l’estimation des paramètres d’intérêt tels que les moyennes ou les totaux. Il utilise les totaux de contrôle des variables connues au niveau de la population qui sont incluses dans le modèle de régression. Dans cet article, nous examinons les propriétés de l’estimateur par régression qui utilise les totaux de contrôle estimés à partir de l’échantillon, ainsi que ceux connus au niveau de la population. Cet estimateur est comparé aux estimateurs par régression qui utilisent uniquement les totaux connus du point de vue théorique et par simulation.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600114306
    Description :

    Le présent article donne un aperçu de la création, du contenu et de la qualité de la Base de données sur la cohorte canadienne de naissance du Recensement de 2006.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 82-003-X201600114307
    Description :

    À partir de l’Enquête auprès des peuples autochtones de 2012, la présente étude examine les propriétés psychométriques de l’échelle de détresse psychologique à 10 questions de Kessler (une mesure abrégée de la détresse psychologique non spécifique) appliquée aux Premières Nations vivant à l’extérieur des réserves, aux Métis et aux Inuits âgés de 15 ans et plus.

    Date de diffusion : 2016-01-20

  • Articles et rapports : 12-001-X201500214231
    Description :

    Les instituts nationaux de statistique font une grande utilisation des panels rotatifs, par exemple pour produire des statistiques officielles sur la population active. Les procédures d’estimation se fondent généralement sur les approches traditionnelles fondées sur le plan de sondage conformes à la théorie classique de l’échantillonnage. Un inconvénient important des estimateurs de cette classe est que les petites tailles d’échantillon entraînent de grandes erreurs-types et qu’ils ne sont pas robustes au biais de mesure. Deux exemples où les effets de biais de mesure deviennent apparents sont le biais de groupe de renouvellement dans les panels rotatifs et les différences systématiques dans les résultats d’une enquête dues à un remaniement important du processus sous-jacent. Dans cet article, nous appliquons un modèle de séries chronologiques structurel multivarié à l’enquête sur la population active des Pays-Bas pour produire des données mensuelles sur la population active qui se fondent sur un modèle. Le modèle réduit les erreurs-types des estimations en tirant parti des renseignements sur l’échantillon recueillis au cours des périodes précédentes, tient compte du biais de groupe de renouvellement et de l’autocorrélation induite par le panel rotatif, et modélise les discontinuités dues au remaniement de l’enquête. Nous examinons également l’utilisation des séries auxiliaires corrélées du modèle, qui vise à améliorer davantage l’exactitude des estimations du modèle. Statistics Netherlands utilise cette méthode pour produire des statistiques mensuelles officielles exactes sur la population active qui sont convergentes dans le temps, malgré le remaniement du processus d’enquête.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114172
    Description :

    Quand un échantillon aléatoire tiré d’une base liste complète souffre de non-réponse totale, on peut faire appel à la pondération par calage sur des totaux de population pour éliminer le biais de non-réponse sous un modèle hypothétique de réponse (sélection) ou de prédiction (résultat). De cette façon, la pondération par calage peut non seulement procurer une double protection contre le biais de non-réponse, mais aussi réduire la variance. En employant une astuce simple, on peut estimer simultanément la variance sous le modèle hypothétique de prédiction et l’erreur quadratique moyenne sous la combinaison du modèle hypothétique de réponse et du mécanisme d’échantillonnage probabiliste. Malheureusement, il existe une limite pratique aux types de modèle de réponse que l’on peut supposer lorsque les poids de sondage sont calés sur les totaux de population en une seule étape. En particulier, la fonction de réponse choisie ne peut pas toujours être logistique. Cette limite ne gêne pas la pondération par calage lorsqu’elle est effectuée en deux étapes : de l’échantillon de répondants à l’échantillon complet pour éliminer le biais de réponse, et puis de l’échantillon complet à la population pour réduire la variance. Des gains d’efficacité pourraient découler de l’utilisation de l’approche en deux étapes, même si les variables de calage employées à chaque étape représentent un sous-ensemble des variables de calage de l’approche en une seule étape. L’estimation simultanée de l’erreur quadratique moyenne par linéarisation est possible, mais plus compliquée que lorsque le calage est effectué en une seule étape.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Articles et rapports : 12-001-X201400214119
    Description :

    Lorsqu’on envisage la stratification d’un échantillon en fonction de plusieurs variables, on se trouve souvent dans la situation où le nombre prévu d’unités de l’échantillon qui doivent être sélectionnées dans chaque strate est très petit et où le nombre total d’unités à sélectionner est plus petit que le nombre total de strates. Ces plans de sondage stratifiés sont représentés spécifiquement par des tableaux contenant des nombres réels, appelés problèmes de sélection contrôlée, et ne peuvent pas être résolus par les méthodes classiques de répartition. Depuis une soixantaine d’années, de nombreux algorithmes ont été examinés pour résoudre ces problèmes, à commencer par celui de Goodman et Kish (1950). Ceux qui ont été élaborés plus récemment sont particulièrement exigeants du point de vue informatique et trouvent toujours les solutions. Cependant, la question qui demeure sans réponse est celle de savoir dans quel sens les solutions d’un problème de sélection contrôlée obtenues au moyen de ces algorithmes sont optimales. Nous introduisons le concept général des solutions optimales, et nous proposons un nouvel algorithme de sélection contrôlée fondé sur des fonctions de distance type pour obtenir ces solutions. Cet algorithme peut être exécuté facilement par un nouveau logiciel basé sur SAS. La présente étude porte sur les plans de sondage avec stratification à deux dimensions. Les solutions de sélection contrôlée issues du nouvel algorithme sont comparées à celles obtenues au moyen des algorithmes existants, en se fondant sur plusieurs exemples. Le nouvel algorithme arrive à fournir des solutions robustes aux problèmes de sélection contrôlée à deux dimensions qui satisfont aux critères d’optimalité.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214097
    Description :

    Lorsque les enquêtes mensuelles auprès des entreprises ne sont pas entièrement chevauchantes, il existe deux estimateurs différents du taux de croissance mensuelle du chiffre d’affaires, i) l’un fondé sur les totaux de population estimés mensuellement et ii) l’autre fondé purement sur les entreprises observées aux deux occasions dans la partie chevauchante des enquêtes correspondantes. Les estimations et les variances résultantes pourraient être assez différentes. Le présent article a pour but de proposer un estimateur composite optimal du taux de croissance, ainsi que des totaux de population.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211868
    Description :

    Thompson et Sigman (2000) ont proposé une méthode d'estimation des médianes applicable à des données provenant de populations à forte asymétrie positive. Cette méthode comprend une interpolation sur des intervalles (classes) qui dépendent des données. Ils ont démontré qu'elle possède de bonnes propriétés statistiques pour les médianes calculées d'après un échantillon fortement asymétrique. La présente étude étend les travaux antérieurs aux méthodes d'estimation des déciles pour une population à asymétrie positive en utilisant des données d'enquête complexes. Nous présentons trois méthodes d'interpolation, ainsi que la méthode classique d'estimation des déciles (sans classes) et nous évaluons chaque méthode empiriquement au moyen d'une étude en simulation en utilisant les données sur les logements résidentiels provenant de l'Enquête sur la construction (Survey of Construction). Nous avons constaté qu'une variante de la méthode courante en utilisant le 95e centile comme facteur d'échelle produit les estimations des déciles ayant les meilleures propriétés statistiques.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111826
    Description :

    Il est courant que les organismes d'enquête fournissent des poids de rééchantillonnage dans les fichiers de données d'enquête. Ces poids de rééchantillonnage servent à produire de manière simple et systématique des estimations valides et efficaces de la variance pour divers estimateurs. Cependant, la plupart des méthodes existantes de construction de poids de rééchantillonnage ne sont valides que pour des plans d'échantillonnage particuliers et nécessitent habituellement un très grand nombre de répliques. Dans le présent article, nous montrons d'abord comment produire les poids de rééchantillonnage en se basant sur la méthode décrite dans Fay (1984) de manière que l'estimateur de la variance par rééchantillonnage résultant soit algébriquement équivalent à l'estimateur de la variance par linéarisation entièrement efficace pour tout plan d'échantillonnage donné. Puis, nous proposons une nouvelle méthode de calage des poids afin que l'estimation soit simultanément efficace et parcimonieuse au sens où un petit nombre de jeux de poids de rééchantillonnage peuvent produire des estimateurs de la variance par rééchantillonnage valides et efficaces pour les paramètres de population importants. La méthode que nous proposons peut être conjuguée aux méthodes de rééchantillonnage existantes pour les enquêtes complexes à grande échelle. Nous discutons également de la validité des méthodes proposées et de leur extension à certains plans d'échantillonnage équilibrés. Les résultats de simulations montrent que les estimateurs de variance que nous proposons suivent très bien les probabilités de couverture des intervalles de confiance. Les stratégies que nous proposons auront vraisemblablement des répercussions sur la façon de produire les fichiers de données d'enquête à grande diffusion et d'analyser ces ensembles de données.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201300111828
    Description :

    Une question fréquente concernant les enquêtes longitudinales est celle de savoir comment combiner les différentes cohortes. Dans le présent article, nous présentons une nouvelle méthode qui permet de combiner différentes cohortes et d'utiliser toutes les données à notre disposition dans une enquête longitudinale pour estimer les paramètres d'un modèle semi-paramétrique qui relie la variable réponse à un jeu de covariables. La procédure s'appuie sur la méthode des équations d'estimation généralisées pondérées pour traiter les données manquantes pour certaines vagues dans les enquêtes longitudinales. Notre méthode s'appuie, pour l'estimation des paramètres du modèle, sur un cadre de randomisation conjointe qui tient compte à la fois du modèle de superpopulation et de la sélection aléatoire selon le plan de sondage. Nous proposons aussi une méthode d'estimation de la variance sous le plan et sous randomisation conjointe. Pour illustrer la méthode, nous l'appliquons à l'enquête Survey of Doctorate Recipients réalisée par la National Science Foundation des États-Unis.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 82-003-X201300111765
    Description :

    La présente étude décrit comment les réponses recueillies auprès des parents/tuteurs d'un échantillon représentatif au niveau national d'enfants autochtones (à l'extérieur des réserves), dans le cadre de l'Enquête sur les enfants autochtones de 2006, pourraient être utilisées comme indicateurs du langage.

    Date de diffusion : 2013-01-16

  • Articles et rapports : 12-001-X201200211754
    Description :

    La méthode d'ajustement sur le score de propension est souvent adoptée pour traiter le biais de sélection dans les sondages, y compris la non-réponse totale et le sous-dénombrement. Le score de propension est calculé en se servant de variables auxiliaires observées dans tout l'échantillon. Nous discutons de certaines propriétés asymptotiques des estimateurs ajustés sur le score de propension et dérivons des estimateurs optimaux fondés sur un modèle de régression pour la population finie. Un estimateur ajusté sur le score de propension optimal peut être réalisé en se servant d'un modèle de score de propension augmenté. Nous discutons de l'estimation de la variance et présentons les résultats de deux études par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211759
    Description :

    L'un des avantages de l'imputation multiple est qu'elle permet aux utilisateurs des données de faire des inférences valides en appliquant des méthodes classiques avec des règles de combinaison simples. Toutefois, les règles de combinaison établies pour les tests d'hypothèse multivariés échouent quand l'erreur d'échantillonnage est nulle. Le présent article propose des tests modifiés utilisables dans les analyses en population finie de données de recensement comportant de multiples imputations pour contrôler la divulgation et remplacer des données manquantes, et donne une évaluation de leurs propriétés fréquentistes par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

Références (46)

Références (46) (25 of 46 results)

  • Produits techniques : 11-522-X201700014758
    Description :

    "Plusieurs secteurs de compétence au Canada, y compris l’Ontario, utilisent dans leurs modèles de financement des données sur les soins de santé axées sur les patients. Ces initiatives peuvent influencer la qualité de ces données, tant de façon positive que négative, les personnes ayant tendance à accorder davantage d’attention aux données et à leur qualité lorsqu’elles servent à prendre des décisions financières. La formule de financement de l’Ontario utilise des données de plusieurs bases de données nationales hébergées par l’Institut canadien d’information sur la santé (ICIS). Ces bases de données fournissent des renseignements sur les activités et le statut clinique des patients pour un continuum de soins. Comme les modèles de financement peuvent influencer le comportement du codage, l’ICIS collabore avec le Ministère ontarien de la santé et des soins de longue durée, afin d’évaluer et de contrôler la qualité de ces données. L’ICIS utilise un logiciel de forage des données et des techniques de modélisation (qui sont souvent associées aux « mégadonnées »), afin de déceler les anomalies dans les données pour plusieurs facteurs. Les modèles déterminent les tendances de codage clinique « typiques » pour des groupes clés de patients (p. ex. les patients vus dans des unités de soins spéciaux ou renvoyés chez eux pour des soins à domicile), afin que des valeurs aberrantes puissent être déterminées, lorsque les patients ne s’inscrivent pas dans la tendance attendue. Une composante clé de la modélisation est la segmentation des données selon les caractéristiques du patient, du fournisseur et de l’hôpital, afin de tenir compte des différences principales dans la prestation des soins de santé et les populations de patients dans la province. L’analyse de l’ICIS a permis d’identifier plusieurs hôpitaux dont les pratiques de codage semblent changer ou être significativement différentes par rapport à celles de leur groupe de pairs. Des examens plus poussés sont requis pour comprendre pourquoi ces différences existent et pour élaborer des stratégies appropriées pour atténuer les variations. "

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014744
    Description :

    La présentation débutera avec un résumé de la recherche réalisée sur la qualité et l’utilité des paradonnées recueillies dans le cadre de la National Survey of Family Growth (NSFG) aux États Unis. La NSFG est une grande enquête nationale sur la fécondité aux États Unis qui est, pour les décideurs, une source importante de données sur l’activité sexuelle, le comportement sexuel et la santé génésique. Depuis de nombreuses années, la NSFG a permis de recueillir diverses formes de paradonnées, y compris les données issues de frappes au clavier (p. ex., Couper et Kreuter 2013), les renseignements du registre des appels, les renseignements détaillés sur les décisions concernant les cas, et les observations des intervieweurs associées aux principales mesures de la NSFG (p. ex., West 2013). Ensuite, certains défis que pose l’utilisation de ces données seront discutés, ainsi que des preuves de leur utilité pour la correction de la non réponse, l’évaluation des intervieweurs et/ou l’utilisation de plans de collecte adaptatifs. Troisièmement, des travaux de recherche seront présentés portant sur l’utilisation des paradonnées recueillies dans le cadre de deux enquêtes par panel, à savoir la Medical Expenditure Panel Survey (MEPS) réalisée aux États Unis et la Panel Labour Market and Social Security (PASS) réalisée en Allemagne. Dans les deux enquêtes, l’information émanant des prises de contact lors de vagues antérieures a été utilisée expérimentalement en vue d’améliorer les taux de prise de contact et de réponse lors des vagues subséquentes. On présentera aussi des travaux de recherche portant sur la PASS dans le cadre desquels des données d’observation des intervieweurs concernant d’importantes variables de résultats ont été recueillies en vue de prendre des décisions quant à la correction de la non réponse ou l’utilisation d’un plan de collecte adaptatif. Cette présentation ne couvrira pas seulement des résultats de la recherche, mais aussi des défis pratiques liés à la mise en œuvre de la collecte et à l’utilisation des deux ensembles de paradonnées.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014739
    Description :

    Les ensembles de données de la statistique de l’état civil, comme la Base canadienne de données sur la mortalité, n’ont pas d’identificateurs pour certaines populations d’intérêt, comme les Premières Nations, les Métis et les Inuits. Le couplage d’enregistrements entre les données de la statistique de l’état civil et les ensembles de données d’enquête ou autres ensembles de données administratives peuvent permettre de contourner cette limite. Le présent document décrit un couplage de la Base canadienne de données sur la mortalité et du Recensement de la population de 2006, ainsi que l’analyse prévue à partir des données couplées.

    Date de diffusion : 2016-03-24

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Produits techniques : 11-522-X201300014282
    Description :

    Le Panel des établissements de l’IAB est l’enquête auprès des établissements la plus complète qui soit menée en Allemagne, 16 000 entreprises y participant chaque année. Des interviews sur place en utilisant papier et crayon (IPC) sont réalisées depuis 1993. Un projet courant a pour objet d’examiner les effets possibles du passage de l’enquête à la méthode d’interview sur place assistée par ordinateur (IPAO) combinée à une version en ligne du questionnaire (IWAO). En guise de première étape, des questions sur l’accès à Internet, le désir de remplir le questionnaire en ligne et les raisons du refus ont été incluses dans la vague de 2012 de l’enquête. Les premiers résultats révèlent un refus généralisé de participer à une enquête en ligne. Un examen plus approfondi montre que les petits établissements, les participants de longue date à l’enquête et les répondants d’un certain âge sont réticents à l’idée d’utiliser Internet.

    Date de diffusion : 2014-10-31

  • Produits techniques : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Produits techniques : 11-522-X200800010952
    Description :

    Dans une enquête où les résultats ont été estimés par des moyennes simples, nous comparons les incidences qu'ont sur les résultats un suivi des cas de non-réponse et une pondération fondée sur les derniers dix pour cent de répondants. Les données utilisées proviennent de l'Enquête sur les conditions de vie des immigrants en Norvège qui a été réalisée en 2006.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010941
    Description :

    Avant 2004, la conception et l'élaboration des fonctions de collecte à Statistics New Zealand relevaient d'une équipe centralisée de méthodologistes spécialistes de la collecte de données. En 2004, on s'est demandé, lors d'un examen organisationnel, si ces fonctions étaient conçues et élaborées de la façon la plus efficace possible. Un des principaux éléments à prendre en considération était le coût croissant des enquêtes dans le processus de transition des questionnaires sur support papier à la collecte de données par voie électronique. L'examen s'est traduit par la décentralisation de certaines fonctions de collecte. Toutefois, une petite équipe centralisée de méthodologistes responsables de la collecte de données a été maintenue pour travailler avec différents secteurs spécialisés de Statistics New Zealand.

    La communication examine la stratégie retenue par la petite équipe centralisée de méthodologistes responsables de la collecte de données pour fournir des services de soutien aux services spécialisés. Cette stratégie comprend trois grands volets. L'élaboration de normes relatives aux pratiques exemplaires et l'établissement d'un dépôt central de normes constituent le premier volet. La prestation de services de formation et la mise sur pied de forums de partage des connaissances représentent le deuxième volet de la stratégie. Le troisième volet prend la forme de la prestation d'avis et de la réalisation d'examens indépendants à l'intention des secteurs spécialisés chargés de concevoir et d'élaborer des instruments de collecte.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010953
    Description :

    Alors que les spécialistes de la recherche sur les enquêtes s'efforcent de maintenir les taux de réponse à leur niveau habituellement élevé, les répondants réticents font croître les coûts de collecte des données. Cette réticence à répondre peut être liée au temps qu'il faut pour achever l'interview dans les enquêtes omnibus à grande échelle, telles que la National Survey of Recent College Graduates (NSRCG). Reconnaissant que le fardeau de réponse ou la longueur du questionnaire peut contribuer à la baisse des taux de réponse, en 2003, après plusieurs mois de collecte des données conformément au protocole de collecte standard, l'équipe de la NSRCG a offert des incitations monétaires à ses répondants environ deux mois avant la fin de la période de collecte des données. Parallèlement à l'offre d'incitation, elle a également donné aux non-répondants persistants l'occasion de répondre à un questionnaire considérablement abrégé ne comportant que quelques questions essentielles. Les répondants tardifs qui ont achevé l'interview en raison de l'incitation monétaire et du questionnaire ne contenant que les questions essentielles peuvent fournir certains éclaircissements en ce qui concerne le biais de non-réponse et la probabilité qu'ils soient demeurés des non-répondants à l'enquête si les efforts susmentionnés de conversion des refus n'avaient pas été faits.

    Dans le présent article, nous entendons par « répondants réticents » ceux qui n'ont répondu à l'enquête qu'après le déploiement d'efforts allant au-delà de ceux planifiés au départ dans le protocole standard de collecte des données. Plus précisément, les répondants réticents à la NSRCG de 2003 sont ceux qui ont répondu au questionnaire ordinaire ou abrégé après l'offre d'une incitation. Notre hypothèse était que le comportement des répondants réticents serait plus semblable à celui des non-répondants qu'à celui des répondants aux enquêtes. Le présent article décrit une étude des répondants réticents et de la mesure dans laquelle ils diffèrent des répondants ordinaires. Nous comparons différents groupes de réponse en ce qui concerne les estimations pour plusieurs variables clés de l'enquête. Cette comparaison nous permettra de mieux comprendre le biais dû à la non-réponse à la NSRCG et les caractéristiques des non-répondants proprement dits, ce qui servira de fondement à la modification du système de pondération ou aux procédures d'estimation de la NSRCG dans l'avenir.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-536-X200900110813
    Description :

    Le National Agricultural Statistics Service (NASS) utilise de plus en plus l'estimateur jackknife avec suppression d'un groupe pour estimer les variances. Dans le cas des enquêtes fondées sur cette technique, on attribue 16 poids à chaque élément échantillonné : le poids d'échantillonnage réel de l'élément après l'intégration de tous les ajustements de non-réponse et de calage, et 15 poids de rééchantillonnage jackknife. Le NASS recommande de construire un intervalle de confiance pour les statistiques univariées en supposant que l'estimateur jackknife avec suppression d'un groupe possède 14 degrés de liberté. Le document décrit les méthodes qui visent à modifier l'estimateur jackknife avec suppression d'un groupe en vue de réduire l'éventuel biais de l'échantillon fini. Il propose également une méthode qui sert à mesurer les degrés réels de liberté lorsque les 14 poids recommandés par le NASS pourraient s'avérer trop généreux.

    Date de diffusion : 2009-08-11

  • Produits techniques : 11-522-X200600110370
    Description :

    De nombreux pays mènent des enquêtes portant spécifiquement sur la santé de leur population. Puisque la santé tient une place de premier plan dans la plupart des aspects de la vie, des données sur la santé sont également recueillies dans des enquêtes auprès de la population qui traitent d'autres sujets. Les enquêtes sur la santé de la population comprennent généralement la santé physique et mentale, la santé dentaire, les incapacités, la toxicomanie, les facteurs de risque pour la santé, la nutrition, la promotion de la santé, l'utilisation et la qualité des soins de santé, la protection en matière de santé et les coûts. Certaines enquêtes portent sur des problèmes de santé bien précis, alors que d'autres visent à évaluer l'état général de santé. La santé est souvent une composante importante des études longitudinales, notamment dans les cohortes de naissance et les cohortes vieillissantes. Les renseignements sur la santé peuvent être recueillis par l'entremise des déclarations faites par les répondants (sur eux-mêmes et parfois sur d'autres), d'examens médicaux ou de mesures biologiques. L'exactitude des renseignements sur la santé déclarés par les répondants soulève des préoccupations réelles. La logistique, le coût et la collaboration des répondants sont des considérations de taille lorsque les renseignements sont recueillis par des examens médicaux. Enfin, les questions d'éthique et de protection de la vie privée sont souvent importantes, surtout lorsque de l'ADN et des biomarqueurs sont en cause. La comparabilité internationale des mesures de la santé gagne en importance. Le présent article analyse la méthodologie de diverses enquêtes sur la santé et examine les défis que pose la collecte de données exactes dans ce domaine.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110401
    Description :

    L'Australian Bureau of Statistics (ABS) entamera la création d'un ensemble de données statistiques longitudinales de recensement (EDSLR) en sélectionnant un échantillon de 5 % de personnes provenant de la population du Recensement de 2006 en vue de le coupler de manière probabiliste aux données des futurs recensements. L'un des objectifs à long terme est de profiter de la force des riches données démographiques longitudinales fournies par l'EDSLR pour offrir des éclaircissements sur diverses questions qui ne peuvent être résolues à l'aide de données transversales. L'EDSLR pourrait être amélioré par couplage probabiliste avec les données sur les naissances, les décès et l'immigration, ainsi qu'avec celles des registres des maladies. Le présent article décrit brièvement les progrès récents dans le domaine du couplage des données à l'ABS, expose les grandes lignes, la méthodologie de couplage des données et les mesures de la qualité qui ont été envisagées et résume les résultats provisoires à l'aide des données du test du recensement.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110425
    Description :

    Supposons que les données d'une enquête avec plan de sondage à plusieurs degrés doivent être recueillies pour deux périodes de référence. Le présent article décrit les mérites relatifs de la méthode consistant à garder les mêmes grappes dans l'échantillon comparativement à l'échantillonnage de nouvelles grappes sous divers scénarios statistiques (corrélation entre les grappes et au cours du temps) et logistiques (coût de l'enquête). L'effet du plan dans le cas de la réutilisation au cours du temps des mêmes grappes tirées de l'échantillon principal est de la forme "1 - Ap(pi)/n", où " p " est la corrélation intertemporelle des totaux de grappe, "n" est le nombre de grappes, "pi" est la proportion de grappes du cycle précédent qui sont retenues et "A>0" est une constante fixe. Pourvu que les gains d'efficacité paraissent peu importants, la valeur des plans comportant la réutilisation des grappes tient à des considérations logistiques (coût de l'enquête). Nous présentons une démonstration empirique au moyen de données provenant de la Demography and Health Survey (DHS) réalisée au Bangladesh en 1996 et en 2000.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110447
    Description :

    La classification et l'identification des emplacements où se trouvent les personnes qui déclarent être en plus ou en moins bonne santé ou posséder plus ou moins de capital social dans une région particulière, comme une région sociosanitaire, contribue considérablement à comprendre les associations entre lieu et santé. L'objectif de l'étude proposée est de classifier et de cartographier divers secteurs de la région sociosanitaire de la Zone 6 (figure 1) de la Nouvelle Écosse (municipalité régionale de Halifax et régions de la vallée de l'Annapolis) en fonction de l'état de santé (dimension 1) et du capital social (dimension 2). Nous avons procédé au résumé analytique des réponses autodéclarées aux questions sur l'état de santé, l'état mental et le capital social figurant dans les fichiers maîtres de l'Enquête sur la santé dans les collectivités canadiennes (cycles 1.1, 1.2 et 2.1), de l'Enquête nationale sur la santé de la population (cycle 5) et de l'Enquête sociale générale (cycles 13, 14, 17 et 18). Les réponses ont été géocodées en utilisant le Fichier de conversion des codes postaux (FCCP+) de Statistique Canada et importées dans un système d'information géographique (SIG) afin que le code postal associé à la réponse soit assigné à une latitude et à une longitude dans la région sociosanitaire de la Zone 6 de la Nouvelle Écosse. Nous avons utilisé des estimateurs à noyau de la densité et des interpolateurs spatiaux supplémentaires pour élaborer des surfaces statistiquement lissées de la distribution des valeurs des réponses pour chaque question. Le lissage rend impossible la détermination de l'emplacement d'un répondant particulier et la divulgation des renseignements confidentiels contenus dans la base de sondage de Statistique Canada. L'utilisation de réponses à des questions semblables recueillies dans le cadre de plusieurs enquêtes accroît la probabilité de déceler une hétérogénéité entre les réponses obtenues dans la région sociosanitaire et rend la classification cartographique lissée plus exacte.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110432
    Description :

    L'utilisation de variables discrètes ayant une distribution statistique connue pour le masquage des données de variables discrètes est à l'étude depuis un certain temps. Le présent article fait état de quelques-uns de nos résultats de recherche sur le sujet. Les conséquences du prélèvement, dans des populations finies, d'échantillons avec et sans remise suscitent un intérêt tout particulier. Les estimations des moments de premier ordre et de second ordre qui permettent d'atténuer ou de corriger la variation supplémentaire causée par le masquage d'un type connu sont établies. L'incidence du masquage des données originales sur la structure de corrélation de variables discrètes faisant l'objet de mesures concomitantes est examinée, et la nécessité d'un examen plus poussé des résultats à des fins d'analyse des données multivariées est discutée.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019475
    Description :

    Afin de déterminer et de mesurer l'impact de l'informativité, on comparera les variances des paramètres estimés, celles fondées sur le plan à celles fondées sur le modèle, de même que les paramètres estimés eux-mêmes, dans un modèle logistique sous l'hypothèse que le modèle formulé est vrai. Une approche pour évaluer l'impact de l'informativité est présentée. Afin d'étudier la complexité additionnelle de l'impact de l'informativité sur la puissance, nous proposons une nouvelle approximation pour une combinaison linéaire de distributions chi-deux décentrées, utilisant les effets de plan généralisés. Une étude par simulation d'envergure, basée sur la génération d'une population sous un modèle postulé, utilisant des paramètres estimés dérivés de l'ENSP, nous permet de détecter la présence et de mesurer l'informativité, et de comparer la robustesse des approches retenues.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019439
    Description :

    Le processus de collecte des données est devenu de plus en plus complexe en raison de plusieurs facteurs, dont le vieillissement de la population agricole, le nombre décroissant d'agriculteurs, la taille croissante des exploitations agricoles, la crise financière causée par l'ESB (maladie de la vache folle) et la grippe aviaire, ainsi que les conditions climatiques extrêmes causant de la sécheresse dans certaines régions et des inondations dans d'autres. Il semble aussi que s'accroissent les préoccupations concernant le respect de la vie privée et la confidentialité. La présente communication montre que l'agriculture est une industrie en transition et décrit les répercussions qu'ont les difficultés auxquelles fait face le secteur agricole sur la collecte de données, de même que nos réactions et mesures subséquentes pour résoudre ces enjeux.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20040018752
    Description :

    Ce document évoque un certain nombre d'applications possibles d'un échantillonnage permanent de ménages prêts à répondre dans le cas des enquêtes menées auprès de groupes démographiques difficiles à joindre.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018751
    Description :

    Ce document examine comment, par l'échantillonnage adapté, il est possible d'étendre les enquêtes nationales sur la santé de manière à pouvoir suivre et observer efficacement de nouvelles menaces pour la santé et repérer les gens exposés.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018734
    Description :

    L'Enquête sur la diversité ethnique apporte des défis méthodologiques comme le choix du plan de sondage, l'élaboration du questionnaire, la collecte de données, la pondération et l'estimation de la variance.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018748
    Description :

    La taille des échantillons d'enquête est souvent trop petite pour permettre une analyse adéquate des Autochtones. Ce document traite les problèmes et les efforts qui sont actuellement déployés par le Centre canadien de la statistique juridique à cet égard.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20040018745
    Description :

    La mise à l'essai de questionnaires destinés aux populations spécialisées (Autochtones, homosexuels, bisexuels, enfants, victimes d'agression) pose des défis : identification des répondants, méthodes d'essai, choix des lieux, climat de confiance.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20030017692
    Description :

    Ce document porte sur les serveurs d'applications de régression, lesquels sont des systèmes de diffusion des données qui ne fournissent que certains résultats des analyses par régression en réponse aux demandes de l'utilisateur. On y présente aussi de façon détaillée les travaux sur le cas spécial où les données contiennent une variable confidentielle pour laquelle les résultats des régressions doivent être protégés.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017521
    Description :

    Dans ce document, on examine la nécessité de mettre en place des domaines comme les enquêtes internationales, les enquêtes par panel, l'estimation pour petites régions, les études par observation, les analyses secondaires et les modes de collecte des données pour favoriser la coopération des membres du public aux enquêtes et pour faire chuter les taux de non réponse.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017596
    Description :

    Dans cet article, on discute des problèmes de mesure qui ont touché l'analyse démographique (AD), un programme de mesure de couverture utilisé pour le recensement de la population de 2000.

    Date de diffusion : 2005-01-26

Date de modification :