Statistiques par sujet – Techniques statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (113)

Tout (113) (25 of 113 results)

  • Produits techniques : 84-538-X
    Description :

    Ce document présente la méthodologie sous-jacente à la production des tables de mortalité pour le Canada, les provinces et les territoires et ce, à partir de la période de référence 1980-1982.

    Date de diffusion : 2017-11-16

  • Revues et périodiques : 11-633-X
    Description :

    Les documents de cette série traitent des méthodes utilisées pour produire des données qui seront employées pour effectuer des études analytiques à Statistique Canada sur l’économie, la santé et la société. Ils ont pour but de renseigner les lecteurs sur les méthodes statistiques, les normes et les définitions utilisées pour élaborer des bases de données à des fins de recherche. Tous les documents de la série ont fait l’objet d’un examen par les pairs et d’une révision institutionnelle, afin de veiller à ce qu’ils soient conformes au mandat de Statistique Canada et qu’ils respectent les normes généralement reconnues régissant les bonnes pratiques professionnelles.

    Date de diffusion : 2017-11-09

  • Articles et rapports : 11-633-X2017009
    Description :

    Le présent document décrit les procédures d’emploi des sources de données administratives couplées pour estimer les taux d’utilisation des congés parentaux payés au Canada et les problèmes découlant de cet emploi.

    Date de diffusion : 2017-08-29

  • Revues et périodiques : 12-605-X
    Description :

    Le Modèle du processus d'un projet de couplage d'enregistrements (MPPCE) a été développé par Statistique Canada pour identifier les processus et les activités mis en œuvres dans des projets de couplage d'enregistrements. Le MPPCE s'applique aux projets menés aux niveaux tant individuel que de l'entreprise en utilisant diverses sources de données pour créer des nouvelles sources de données.

    Date de diffusion : 2017-06-05

  • Articles et rapports : 11-633-X2017006
    Description :

    Ce document décrit une méthode d’imputation des codes postaux manquants dans une base de données longitudinale. La base de données Cohorte santé et environnement du Recensement du Canada (CSERCan) de 1991, qui contient des renseignements sur les répondants au questionnaire détaillé du Recensement de 1991, couplée avec les fichiers des déclarations de revenus T1 pour la période allant de 1984 à 2011, est utilisée pour illustrer et valider la méthode. La cohorte contient jusqu’à 28 champs consécutifs de codes postaux de résidences, mais en raison des vides fréquents dans l’historique des codes postaux, les codes postaux manquants doivent être imputés. Pour valider la méthode d’imputation, deux expériences ont été mises au point dans lesquelles 5 % et 10 % de tous les codes postaux issus d’un sous-ensemble comportant des historiques complets ont été effacés de façon aléatoire et imputés.

    Date de diffusion : 2017-03-13

  • Articles et rapports : 11-633-X2017005
    Description :

    Les taux d’hospitalisation font partie des statistiques couramment employées quand il est question de l’utilisation des services de soins de santé. La variété des méthodes de calcul des intervalles de confiance pour ces taux et d’autres taux liés à la santé porte à croire qu’il serait nécessaire de classifier, de comparer et d’évaluer ces méthodes. Zeno est un outil conçu pour calculer les intervalles de confiance des taux à partir de plusieurs formules disponibles dans la littérature. Le présent rapport présente le contenu de la page principale de l’outil Zeno et indique les formules à utiliser en fonction des hypothèses des utilisateurs et de la portée de l’analyse.

    Date de diffusion : 2017-01-19

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 11-633-X2016003
    Description :

    De grandes cohortes de mortalité nationales sont utilisées pour estimer les taux de mortalité en fonction de différents groupes socioéconomiques et démographiques ainsi que pour effectuer des recherches dans le domaine de la santé environnementale. En 2008, Statistique Canada a créé une cohorte en couplant les données du Recensement de 1991 avec des données sur la mortalité. La présente étude décrit le couplage des données des répondants au questionnaire détaillé du Recensement de 2001 âgés de 19 ans et plus avec les données du Fichier maître des particuliers T1 et la Base de données combinées sur la mortalité. Ce couplage permet de faire le suivi de tous les décès survenus sur une période de 10,6 ans (soit pour le moment jusqu’à la fin de 2011).

    Date de diffusion : 2016-10-26

  • Le Quotidien
    Description : Communiqué publié dans Le Quotidien – Bulletin de diffusion officielle de Statistique Canada
    Date de diffusion : 2016-10-26

  • Articles et rapports : 11-633-X2016002
    Description :

    Les immigrants forment une proportion sans cesse croissante de la population canadienne; elle s’établit actuellement à plus de 20 %, soit le pourcentage le plus élevé parmi les pays du G8 (Statistique Canada, 2013a). On s’attend à ce que ce chiffre atteigne entre 25 % et 28 % d’ici 2031, quand au moins une personne sur quatre vivant au Canada sera née à l’étranger (Statistique Canada, 2010).

    Le présent rapport résume le couplage d’enregistrements des fichiers d’établissement des immigrants de l’ensemble des provinces et des territoires (nommé FEI aux fins de l’étude), sauf le Québec, aux données hospitalières de la Base de données sur les congés des patients (BDCP), une base de données nationale qui renferme de l’information sur les patients hospitalisés et les chirurgies d’un jour. Une méthode d’appariement exact déterministe a servi à apparier les enregistrements du FEI de 1980 à 2006 et les données de la BDCP (2006-2007, 2007-2008 et 2008-2009) aux données du Recensement de 2006, qui a servi de fichier de « rapprochement ». Il s’agissait d’un couplage secondaire en ce sens qu’il s’appuyait sur des clés de couplage créées lors de deux projets précédents (couplages principaux) où les données du FEI et de la BDCP ont été couplées séparément aux données du Recensement de 2006. Les données couplées du FEI et de la BDCP ont été validées au moyen d’un échantillon représentatif d’enregistrements du Recensement de 2006 contenant des données sur les immigrants ayant précédemment fait l’objet d’un couplage aux données de la BDCP.

    Date de diffusion : 2016-08-17

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600414489
    Description :

    À partir de données d’accélérométrie pour les enfants et les jeunes de 3 à 17 ans tirées de l’Enquête canadienne sur les mesures de la santé, la probabilité d’observation des lignes directrices en matière d’activité physique est estimée au moyen d’une loi conditionnelle, étant donné le nombre de jours d’activité et d’inactivité distribué selon une loi bêta-binomiale.

    Date de diffusion : 2016-04-20

  • Produits techniques : 11-522-X201700014729
    Description :

    Les ensembles de données administratives servent de plus en plus couramment de sources de données en statistique officielle dans le cadre d’efforts visant à produire plus efficacement un plus grand nombre de produits. De nombreux produits résultent du couplage de deux ensembles de données ou plus, souvent réalisé en plusieurs phases en appliquant différentes méthodes et règles. Dans ces situations, nous aimerions pouvoir évaluer la qualité du couplage, ce qui comprend une certaine réévaluation des liens ainsi que des non-liens. Dans le présent article, nous discutons de méthodes d’échantillonnage en vue d’obtenir des estimations du nombre de faux négatifs et de faux positifs, en exerçant un contrôle raisonnable sur l’exactitude des estimations ainsi que sur les coûts. Des approches de stratification des liens (non-liens) pour l’échantillonnage sont évaluées en utilisant des données provenant du recensement de la population de l’Angleterre et du Pays de Galles de 2011.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014728
    Description :

    "Le couplage d’enregistrements a pour objet de jumeler deux ou plusieurs sources de données. Le produit du couplage d’enregistrements est un fichier qui comprend un enregistrement par individu dans lequel est contenue toute l’information au sujet de cet individu provenant de plusieurs fichiers. Le problème de couplage est difficile lorsqu’on ne dispose pas d’une clé d’identification unique, qu’il existe des erreurs dans certaines variables, que certaines données manquent, et que les fichiers sont grands. Le couplage probabiliste d’enregistrements consiste à calculer une probabilité que les enregistrements provenant de fichiers différents appartiennent à un même individu. Il arrive que de faibles probabilités d’appariement soient attribuées à de vrais appariements et que des probabilités élevées soient attribuées à des non appariements. Les erreurs de désignation des appariements peuvent causer un biais dans les analyses portant sur la base de données composite. Les registres du cancer du programme SEER contiennent de l’information sur les cas de cancer du sein dans les régions qu’ils desservent. Un test fondé sur l’analyse de l’oncotype DX, effectuée par Genomic Health, Inc. (GHI), est souvent utilisé pour certains types de cancer du sein. Un couplage d’enregistrements en utilisant des renseignements personnels permettant l’identification a été effectué pour associer les résultats de l’analyse de l’oncotype DX aux données des registres du cancer du programme SEER. Le logiciel Link Plus a été utilisé pour générer une cote décrivant la similarité des enregistrements et repérer ainsi, pour les individus inscrits dans les registres du cancer du programme SEER, l’appariement paraissant le meilleur avec la base de données GHI. Un examen manuel a été effectué pour vérifier des échantillons d’appariements probables, d’appariements possibles et d’appariements improbables. Des modèles sont proposés pour modéliser conjointement le processus de couplage d’enregistrements et l’analyse statistique subséquente dans la présente application et dans d’autres. "

    Date de diffusion : 2016-03-24

  • Articles et rapports : 13-604-M2015077
    Description :

    Le nouvel ensemble de données accroît l’information disponible pour comparer les résultats des provinces et des territoires selon toute une gamme de mesures. Il combine les séries de données chronologiques provinciales souvent fragmentées qui, comme telles, sont d’une utilité limitée pour examiner l’évolution des économies des provinces sur de longues périodes. Des méthodes statistiques plus poussées et des modèles de plus grande ampleur et profondeur sont difficiles à appliquer aux données canadiennes fragmentées existantes. La nature longitudinale du nouvel ensemble de données provinciales pallie cet inconvénient. Le présent document explique la création de la dernière version de l’ensemble de données. Cette version contient l’information la plus à jour disponible.

    Date de diffusion : 2015-02-12

  • Articles et rapports : 12-001-X201400214110
    Description :

    Quand nous élaborons le plan de sondage d’une enquête, nous essayons de produire un bon plan compte tenu du budget disponible. L’information sur les coûts peut être utilisée pour établir des plans de sondage qui minimisent la variance d’échantillonnage d’un estimateur du total pour un coût fixe. Les progrès dans le domaine des systèmes de gestion d’enquête signifient qu’aujourd’hui, il est parfois possible d’estimer le coût d’inclusion de chaque unité dans l’échantillon. Le présent article décrit l’élaboration d’approches relativement simples pour déterminer si les avantages pouvant découler de l’utilisation de cette information sur les coûts au niveau de l’unité sont susceptibles d’avoir une utilité pratique. Nous montrons que le facteur important est le ratio du coefficient de variation du coût sur le coefficient de variation de l’erreur relative des coefficients de coût estimés.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014270
    Description :

    Dans le domaine du couplage d’enregistrements, il existe un large éventail de comparateurs de chaînes de caractères. Les difficultés lors des comparaisons surviennent lorsque des facteurs influent sur la composition des chaînes (ex. : emploi de surnoms pour les prénoms de personnes, erreurs typographiques, etc.). Il faut alors faire appel à des comparateurs plus sophistiqués. De tels outils permettent de réduire le nombre de liens potentiellement manqués. Malheureusement, une partie des gains peuvent s’avérer de faux liens. Afin d’améliorer les appariements, trois comparateurs de chaînes sophistiqués ont été développés et sont présentés dans cet article. Ce sont le comparateur Lachance, ainsi que ses dérivés, les comparateurs multi-mots et multi-types. Cette gamme d’outils est présentement disponible dans un prototype de couplage d’enregistrements déterministe, MixMatch. Ce logiciel permet de faire appel à des connaissances a priori afin de réduire le volume de faux liens générés lors des appariements. Un indicateur de force de liens est également proposé.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014268
    Description :

    En surveillance des maladies chroniques, la cueillette d’information est essentielle dans le but de mesurer l’ampleur des maladies, évaluer l’utilisation des services, identifier les groupes à risque et suivre l’évolution des maladies et des facteurs de risque dans le temps en vue de planifier et d’appliquer des programmes de prévention en santé publique. C’est dans ce contexte qu’a été créé le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ). Le SISMACQ est une base de données issue du jumelage de fichiers administratifs, couvrant les années 1996 à 2013, représentant une alternative intéressante aux données d’enquêtes puisqu’elle porte sur la totalité de la population, n’est pas affectée par le biais de rappel et permet de suivre la population dans le temps et dans l’espace. Cette présentation a pour objet de présenter la pertinence de l’utilisation des données administratives comme alternative aux données d’enquête ainsi que de les méthodes choisies pour la construction de la cohorte populationnelle à partir du jumelage des différentes sources de données brutes ainsi que de décrire les traitements apportées dans le but de minimiser les biais. Nous discuterons également des avantages et des limites liés à l’analyse des fichiers administratifs.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 11F0027M2014092
    Description :

    À partir des données de la base de données provinciale KLEMS, le présent document vise à déterminer si le secteur des entreprises des économies provinciales a connu un changement structurel depuis 2000. À cette fin, on applique une mesure du changement dans les industries (l’indice de dissimilitude), à partir de mesures de la production (produit intérieur brut réel) et des heures travaillées. Le présent document comprend aussi une méthode statistique pour vérifier si les changements dans la composition industrielle de la production et des heures travaillées au cours de la période sont attribuables à des variations aléatoires d’une année à l’autre dans la structure industrielle ou à un changement systématique à long terme dans la structure des éonomies provinciales. Le document est conçu pour éclairer les discussions et les analyses concernant les variations récentes dans la composition industrielle à l'échelon national, et plus particulièrement la baisse de la production dans la fabrication et la hausse correspondante dans les industries à forte intensité de ressources, ainsi que les répercussions de ces variations sur les économies provinciales.

    Date de diffusion : 2014-05-07

  • Articles et rapports : 12-001-X201300211870
    Description :

    Les instituts nationaux de statistique intègrent fréquemment des expériences dans les enquêtes par sondage courantes, par exemple pour déterminer si des modifications du processus d'enquête ont un effet sur les estimations des principaux paramètres de cette dernière, pour quantifier l'effet de diverses mises en oeuvre de l'enquête sur ces estimations, ou pour mieux comprendre les diverses sources d'erreur non due à l'échantillonnage. Le présent article propose une procédure d'analyse fondée sur le plan de sondage pour des plans factoriels complètement randomisés et des plans factoriels en blocs randomisés intégrés dans des échantillons probabilistes. Une statistique de Wald fondée sur le plan de sondage est élaborée pour vérifier si les paramètres de population, comme les moyennes, les totaux et les ratios de deux totaux de population, estimés sous les différentes combinaisons de traitements de l'expérience diffèrent de manière significative. Les méthodes sont illustrées au moyen d'une application réelle d'une expérience intégrée dans l'Enquête sur la population active des Pays-Bas.

    Date de diffusion : 2014-01-15

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (74)

Analyses (74) (25 of 74 results)

  • Revues et périodiques : 11-633-X
    Description :

    Les documents de cette série traitent des méthodes utilisées pour produire des données qui seront employées pour effectuer des études analytiques à Statistique Canada sur l’économie, la santé et la société. Ils ont pour but de renseigner les lecteurs sur les méthodes statistiques, les normes et les définitions utilisées pour élaborer des bases de données à des fins de recherche. Tous les documents de la série ont fait l’objet d’un examen par les pairs et d’une révision institutionnelle, afin de veiller à ce qu’ils soient conformes au mandat de Statistique Canada et qu’ils respectent les normes généralement reconnues régissant les bonnes pratiques professionnelles.

    Date de diffusion : 2017-11-09

  • Articles et rapports : 11-633-X2017009
    Description :

    Le présent document décrit les procédures d’emploi des sources de données administratives couplées pour estimer les taux d’utilisation des congés parentaux payés au Canada et les problèmes découlant de cet emploi.

    Date de diffusion : 2017-08-29

  • Revues et périodiques : 12-605-X
    Description :

    Le Modèle du processus d'un projet de couplage d'enregistrements (MPPCE) a été développé par Statistique Canada pour identifier les processus et les activités mis en œuvres dans des projets de couplage d'enregistrements. Le MPPCE s'applique aux projets menés aux niveaux tant individuel que de l'entreprise en utilisant diverses sources de données pour créer des nouvelles sources de données.

    Date de diffusion : 2017-06-05

  • Articles et rapports : 11-633-X2017006
    Description :

    Ce document décrit une méthode d’imputation des codes postaux manquants dans une base de données longitudinale. La base de données Cohorte santé et environnement du Recensement du Canada (CSERCan) de 1991, qui contient des renseignements sur les répondants au questionnaire détaillé du Recensement de 1991, couplée avec les fichiers des déclarations de revenus T1 pour la période allant de 1984 à 2011, est utilisée pour illustrer et valider la méthode. La cohorte contient jusqu’à 28 champs consécutifs de codes postaux de résidences, mais en raison des vides fréquents dans l’historique des codes postaux, les codes postaux manquants doivent être imputés. Pour valider la méthode d’imputation, deux expériences ont été mises au point dans lesquelles 5 % et 10 % de tous les codes postaux issus d’un sous-ensemble comportant des historiques complets ont été effacés de façon aléatoire et imputés.

    Date de diffusion : 2017-03-13

  • Articles et rapports : 11-633-X2017005
    Description :

    Les taux d’hospitalisation font partie des statistiques couramment employées quand il est question de l’utilisation des services de soins de santé. La variété des méthodes de calcul des intervalles de confiance pour ces taux et d’autres taux liés à la santé porte à croire qu’il serait nécessaire de classifier, de comparer et d’évaluer ces méthodes. Zeno est un outil conçu pour calculer les intervalles de confiance des taux à partir de plusieurs formules disponibles dans la littérature. Le présent rapport présente le contenu de la page principale de l’outil Zeno et indique les formules à utiliser en fonction des hypothèses des utilisateurs et de la portée de l’analyse.

    Date de diffusion : 2017-01-19

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 11-633-X2016003
    Description :

    De grandes cohortes de mortalité nationales sont utilisées pour estimer les taux de mortalité en fonction de différents groupes socioéconomiques et démographiques ainsi que pour effectuer des recherches dans le domaine de la santé environnementale. En 2008, Statistique Canada a créé une cohorte en couplant les données du Recensement de 1991 avec des données sur la mortalité. La présente étude décrit le couplage des données des répondants au questionnaire détaillé du Recensement de 2001 âgés de 19 ans et plus avec les données du Fichier maître des particuliers T1 et la Base de données combinées sur la mortalité. Ce couplage permet de faire le suivi de tous les décès survenus sur une période de 10,6 ans (soit pour le moment jusqu’à la fin de 2011).

    Date de diffusion : 2016-10-26

  • Le Quotidien
    Description : Communiqué publié dans Le Quotidien – Bulletin de diffusion officielle de Statistique Canada
    Date de diffusion : 2016-10-26

  • Articles et rapports : 11-633-X2016002
    Description :

    Les immigrants forment une proportion sans cesse croissante de la population canadienne; elle s’établit actuellement à plus de 20 %, soit le pourcentage le plus élevé parmi les pays du G8 (Statistique Canada, 2013a). On s’attend à ce que ce chiffre atteigne entre 25 % et 28 % d’ici 2031, quand au moins une personne sur quatre vivant au Canada sera née à l’étranger (Statistique Canada, 2010).

    Le présent rapport résume le couplage d’enregistrements des fichiers d’établissement des immigrants de l’ensemble des provinces et des territoires (nommé FEI aux fins de l’étude), sauf le Québec, aux données hospitalières de la Base de données sur les congés des patients (BDCP), une base de données nationale qui renferme de l’information sur les patients hospitalisés et les chirurgies d’un jour. Une méthode d’appariement exact déterministe a servi à apparier les enregistrements du FEI de 1980 à 2006 et les données de la BDCP (2006-2007, 2007-2008 et 2008-2009) aux données du Recensement de 2006, qui a servi de fichier de « rapprochement ». Il s’agissait d’un couplage secondaire en ce sens qu’il s’appuyait sur des clés de couplage créées lors de deux projets précédents (couplages principaux) où les données du FEI et de la BDCP ont été couplées séparément aux données du Recensement de 2006. Les données couplées du FEI et de la BDCP ont été validées au moyen d’un échantillon représentatif d’enregistrements du Recensement de 2006 contenant des données sur les immigrants ayant précédemment fait l’objet d’un couplage aux données de la BDCP.

    Date de diffusion : 2016-08-17

  • Articles et rapports : 12-001-X201600114540
    Description :

    Les auteurs comparent les estimateurs EBLUP et pseudo EBLUP pour l’estimation sur petits domaines en vertu d’un modèle de régression à erreur emboîtée, ainsi que trois autres estimateurs fondés sur un modèle au niveau du domaine à l’aide du modèle de Fay Herriot. Ils réalisent une étude par simulations fondée sur un plan de sondage pour comparer les estimateurs fondés sur un modèle pour des modèles au niveau de l’unité et au niveau du domaine sous un échantillonnage informatif et non informatif. Ils s’intéressent particulièrement aux taux de couverture des intervalles de confiance des estimateurs au niveau de l’unité et au niveau du domaine. Les auteurs comparent aussi les estimateurs sous un modèle dont la spécification est inexacte. Les résultats de la simulation montrent que les estimateurs au niveau de l’unité sont plus efficaces que les estimateurs au niveau du domaine. L’estimateur pseudo EBLUP donne les meilleurs résultats à la fois au niveau de l’unité et au niveau du domaine.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201600414489
    Description :

    À partir de données d’accélérométrie pour les enfants et les jeunes de 3 à 17 ans tirées de l’Enquête canadienne sur les mesures de la santé, la probabilité d’observation des lignes directrices en matière d’activité physique est estimée au moyen d’une loi conditionnelle, étant donné le nombre de jours d’activité et d’inactivité distribué selon une loi bêta-binomiale.

    Date de diffusion : 2016-04-20

  • Articles et rapports : 13-604-M2015077
    Description :

    Le nouvel ensemble de données accroît l’information disponible pour comparer les résultats des provinces et des territoires selon toute une gamme de mesures. Il combine les séries de données chronologiques provinciales souvent fragmentées qui, comme telles, sont d’une utilité limitée pour examiner l’évolution des économies des provinces sur de longues périodes. Des méthodes statistiques plus poussées et des modèles de plus grande ampleur et profondeur sont difficiles à appliquer aux données canadiennes fragmentées existantes. La nature longitudinale du nouvel ensemble de données provinciales pallie cet inconvénient. Le présent document explique la création de la dernière version de l’ensemble de données. Cette version contient l’information la plus à jour disponible.

    Date de diffusion : 2015-02-12

  • Articles et rapports : 12-001-X201400214110
    Description :

    Quand nous élaborons le plan de sondage d’une enquête, nous essayons de produire un bon plan compte tenu du budget disponible. L’information sur les coûts peut être utilisée pour établir des plans de sondage qui minimisent la variance d’échantillonnage d’un estimateur du total pour un coût fixe. Les progrès dans le domaine des systèmes de gestion d’enquête signifient qu’aujourd’hui, il est parfois possible d’estimer le coût d’inclusion de chaque unité dans l’échantillon. Le présent article décrit l’élaboration d’approches relativement simples pour déterminer si les avantages pouvant découler de l’utilisation de cette information sur les coûts au niveau de l’unité sont susceptibles d’avoir une utilité pratique. Nous montrons que le facteur important est le ratio du coefficient de variation du coût sur le coefficient de variation de l’erreur relative des coefficients de coût estimés.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 11F0027M2014092
    Description :

    À partir des données de la base de données provinciale KLEMS, le présent document vise à déterminer si le secteur des entreprises des économies provinciales a connu un changement structurel depuis 2000. À cette fin, on applique une mesure du changement dans les industries (l’indice de dissimilitude), à partir de mesures de la production (produit intérieur brut réel) et des heures travaillées. Le présent document comprend aussi une méthode statistique pour vérifier si les changements dans la composition industrielle de la production et des heures travaillées au cours de la période sont attribuables à des variations aléatoires d’une année à l’autre dans la structure industrielle ou à un changement systématique à long terme dans la structure des éonomies provinciales. Le document est conçu pour éclairer les discussions et les analyses concernant les variations récentes dans la composition industrielle à l'échelon national, et plus particulièrement la baisse de la production dans la fabrication et la hausse correspondante dans les industries à forte intensité de ressources, ainsi que les répercussions de ces variations sur les économies provinciales.

    Date de diffusion : 2014-05-07

  • Articles et rapports : 12-001-X201300211870
    Description :

    Les instituts nationaux de statistique intègrent fréquemment des expériences dans les enquêtes par sondage courantes, par exemple pour déterminer si des modifications du processus d'enquête ont un effet sur les estimations des principaux paramètres de cette dernière, pour quantifier l'effet de diverses mises en oeuvre de l'enquête sur ces estimations, ou pour mieux comprendre les diverses sources d'erreur non due à l'échantillonnage. Le présent article propose une procédure d'analyse fondée sur le plan de sondage pour des plans factoriels complètement randomisés et des plans factoriels en blocs randomisés intégrés dans des échantillons probabilistes. Une statistique de Wald fondée sur le plan de sondage est élaborée pour vérifier si les paramètres de population, comme les moyennes, les totaux et les ratios de deux totaux de population, estimés sous les différentes combinaisons de traitements de l'expérience diffèrent de manière significative. Les méthodes sont illustrées au moyen d'une application réelle d'une expérience intégrée dans l'Enquête sur la population active des Pays-Bas.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111823
    Description :

    Bien que l'utilisation de pondérations soit très répandue dans l'échantillonnage, leur justification ultime dans la perspective du plan de sondage pose souvent problème. Ici, nous argumentons en faveur d'une justification bayésienne séquentielle des pondérations qui ne dépend pas explicitement du plan de sondage. Cette approche s'appuie sur le type classique d'information présent dans les variables auxiliaires, mais ne suppose pas qu'un modèle relie les variables auxiliaires aux caractéristiques d'intérêt. La pondération résultante d'une unité de l'échantillon peut être interprétée de la manière habituelle comme étant le nombre d'unités de la population que cette unité représente.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 12-001-X201200111685
    Description :

    Les données d'enquêtes servent souvent à ajuster des modèles de régression linéaire. Les valeurs des covariables utilisées dans la modélisation n'étant toutefois pas contrôlées comme elles pourraient l'être dans une expérience, la colinéarité entre les covariables est un problème inévitable dans l'analyse des données d'enquêtes. Même si de nombreux livres et articles ont décrit le problème de la colinéarité et proposé des stratégies en vue de comprendre, d'évaluer et de traiter sa présence, la littérature sur les méthodes d'enquête n'a livré aucun outil diagnostique approprié pour évaluer son incidence sur l'estimation par la régression quand il est tenu compte de la complexité de l'enquête. Nous avons élaboré des facteurs d'inflation de la variance qui mesurent l'augmentation (« l'inflation ») de la variance des estimateurs des paramètres attribuable au fait que les variables explicatives ne sont pas orthogonales. Les facteurs d'inflation de la variance conviennent pour les estimateurs par la régression pondérée par les poids de sondage et tiennent compte des caractéristiques du plan de sondage complexe, par exemple, les pondérations, les grappes et les strates. Ces méthodes sont illustrées en utilisant un échantillon probabiliste provenant d'une enquête-ménage sur la santé et la nutrition.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100111444
    Description :

    L'appariement des données consiste à jumeler des enregistrements issus de deux fichiers ou plus que l'on pense appartenir à une même unité (par exemple une personne ou une entreprise). Il s'agit d'un moyen très courant de renforcer la dimension temporelle ou des aspects tels que la portée ou la profondeur des détails. Souvent, le processus d'appariement des données n'est pas exempt d'erreur et peut aboutir à la formation d'une paire d'enregistrements qui n'appartiennent pas à la même unité. Alors que le nombre d'applications d'appariement d'enregistrements croît exponentiellement, peu de travaux ont porté sur la qualité des analyses effectuées en se servant des fichiers de données ainsi appariées. Traiter naïvement ces fichiers comme s'ils ne contenaient pas d'erreurs mène, en général, à des estimations biaisées. Le présent article décrit l'élaboration d'un estimateur du maximum de vraisemblance pour les tableaux de contingence et la régression logistique en présence de données incorrectement appariées. Simple, cette méthode d'estimation est appliquée en utilisant l'algorithme EM bien connu. Dans le contexte qui nous occupe, l'appariement probabiliste des données est une méthode reconnue. Le présent article démontre l'efficacité des estimateurs proposés au moyen d'une étude empirique s'appuyant sur cet appariement probabiliste.

    Date de diffusion : 2011-06-29

Références (39)

Références (39) (25 of 39 results)

  • Produits techniques : 84-538-X
    Description :

    Ce document présente la méthodologie sous-jacente à la production des tables de mortalité pour le Canada, les provinces et les territoires et ce, à partir de la période de référence 1980-1982.

    Date de diffusion : 2017-11-16

  • Produits techniques : 11-522-X201700014729
    Description :

    Les ensembles de données administratives servent de plus en plus couramment de sources de données en statistique officielle dans le cadre d’efforts visant à produire plus efficacement un plus grand nombre de produits. De nombreux produits résultent du couplage de deux ensembles de données ou plus, souvent réalisé en plusieurs phases en appliquant différentes méthodes et règles. Dans ces situations, nous aimerions pouvoir évaluer la qualité du couplage, ce qui comprend une certaine réévaluation des liens ainsi que des non-liens. Dans le présent article, nous discutons de méthodes d’échantillonnage en vue d’obtenir des estimations du nombre de faux négatifs et de faux positifs, en exerçant un contrôle raisonnable sur l’exactitude des estimations ainsi que sur les coûts. Des approches de stratification des liens (non-liens) pour l’échantillonnage sont évaluées en utilisant des données provenant du recensement de la population de l’Angleterre et du Pays de Galles de 2011.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014728
    Description :

    "Le couplage d’enregistrements a pour objet de jumeler deux ou plusieurs sources de données. Le produit du couplage d’enregistrements est un fichier qui comprend un enregistrement par individu dans lequel est contenue toute l’information au sujet de cet individu provenant de plusieurs fichiers. Le problème de couplage est difficile lorsqu’on ne dispose pas d’une clé d’identification unique, qu’il existe des erreurs dans certaines variables, que certaines données manquent, et que les fichiers sont grands. Le couplage probabiliste d’enregistrements consiste à calculer une probabilité que les enregistrements provenant de fichiers différents appartiennent à un même individu. Il arrive que de faibles probabilités d’appariement soient attribuées à de vrais appariements et que des probabilités élevées soient attribuées à des non appariements. Les erreurs de désignation des appariements peuvent causer un biais dans les analyses portant sur la base de données composite. Les registres du cancer du programme SEER contiennent de l’information sur les cas de cancer du sein dans les régions qu’ils desservent. Un test fondé sur l’analyse de l’oncotype DX, effectuée par Genomic Health, Inc. (GHI), est souvent utilisé pour certains types de cancer du sein. Un couplage d’enregistrements en utilisant des renseignements personnels permettant l’identification a été effectué pour associer les résultats de l’analyse de l’oncotype DX aux données des registres du cancer du programme SEER. Le logiciel Link Plus a été utilisé pour générer une cote décrivant la similarité des enregistrements et repérer ainsi, pour les individus inscrits dans les registres du cancer du programme SEER, l’appariement paraissant le meilleur avec la base de données GHI. Un examen manuel a été effectué pour vérifier des échantillons d’appariements probables, d’appariements possibles et d’appariements improbables. Des modèles sont proposés pour modéliser conjointement le processus de couplage d’enregistrements et l’analyse statistique subséquente dans la présente application et dans d’autres. "

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014270
    Description :

    Dans le domaine du couplage d’enregistrements, il existe un large éventail de comparateurs de chaînes de caractères. Les difficultés lors des comparaisons surviennent lorsque des facteurs influent sur la composition des chaînes (ex. : emploi de surnoms pour les prénoms de personnes, erreurs typographiques, etc.). Il faut alors faire appel à des comparateurs plus sophistiqués. De tels outils permettent de réduire le nombre de liens potentiellement manqués. Malheureusement, une partie des gains peuvent s’avérer de faux liens. Afin d’améliorer les appariements, trois comparateurs de chaînes sophistiqués ont été développés et sont présentés dans cet article. Ce sont le comparateur Lachance, ainsi que ses dérivés, les comparateurs multi-mots et multi-types. Cette gamme d’outils est présentement disponible dans un prototype de couplage d’enregistrements déterministe, MixMatch. Ce logiciel permet de faire appel à des connaissances a priori afin de réduire le volume de faux liens générés lors des appariements. Un indicateur de force de liens est également proposé.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014268
    Description :

    En surveillance des maladies chroniques, la cueillette d’information est essentielle dans le but de mesurer l’ampleur des maladies, évaluer l’utilisation des services, identifier les groupes à risque et suivre l’évolution des maladies et des facteurs de risque dans le temps en vue de planifier et d’appliquer des programmes de prévention en santé publique. C’est dans ce contexte qu’a été créé le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ). Le SISMACQ est une base de données issue du jumelage de fichiers administratifs, couvrant les années 1996 à 2013, représentant une alternative intéressante aux données d’enquêtes puisqu’elle porte sur la totalité de la population, n’est pas affectée par le biais de rappel et permet de suivre la population dans le temps et dans l’espace. Cette présentation a pour objet de présenter la pertinence de l’utilisation des données administratives comme alternative aux données d’enquête ainsi que de les méthodes choisies pour la construction de la cohorte populationnelle à partir du jumelage des différentes sources de données brutes ainsi que de décrire les traitements apportées dans le but de minimiser les biais. Nous discuterons également des avantages et des limites liés à l’analyse des fichiers administratifs.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X2009000
    Description :

    Le Symposium 2009 était le 25e Symposium international sur les questions de méthodologie de Statistique Canada. Chaque année, le Symposium se penche sur un thème précis. En 2009, le thème était : « Les enquêtes longitudinales : de la conception à l'analyse ».

    Date de diffusion : 2012-10-03

  • Produits techniques : 11-522-X2010000
    Description :

    Depuis 1984, une série de conférences annuelles est parrainée par Statistique Canada. Le recueil de la conférence est disponible depuis 1987. Le Symposium 2010 est intitulé « Statistiques sociales : interaction entre recensements, enquêtes et données administratives »

    Date de diffusion : 2011-09-15

  • Produits techniques : 11-522-X2008000
    Description :

    Depuis 1984, une série de conférences annuelles a été parrainé par Statistique Canada. Le recueil de la conférence est disponible depuis 1987. Le Symposium 2008 a été le vingt-quatrième d'une série de colloques internationaux organisés par Statistique Canada sur des questions de méthodologie. Chaque année le symposium traite d'un thème particulier. Celui de 2008 était : « Collecte des données : défis, réalisations et nouvelles orientations ».

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010971
    Description :

    Discours principal

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011003
    Description :

    Le but de la présente étude est d'examiner la possibilité d'élaborer des facteurs de correction pour rajuster les mesures de l'indice de masse corporelle fondées sur des données autodéclarées afin d'obtenir des valeurs plus proches de celles calculées d'après des données mesurées. Les données proviennent de l'Enquête sur la santé dans les collectivités canadiennes de 2005 (ESCC) dans le cadre de laquelle on a demandé aux répondants d'indiquer leur taille et leur poids, lesquels ont ensuite été mesurés. Des analyses par régression ont été effectuées pour déterminer quelles caractéristiques sociodémographiques et relatives à la santé sont associées aux écarts entre les valeurs fondées sur des données autodéclarées et des données mesurées. L'échantillon a ensuite été divisé en deux groupes. Pour le premier, on a procédé à la régression de l'indice de masse corporelle (IMC) fondé sur des données autodéclarées et des prédicteurs des écarts sur l'IMC fondé sur des données mesurées. Des équations de correction ont été établies en utilisant toutes les variables explicatives ayant un effet significatif au seuil de signification de p<0,05. Puis, ces équations de correction ont été testées dans le deuxième groupe afin de calculer des estimations de la sensibilité, de la spécificité et de la prévalence de l'obésité. La relation entre l'IMC fondé sur des données mesurées, déclarées et corrigées, d'une part, et les problèmes de santé liés à l'obésité, d'autre part, a été examinée par régression logistique. Les estimations corrigées ont produit des mesures plus exactes de la prévalence de l'obésité, de l'IMC moyen et des niveaux de sensibilité. Les données autodéclarées exagéraient la relation entre l'IMC et les problèmes de santé, tandis que dans la plupart des cas, les estimations corrigées produisaient des rapports de cotes plus semblables à ceux obtenus pour l'IMC fondé sur des données mesurées.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011002
    Description :

    La présente étude s'appuie sur un échantillon représentatif de la population canadienne pour quantifier le biais dû à l'utilisation de données autodéclarées sur la taille, le poids et l'indice de masse corporelle (IMC) au lieu de mesures directes. Nous comparons les associations entre les catégories d'IMC et certains problèmes de santé afin de déterminer si les erreurs de classification résultant de l'utilisation de données autodéclarées modifient les associations entre l'obésité et les problèmes de santé. L'analyse est fondée sur 4 567 répondants à l'Enquête sur la santé dans les collectivités canadiennes (ESCC) de 2005 qui, durant une interview sur place, ont déclaré leur taille et leur poids, puis ont été mesurés et pesés par un intervieweur ayant reçu une formation appropriée. En se basant sur les données autodéclarées, une proportion importante de personnes ayant un excès de poids ont été classées incorrectement dans des catégories d'IMC plus faible. Ces erreurs de classification se sont soldées par des associations plus fortes entre l'excès de poids ou l'obésité et la morbidité.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010960
    Description :

    La non-réponse est inévitable dans toute enquête, malgré tous les efforts mis en oeuvre pour la réduire aux différentes étapes de l'enquête. Cette non-réponse peut notamment être responsable de biais dans l'estimation. La non-réponse est par ailleurs une problématique d'autant plus importante dans une étude longitudinale que l'échantillon se réduit au fil du temps. L'Étude Longitudinale Française depuis l'Enfance (Elfe) est un projet de suivi de 20 000 enfants de la naissance à l'âge adulte dans une approche pluridisciplinaire. Cet article est basé sur les résultats des premières études pilotes menées en 2007 qui ont permis de tester la faisabilité et l'acceptation de l'étude. Les résultats de participation sont présentés (taux de réponse, facteurs liés à la non-réponse) ainsi qu'une première ébauche des méthodes de traitement de la non-réponse envisagées.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010953
    Description :

    Alors que les spécialistes de la recherche sur les enquêtes s'efforcent de maintenir les taux de réponse à leur niveau habituellement élevé, les répondants réticents font croître les coûts de collecte des données. Cette réticence à répondre peut être liée au temps qu'il faut pour achever l'interview dans les enquêtes omnibus à grande échelle, telles que la National Survey of Recent College Graduates (NSRCG). Reconnaissant que le fardeau de réponse ou la longueur du questionnaire peut contribuer à la baisse des taux de réponse, en 2003, après plusieurs mois de collecte des données conformément au protocole de collecte standard, l'équipe de la NSRCG a offert des incitations monétaires à ses répondants environ deux mois avant la fin de la période de collecte des données. Parallèlement à l'offre d'incitation, elle a également donné aux non-répondants persistants l'occasion de répondre à un questionnaire considérablement abrégé ne comportant que quelques questions essentielles. Les répondants tardifs qui ont achevé l'interview en raison de l'incitation monétaire et du questionnaire ne contenant que les questions essentielles peuvent fournir certains éclaircissements en ce qui concerne le biais de non-réponse et la probabilité qu'ils soient demeurés des non-répondants à l'enquête si les efforts susmentionnés de conversion des refus n'avaient pas été faits.

    Dans le présent article, nous entendons par « répondants réticents » ceux qui n'ont répondu à l'enquête qu'après le déploiement d'efforts allant au-delà de ceux planifiés au départ dans le protocole standard de collecte des données. Plus précisément, les répondants réticents à la NSRCG de 2003 sont ceux qui ont répondu au questionnaire ordinaire ou abrégé après l'offre d'une incitation. Notre hypothèse était que le comportement des répondants réticents serait plus semblable à celui des non-répondants qu'à celui des répondants aux enquêtes. Le présent article décrit une étude des répondants réticents et de la mesure dans laquelle ils diffèrent des répondants ordinaires. Nous comparons différents groupes de réponse en ce qui concerne les estimations pour plusieurs variables clés de l'enquête. Cette comparaison nous permettra de mieux comprendre le biais dû à la non-réponse à la NSRCG et les caractéristiques des non-répondants proprement dits, ce qui servira de fondement à la modification du système de pondération ou aux procédures d'estimation de la NSRCG dans l'avenir.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010951
    Description :

    Les valeurs manquantes attribuables à la non-réponse constituent un type d'erreur non due à l'échantillonnage. Le rejet de cas comportant des valeurs manquantes dans des analyses statistiques peut entraîner des estimations biaisées en raison des différences entre les répondants pour lesquels des valeurs sont manquantes et les autres. De plus, lorsque des variables présentent différentes structures de valeurs manquantes parmi les cas échantillonnés et lorsque les cas comportant des valeurs manquantes sont rejetés des analyses statistiques, celles-ci peuvent produire des résultats incohérents puisqu'elles reposent sur des sous-ensembles différents de cas échantillonnés pouvant ne pas être comparables. Cependant, les analyses qui rejettent des cas avec valeurs manquantes peuvent être valides à la condition que ces valeurs soient manquantes entièrement au hasard. Or, est-ce bien le cas?

    En guise de compensation, les valeurs manquantes sont souvent imputées ou les poids de l'enquête sont ajustés à l'aide de méthodes de catégories de poids. Les analyses subséquentes peuvent être valides à condition que les valeurs soient manquantes au hasard dans chaque catégorie de données que supposent les variables indépendantes des modèles qui reposent sur des techniques d'ajustement. Or, peut-on dire que les valeurs sont manquantes au hasard?

    Comme les valeurs manquantes ne sont pas observées, les hypothèses sur les valeurs manquantes entièrement au hasard et les valeurs manquantes au hasard formulées dans les analyses ne sont pas souvent examinées. La communication décrit un modèle de sélection à partir duquel des tests d'hypothèse concernant les valeurs manquantes entièrement au hasard et les valeurs manquantes au hasard peuvent être réalisés même si les valeurs manquantes ne sont pas observées. Les données de la National Immunization Survey menée par le Department of Health and Human Services des États-Unis sont utilisées pour illustrer ces méthodes.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010959
    Description :

    L'Enquête unifiée auprès des entreprises (EUE) réalisée par Statistique Canada est une enquête-entreprise annuelle dont le but est d'uniformiser plus de 60 enquêtes couvrant diverses industries. À l'heure actuelle, deux types de fonctions de score sont utilisés durant la collecte des données de l'EUE pour en faire le suivi. L'objectif est d'employer une fonction de score qui maximise les taux de réponse à l'enquête pondérés par le poids économique en ce qui a trait aux principales variables d'intérêt, sous la contrainte d'un budget de suivi limité. Les deux types de fonctions de score étant fondés sur des méthodologies différentes, leur incidence sur les estimations finales pourrait ne pas être la même.

    La présente étude consiste à comparer, d'une manière générale, les deux types de fonctions de score en s'appuyant sur des données concernant la collecte recueillies au cours des deux dernières années. Aux fins des comparaisons, chaque type de fonction de score est appliqué aux mêmes données et diverses estimations de variables financières et de variables liées aux marchandises (biens et services) pour lesquelles des données sont publiées sont calculées, ainsi que leur écart par rapport à la pseudo valeur réelle et leur écart quadratique moyen, en se fondant sur chaque méthode. Ces estimations de l'écart et de l'écart quadratique moyen calculées selon chaque méthode sont ensuite utilisées pour mesurer l'effet de chaque fonction de score sur les estimations finales des variables financières et des variables liées aux biens et services.

    Date de diffusion : 2009-12-03

  • Produits techniques : 12-002-X200900110692
    Description :

    Les chercheurs peuvent examiner l'évolution des tendances dans le temps en procédant à l'examen des réponses aux questions posées à maintes reprises aux mêmes répondants durant plusieurs cycles de données longitudinales. L'utilisation de ces réponses mesurées à maintes reprises peut souvent être difficile. Le présent article examine les tendances dans les activités de bénévolat des jeunes à l'aide des données de l'Enquête longitudinale nationale sur les enfants et les jeunes, afin de faire ressortir plusieurs questions dont les chercheurs devraient tenir compte en utilisant les mesures itératives.

    Date de diffusion : 2009-04-22

  • Produits techniques : 12-002-X200900110693
    Description :

    Composé au départ pour la recherche de l'auteur sur l'assurance-chômage (AC), cet article résume une série de procédures qui permettent une construction personnalisée de données de durée, à l'aide du logiciel SPSS et de l'Enquête sur la dynamique du travail et du revenu (EDTR). Ces procédures peuvent servir à fusionner, déduire ou faire correspondre plusieurs ensembles de données liés à la durée.

    Date de diffusion : 2009-04-22

  • Produits techniques : 11-522-X2006001
    Description :

    Depuis 1984, une série de conférences annuelles a été parrainé par Statistique Canada. Le recueil de la conférence est disponible depuis 1987. Le Symposium 2006 a été le vingt-troisième d'une série de colloques internationaux organisés par Statistique Canada sur des questions de méthodologie. Chaque année le symposium traite d'un thème particulier. Celui de 2006 était : « Enjeux méthodologiques reliés à la mesure de la santé des populations ».

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110410
    Description :

    Survey of Occupational Illnesses and Injuries (SOII) des États Unis est une enquête à grande échelle effectuée auprès des établissements et réalisée par le Bureau of Labor Statistics. Elle a pour but de mesurer les taux d'incidence et les conséquences des maladies et des blessures professionnelles dans certaines industries à l'échelle du pays et de l'État. À l'heure actuelle, cette enquête s'appuie sur des méthodes relativement simples pour la détection et le traitement des valeurs aberrantes. Les méthodes de détection des valeurs aberrantes reposent sur la comparaison des taux d'incidence déclarés en ce qui concerne l'établissement à la distribution correspondante des déclarations dans des cellules particulières définies par le croisement des classifications selon l'État et selon l'industrie. Les méthodes de traitement comportent le remplacement des poids probabilistes type par un poids dont la valeur est fixée à un, suivi par un étalonnage.

    Des méthodes plus complexes pourraient être utilisées pour la détection et le traitement des valeurs aberrantes dans la SOII, par exemple des méthodes de détection qui s'appuient sur des fonctions d'influence, des poids probabilistes et des observations multivariées, ou des méthodes de traitement fondées sur la winsorisation ou l'estimation M. L'évaluation des avantages pratiques de ces méthodes plus complexes nécessite la prise en considération de trois facteurs importants. Premièrement, les valeurs très extrêmes sont relativement rares, mais lorsqu'elles se produisent, elles peuvent avoir un effet important sur les estimateurs de la SOII dans les cellules définies par le croisement des États et des industries. Par conséquent, l'évaluation pratique de l'effet des méthodes de détection des valeurs aberrantes se concentre principalement sur les queues des distributions des estimateurs, plutôt que sur les mesures de performance agrégées normalisées, comme la variance ou l'erreur quadratique moyenne. Deuxièmement, les évaluations analytiques et fondées sur des données sont axées sur l'amélioration progressive obtenue grâce à l'utilisation de méthodes plus complexes, comparativement aux résultats produits par les méthodes simples suivies à l'heure actuelle. Troisièmement, l'élaboration des outils susmentionnés nécessite le recours à une théorie asymptotique qui n'est pas tout à fait standard pour refléter les compromis en ce qui a trait aux effets associés à, respectivement, l'accroissement de la taille des échantillons, l'accroissement du nombre de cellules pour la publication et l'évolution des queues des distributions sous jacentes des observations.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110390
    Description :

    Nous proposons un modèle linéaire généralisé avec composantes aléatoires additives (GLMARC pour generalized linear model with additive random components) de niveau agrégé applicable aux dénombrements binaires provenant d'enquêtes. Ce modèle comporte une partie linéaire (pour les effets aléatoires) et une partie non linéaire (pour les effets fixes) pour la modélisation de la fonction de moyenne et appartient donc à la classe des modèles mixtes linéaires et non linéaires (MLNL). Il permet d'adopter une approche de type modèle linéaire mixte (LMM) pour l'estimation sur petits domaines (EPD) semblable dans une certaine mesure à la méthode bien connue de Fay Herriot (1979) et tient donc compte du plan d'échantillonnage. Contrairement à l'approche bayésienne hiérarchique (BH) de You et Rao (2002), la méthode proposée donne lieu à des estimations sur petits domaines et des diagnostics fréquentistes faciles à interpréter, ainsi qu'à un auto étalonnage reposant sur des estimations directes fiables sur grands domaines. La méthodologie habituelle des LMM ne convient pas dans le cas de dénombrements, à cause de l'absence de contraintes d'intervalle pour la fonction de moyenne et de la possibilité d'obtenir des estimations non raisonnables (p. ex. 0 dans le contexte de l'EPD) des composantes de variance, car le modèle ne permet pas que la partie des effets aléatoires de la fonction de moyenne conditionnelle dépende de la moyenne marginale. La méthode proposée est une amélioration de la méthode élaborée antérieurement par Vonesh et Carter (1992) qui s'appuyait aussi sur des modèles mixtes linéaires et non linéaires, mais qui ne tenait pas compte de la relation entre la variance et la moyenne, quoique cela se fasse habituellement par des contraintes d'intervalle pour les effets aléatoires. En outre, les effets du plan de sondage et l'estimation des effets aléatoires n'étaient pas envisagés. En revanche, dans notre application à l'estimation sur petits domaines, il est important d'obtenir des estimations appropriées des effets fixes ainsi qu'aléatoires. Il convient de souligner que, contrairement au modèle linéaire mixte généralisé (GLMM), le modèle GLMARC se caractérise, comme les LMM, par une grande simplicité d'ajustement. Cette dernière est due au remplacement des effets fixes et aléatoires originaux du GLMM par un nouvel ensemble de paramètres du GLMARC dont l'interprétation est assez différente, car l'effet aléatoire n'est plus intégré dans la fonction prédictrice non linéaire. Toutefois, cela n'a aucune conséquence pour estimation sur petits domaines, parce que les paramètres de petit domaine correspondent aux moyennes conditionnelles globales et non aux paramètres individuels du modèle. Nous proposons pour l'estimation des paramètres une méthode s'appuyant sur l'application itérative du meilleur prédicteur linéaire sans biais (BLUP pour best linear unbiased predictor) qui permet l'auto étalonnage après un agrandissement approprié du modèle. Le problème des petits domaines pour lesquels la taille d'échantillon est faible, voire nulle, ou des estimations directes nulles est résolu en regroupant les domaines pour l'étape de l'estimation des paramètres uniquement. L'application du modèle à l'Enquête sur la santé dans les collectivités canadiennes de 2000 2001 en vue d'estimer la proportion de fumeurs quotidiens dans les sous populations définies par les régions sociosanitaires provinciales selon le groupe âge sexe est présentée à titre d'illustration.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110391
    Description :

    L'estimation sur petits domaines au moyen de modèles linéaires au niveau du domaine repose habituellement sur l'hypothèse de normalité des effets aléatoires au niveau du domaine (erreurs de modélisation) et des erreurs de sondage dans les estimations directes par sondage. Les observations aberrantes peuvent poser un problème et être dues à des valeurs aberrantes des erreurs de modélisation ou des erreurs de sondage, deux possibilités dont les incidences sont fort différentes. Nous considérons ici les deux possibilités et étudions empiriquement comment l'utilisation d'une approche bayésienne reposant sur l'hypothèse que l'une des composantes de l'erreur suit une loi t permet de traiter les valeurs aberrantes éventuelles. Les exemples empiriques reposent sur des modèles des rapports de pauvreté dans les États américains utilisés par le Small Area Income and Poverty Estimates program du U.S. Census Bureau, en étendant les modèles gaussiens habituels afin de supposer que l'erreur de modélisation ou l'erreur de sondage suit une loi t. Nous examinons comment les résultats sont influencés par la variation du nombre de degrés de liberté (supposé connu) de la loi t. Nous constatons que l'utilisation d'une loi t à faible nombre de degrés de liberté peut réduire les effets des valeurs aberrantes, mais dans les exemples discutés, les résultats ne vont pas jusqu'à s'approcher du rejet catégorique des observations.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110434
    Description :

    La protection contre la divulgation de l'identité des répondants dans les données d'enquête publiées constitue un enjeu d'ordre pratique pour de nombreux organismes gouvernementaux. Parmi les méthodes de protection figurent la suppression des identificateurs de grappe et de strate, de même que la modification des données ou la permutation des valeurs entre les enregistrements des répondants. Malheureusement, les identificateurs de grappe et de strate sont généralement nécessaires à l'estimation de la variance axée sur la linéarisation ainsi qu'aux méthodes de répétition, dans la mesure où le rééchantillonnage porte habituellement sur les unités de sondage du premier degré dans les strates. On pourrait penser que la diffusion d'un ensemble de poids de rééchantillonnage duquel les identificateurs de strate et de grappe auraient été supprimés permettrait de régler une partie du problème, particulièrement si l'on fait appel à une méthode de rééchantillonnage aléatoire, comme celle du bootstrap. Dans le présent article, nous démontrons dans un premier temps que, en considérant les poids de rééchantillonnage comme des observations dans un espace dimensionnel de haut niveau, on peut facilement utiliser un algorithme de mise en grappes pour reconstruire les identificateurs de grappe, peu importe la méthode de rééchantillonnage, même si les poids de rééchantillonnage ont été modifiés aléatoirement. Nous proposons ensuite un algorithme rapide qui permet de permuter les identificateurs de grappe et de strate des unités finales avant la création des poids de rééchantillonnage, sans influer de façon significative sur les estimations de la variance des caractéristiques visées qui en résultent. Ces méthodes sont illustrées par leur application aux données publiées issues des National Health and Nutrition Examination Surveys, enquêtes pour lesquelles les questions de divulgation sont extrêmement importantes.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110408
    Description :

    Malgré les progrès réalisés en vue d'améliorer la santé de la population des États Unis, des disparités en matière de santé persistent entre divers groupes raciaux/ethniques et socioéconomiques. Les sources habituelles de données pour évaluer la santé d'une population d'intérêt comprennent les enquêtes à grande échelle, qui contiennent souvent des questions à réponse autodéclarée, comme « Un médecin ou un autre professionnel de la santé vous a t-il déjà dit que vous souffrez de problème de santé d'intérêt ? Les réponses à de telles questions pourraient ne pas refléter la prévalence réelle des problèmes de santé (p. ex., si le répondant n'a pas accès à un médecin ou à un autre professionnel de la santé). De même, les renseignements autodéclarés concernant des données quantitatives telles que la taille et le poids pourraient être entachés d'erreurs de déclaration. Ce genre d'« erreurs de mesure » dans les données sur la santé pourraient avoir une incidence sur les inférences relatives aux mesures de la santé et aux disparités en matière de santé. Dans la présente étude, nous ajustons des modèles d'erreur de mesure aux données de la National Health and Nutrition Examination Survey, qui comprend un volet d'interview durant lequel sont posées des questions à réponse autodéclarée et un volet d'examen durant lequel sont obtenues des mesures physiques. Puis, nous élaborons des méthodes permettant d'utiliser les modèles ajustés pour améliorer l'analyse des données autodéclarées provenant d'une autre enquête ne comportant pas de volet d'examen. Enfin, nous appliquons ces méthodes, qui comportent l'imputation multiples de valeurs fondées sur les données recueillies par examen à l'enquête ne produisant que des données autodéclarées, à la National Health Interview Survey dans des exemples ayant trait au diabète, à l'hypertension et à l'obésité. Les résultats préliminaires laissent entendre que les ajustements pour l'erreur de mesure peuvent causer des variations non négligeables des estimations des mesures de la santé.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110431
    Description :

    Nous décrivons ici les méthodes de contrôle de la divulgation statistique (CDS) mises au point pour la diffusion publique du fichier de microdonnées du Système canadien hospitalier d'information et de recherche en prévention des traumatismes (SCHIRPT). Le SCHIRPT est une base de données nationale de surveillance des blessures administrée par l'Agence de santé publique du Canada (ASPC). Après une description du SCHIRPT, nous présentons un bref aperçu des concepts de base du CDS en guise d'introduction à la procédure de sélection et d'élaboration des méthodes de CDS applicables au SCHIRPT, compte tenu des défis et des besoins particuliers qui sont associés à ce système. Nous résumons ensuite quelques-uns des principaux résultats. Le présent article se conclut par une discussion sur les répercussions de ces travaux sur le domaine de l'information en matière de santé et des observations finales sur certaines questions méthodologiques qu'il convient d'examiner.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110411
    Description :

    L'Enquête sur la santé dans les collectivités canadiennes comporte deux enquêtes transversales menées en alternance sur un cycle annuel. Les deux enquêtes recueillent des renseignements généraux sur la santé; la deuxième, de moindre envergure, recueille des renseignements supplémentaires sur des aspects précis de la santé. Même si la taille des échantillons est importante, les utilisateurs sont intéressés à combiner les cycles de l'ESCC afin d'améliorer la qualité des estimations et de produire des estimations pour les petits domaines géographiques ou pour des caractéristiques ou des populations rares. Le présent document porte sur certains enjeux liés à la combinaison des cycles de l'ESCC, dont les interprétations possibles du résultat combiné, ainsi que sur certaines méthodes de combinaison des cycles.

    Date de diffusion : 2008-03-17

Date de modification :