Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (17)

Tout (17) (0 à 10 de 17 résultats)

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200100007
    Description :

    Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200008
    Description :

    De nos jours, il y a une non-réponse élevée dans de nombreuses enquêtes-échantillons, y compris d’importantes enquêtes menées par des organismes statistiques gouvernementaux. Une collecte de données adaptative peut être avantageuse dans cette situation : il est possible de réduire le biais de non-réponse dans les estimations de l’enquête, jusqu’à un certain point, en produisant un ensemble de répondants bien équilibré. Les variables auxiliaires ont un double objectif. Utilisées au cours de la phase d’estimation, elles réduisent le biais, sans toutefois l’éliminer complètement, par une pondération ajustée par calage. Au cours de la phase précédente de collecte de données adaptative, les variables auxiliaires jouent également un rôle important : elles contribuent à réduire le déséquilibre dans l’ensemble final de répondants. Dans le contexte de cette utilisation combinée de variables auxiliaires, le présent article est consacré à un examen de l’écart entre l’estimation par calage et l’estimation sans biais (réponse complète). Nous montrons que cet écart est la somme de deux composantes. La composante réductible peut être réduite, par la collecte de données adaptative, jusqu’à zéro si une réponse parfaitement équilibrée est obtenue par rapport à un vecteur auxiliaire choisi. En revanche, la composante résistante ne varie pas ou varie peu sous l’effet d’une réponse mieux équilibrée; elle représente une partie de l’écart qu’un plan adaptatif ne permet pas d’éliminer. La taille relative de cette première composante est un indicateur de l’avantage qu’on peut tirer d’un plan de sondage adaptatif.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2018017
    Description :

    Afin de concevoir des politiques visant à promouvoir l’égalité entre les sexes en matière de leadership, l’autonomisation économique des femmes et la croissance inclusive, il est important de bien comprendre la propriété d’entreprises par des femmes ainsi que le rendement des entreprises appartenant à des femmes. Cependant, l’information sur la propriété d’entreprises selon le sexe demeure rare, en raison du manque de données exhaustives. L’étude Entreprises appartenant à des femmes au Canada (Grekou, Li et Liu, 2018), comble ce manque de données en distinguant les propriétaires d’entreprises selon leur sexe à l’aide d’un nouvel ensemble de données administratives appelé la Base de données canadienne sur la dynamique employeurs-employés. Cet ensemble de données contient des renseignements sur les propriétaires d’entreprises pour toutes les entreprises non constituées en société et les sociétés privées au Canada. Le présent document porte sur la méthodologie adoptée pour établir la structure de la propriété d’entreprises selon le sexe. Il présente ensuite des estimations de la propriété d’entreprises selon le sexe (propriétaires majoritairement masculins ou féminins et propriété à parts égales). Enfin, il analyse la sensibilité de ces estimations et les compare à celles calculées à l’aide d’autres sources de données.

    Date de diffusion : 2018-09-24

  • Articles et rapports : 11-633-X2018013
    Description :

    Depuis 2008, plusieurs recensements de la population ont été couplés à des données administratives sur la santé et à des données financières. Ces ensembles de données couplés ont été déterminants pour examiner les inégalités en matière de santé et ont servi à la recherche sur la salubrité de l’environnement. Le présent article décrit la création de la Cohorte santé et environnement du recensement canadien (CSERCan) de 1996 : 3,57 millions de personnes qui ont répondu au questionnaire détaillé du recensement et qui ont rétrospectivement fait l’objet d’un suivi relatif à la mortalité et à la mobilité pendant 16,6 ans, de 1996 à 2012. La CSERCan de 1996 était limitée aux répondants au recensement qui étaient âgés de 19 ans ou plus le jour du recensement (le 14 mai 1996), qui étaient résidents du Canada, qui ne résidaient pas dans un établissement institutionnel et qui avaient déposé une déclaration de revenus. Ces répondants ont été couplés aux enregistrements de décès de la Base canadienne de données sur la mortalité ou au fichier maître des particuliers T1 et à un historique de codes postaux provenant de diverses sources. Il s’agit de la troisième CSERCan d’une série de cohortes qui, une fois combinées, permettent d’examiner les tendances en matière de mortalité et d’expositions environnementales par caractéristiques socioéconomiques pendant trois cycles de recensement et 21 ans de données de recensement, de données fiscales et de données sur la mortalité. Le présent rapport décrit les méthodologies de couplage, la validation et l’évaluation des biais, ainsi que les caractéristiques de la CSERCan de 1996. On y évalue également la mesure dans laquelle la CSERCan de 1996 représente la population adulte du Canada.

    Date de diffusion : 2018-01-22

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 11-633-X2016003
    Description :

    De grandes cohortes de mortalité nationales sont utilisées pour estimer les taux de mortalité en fonction de différents groupes socioéconomiques et démographiques ainsi que pour effectuer des recherches dans le domaine de la santé environnementale. En 2008, Statistique Canada a créé une cohorte en couplant les données du Recensement de 1991 avec des données sur la mortalité. La présente étude décrit le couplage des données des répondants au questionnaire détaillé du Recensement de 2001 âgés de 19 ans et plus avec les données du Fichier maître des particuliers T1 et la Base de données combinées sur la mortalité. Ce couplage permet de faire le suivi de tous les décès survenus sur une période de 10,6 ans (soit pour le moment jusqu’à la fin de 2011).

    Date de diffusion : 2016-10-26

  • Articles et rapports : 11-522-X201700014728
    Description :

    "Le couplage d’enregistrements a pour objet de jumeler deux ou plusieurs sources de données. Le produit du couplage d’enregistrements est un fichier qui comprend un enregistrement par individu dans lequel est contenue toute l’information au sujet de cet individu provenant de plusieurs fichiers. Le problème de couplage est difficile lorsqu’on ne dispose pas d’une clé d’identification unique, qu’il existe des erreurs dans certaines variables, que certaines données manquent, et que les fichiers sont grands. Le couplage probabiliste d’enregistrements consiste à calculer une probabilité que les enregistrements provenant de fichiers différents appartiennent à un même individu. Il arrive que de faibles probabilités d’appariement soient attribuées à de vrais appariements et que des probabilités élevées soient attribuées à des non appariements. Les erreurs de désignation des appariements peuvent causer un biais dans les analyses portant sur la base de données composite. Les registres du cancer du programme SEER contiennent de l’information sur les cas de cancer du sein dans les régions qu’ils desservent. Un test fondé sur l’analyse de l’oncotype DX, effectuée par Genomic Health, Inc. (GHI), est souvent utilisé pour certains types de cancer du sein. Un couplage d’enregistrements en utilisant des renseignements personnels permettant l’identification a été effectué pour associer les résultats de l’analyse de l’oncotype DX aux données des registres du cancer du programme SEER. Le logiciel Link Plus a été utilisé pour générer une cote décrivant la similarité des enregistrements et repérer ainsi, pour les individus inscrits dans les registres du cancer du programme SEER, l’appariement paraissant le meilleur avec la base de données GHI. Un examen manuel a été effectué pour vérifier des échantillons d’appariements probables, d’appariements possibles et d’appariements improbables. Des modèles sont proposés pour modéliser conjointement le processus de couplage d’enregistrements et l’analyse statistique subséquente dans la présente application et dans d’autres. "

    Date de diffusion : 2016-03-24

  • Articles et rapports : 82-622-X2015009
    Description :

    Le Registre canadien du cancer (RCC) est le fruit d'une collaboration entre Statistique Canada et les 13 registres provinciaux et territoriaux du cancer visant à créer une base de données unique pour la déclaration annuelle de l'incidence du cancer et du taux de survie au Canada et à l'échelle provinciale ou territoriale. Bien que des améliorations aient été apportées pour assurer la qualité supérieure, l'uniformisation et la comparabilité des données, le RCC ne possède actuellement pas toute l'information nécessaire sur le traitement du cancer. Le Conseil canadien des registres du cancer (CCRC) a déterminé que le besoin de données sur le traitement du cancer à l'échelle nationale représentait une de ses principales priorités stratégiques pour 2013-2014. Le couplage d'enregistrements a été retenu comme solution possible pour combler cette lacune en matière d'information.

    La présente étude vise à examiner la possibilité de recourir au couplage d'enregistrements pour intégrer de l'information sur le traitement de certains cancers : sein, côlon et rectum et prostate. L'objectif est double : évaluer la qualité des méthodes de couplage et déterminer la validité du recours à des données couplées pour estimer les taux de traitement du cancer à l'échelle provinciale. L'étude est fondée sur les données du Registre canadien du cancer de 2005 à 2008 couplées à celles de la Base de données sur les congés des patients (BDCP) et du Système national d'information sur les soins ambulatoires (SNISA) pour quatre provinces (l'Ontario, le Manitoba, la Nouvelle-Écosse et l'Île-du-Prince-Édouard). Le couplage a été proposé par Statistique Canada, le CCRC et l'Institut canadien d'information sur la santé (ICIS). Le couplage a été approuvé et Statistique Canada a procédé au couplage.

    Date de diffusion : 2015-11-23

  • Articles et rapports : 11-522-X201300014270
    Description :

    Dans le domaine du couplage d’enregistrements, il existe un large éventail de comparateurs de chaînes de caractères. Les difficultés lors des comparaisons surviennent lorsque des facteurs influent sur la composition des chaînes (ex. : emploi de surnoms pour les prénoms de personnes, erreurs typographiques, etc.). Il faut alors faire appel à des comparateurs plus sophistiqués. De tels outils permettent de réduire le nombre de liens potentiellement manqués. Malheureusement, une partie des gains peuvent s’avérer de faux liens. Afin d’améliorer les appariements, trois comparateurs de chaînes sophistiqués ont été développés et sont présentés dans cet article. Ce sont le comparateur Lachance, ainsi que ses dérivés, les comparateurs multi-mots et multi-types. Cette gamme d’outils est présentement disponible dans un prototype de couplage d’enregistrements déterministe, MixMatch. Ce logiciel permet de faire appel à des connaissances a priori afin de réduire le volume de faux liens générés lors des appariements. Un indicateur de force de liens est également proposé.

    Date de diffusion : 2014-10-31
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (15)

Analyses (15) (0 à 10 de 15 résultats)

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200100007
    Description :

    Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200008
    Description :

    De nos jours, il y a une non-réponse élevée dans de nombreuses enquêtes-échantillons, y compris d’importantes enquêtes menées par des organismes statistiques gouvernementaux. Une collecte de données adaptative peut être avantageuse dans cette situation : il est possible de réduire le biais de non-réponse dans les estimations de l’enquête, jusqu’à un certain point, en produisant un ensemble de répondants bien équilibré. Les variables auxiliaires ont un double objectif. Utilisées au cours de la phase d’estimation, elles réduisent le biais, sans toutefois l’éliminer complètement, par une pondération ajustée par calage. Au cours de la phase précédente de collecte de données adaptative, les variables auxiliaires jouent également un rôle important : elles contribuent à réduire le déséquilibre dans l’ensemble final de répondants. Dans le contexte de cette utilisation combinée de variables auxiliaires, le présent article est consacré à un examen de l’écart entre l’estimation par calage et l’estimation sans biais (réponse complète). Nous montrons que cet écart est la somme de deux composantes. La composante réductible peut être réduite, par la collecte de données adaptative, jusqu’à zéro si une réponse parfaitement équilibrée est obtenue par rapport à un vecteur auxiliaire choisi. En revanche, la composante résistante ne varie pas ou varie peu sous l’effet d’une réponse mieux équilibrée; elle représente une partie de l’écart qu’un plan adaptatif ne permet pas d’éliminer. La taille relative de cette première composante est un indicateur de l’avantage qu’on peut tirer d’un plan de sondage adaptatif.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2018017
    Description :

    Afin de concevoir des politiques visant à promouvoir l’égalité entre les sexes en matière de leadership, l’autonomisation économique des femmes et la croissance inclusive, il est important de bien comprendre la propriété d’entreprises par des femmes ainsi que le rendement des entreprises appartenant à des femmes. Cependant, l’information sur la propriété d’entreprises selon le sexe demeure rare, en raison du manque de données exhaustives. L’étude Entreprises appartenant à des femmes au Canada (Grekou, Li et Liu, 2018), comble ce manque de données en distinguant les propriétaires d’entreprises selon leur sexe à l’aide d’un nouvel ensemble de données administratives appelé la Base de données canadienne sur la dynamique employeurs-employés. Cet ensemble de données contient des renseignements sur les propriétaires d’entreprises pour toutes les entreprises non constituées en société et les sociétés privées au Canada. Le présent document porte sur la méthodologie adoptée pour établir la structure de la propriété d’entreprises selon le sexe. Il présente ensuite des estimations de la propriété d’entreprises selon le sexe (propriétaires majoritairement masculins ou féminins et propriété à parts égales). Enfin, il analyse la sensibilité de ces estimations et les compare à celles calculées à l’aide d’autres sources de données.

    Date de diffusion : 2018-09-24

  • Articles et rapports : 11-633-X2018013
    Description :

    Depuis 2008, plusieurs recensements de la population ont été couplés à des données administratives sur la santé et à des données financières. Ces ensembles de données couplés ont été déterminants pour examiner les inégalités en matière de santé et ont servi à la recherche sur la salubrité de l’environnement. Le présent article décrit la création de la Cohorte santé et environnement du recensement canadien (CSERCan) de 1996 : 3,57 millions de personnes qui ont répondu au questionnaire détaillé du recensement et qui ont rétrospectivement fait l’objet d’un suivi relatif à la mortalité et à la mobilité pendant 16,6 ans, de 1996 à 2012. La CSERCan de 1996 était limitée aux répondants au recensement qui étaient âgés de 19 ans ou plus le jour du recensement (le 14 mai 1996), qui étaient résidents du Canada, qui ne résidaient pas dans un établissement institutionnel et qui avaient déposé une déclaration de revenus. Ces répondants ont été couplés aux enregistrements de décès de la Base canadienne de données sur la mortalité ou au fichier maître des particuliers T1 et à un historique de codes postaux provenant de diverses sources. Il s’agit de la troisième CSERCan d’une série de cohortes qui, une fois combinées, permettent d’examiner les tendances en matière de mortalité et d’expositions environnementales par caractéristiques socioéconomiques pendant trois cycles de recensement et 21 ans de données de recensement, de données fiscales et de données sur la mortalité. Le présent rapport décrit les méthodologies de couplage, la validation et l’évaluation des biais, ainsi que les caractéristiques de la CSERCan de 1996. On y évalue également la mesure dans laquelle la CSERCan de 1996 représente la population adulte du Canada.

    Date de diffusion : 2018-01-22

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 11-633-X2016003
    Description :

    De grandes cohortes de mortalité nationales sont utilisées pour estimer les taux de mortalité en fonction de différents groupes socioéconomiques et démographiques ainsi que pour effectuer des recherches dans le domaine de la santé environnementale. En 2008, Statistique Canada a créé une cohorte en couplant les données du Recensement de 1991 avec des données sur la mortalité. La présente étude décrit le couplage des données des répondants au questionnaire détaillé du Recensement de 2001 âgés de 19 ans et plus avec les données du Fichier maître des particuliers T1 et la Base de données combinées sur la mortalité. Ce couplage permet de faire le suivi de tous les décès survenus sur une période de 10,6 ans (soit pour le moment jusqu’à la fin de 2011).

    Date de diffusion : 2016-10-26

  • Articles et rapports : 11-522-X201700014728
    Description :

    "Le couplage d’enregistrements a pour objet de jumeler deux ou plusieurs sources de données. Le produit du couplage d’enregistrements est un fichier qui comprend un enregistrement par individu dans lequel est contenue toute l’information au sujet de cet individu provenant de plusieurs fichiers. Le problème de couplage est difficile lorsqu’on ne dispose pas d’une clé d’identification unique, qu’il existe des erreurs dans certaines variables, que certaines données manquent, et que les fichiers sont grands. Le couplage probabiliste d’enregistrements consiste à calculer une probabilité que les enregistrements provenant de fichiers différents appartiennent à un même individu. Il arrive que de faibles probabilités d’appariement soient attribuées à de vrais appariements et que des probabilités élevées soient attribuées à des non appariements. Les erreurs de désignation des appariements peuvent causer un biais dans les analyses portant sur la base de données composite. Les registres du cancer du programme SEER contiennent de l’information sur les cas de cancer du sein dans les régions qu’ils desservent. Un test fondé sur l’analyse de l’oncotype DX, effectuée par Genomic Health, Inc. (GHI), est souvent utilisé pour certains types de cancer du sein. Un couplage d’enregistrements en utilisant des renseignements personnels permettant l’identification a été effectué pour associer les résultats de l’analyse de l’oncotype DX aux données des registres du cancer du programme SEER. Le logiciel Link Plus a été utilisé pour générer une cote décrivant la similarité des enregistrements et repérer ainsi, pour les individus inscrits dans les registres du cancer du programme SEER, l’appariement paraissant le meilleur avec la base de données GHI. Un examen manuel a été effectué pour vérifier des échantillons d’appariements probables, d’appariements possibles et d’appariements improbables. Des modèles sont proposés pour modéliser conjointement le processus de couplage d’enregistrements et l’analyse statistique subséquente dans la présente application et dans d’autres. "

    Date de diffusion : 2016-03-24

  • Articles et rapports : 82-622-X2015009
    Description :

    Le Registre canadien du cancer (RCC) est le fruit d'une collaboration entre Statistique Canada et les 13 registres provinciaux et territoriaux du cancer visant à créer une base de données unique pour la déclaration annuelle de l'incidence du cancer et du taux de survie au Canada et à l'échelle provinciale ou territoriale. Bien que des améliorations aient été apportées pour assurer la qualité supérieure, l'uniformisation et la comparabilité des données, le RCC ne possède actuellement pas toute l'information nécessaire sur le traitement du cancer. Le Conseil canadien des registres du cancer (CCRC) a déterminé que le besoin de données sur le traitement du cancer à l'échelle nationale représentait une de ses principales priorités stratégiques pour 2013-2014. Le couplage d'enregistrements a été retenu comme solution possible pour combler cette lacune en matière d'information.

    La présente étude vise à examiner la possibilité de recourir au couplage d'enregistrements pour intégrer de l'information sur le traitement de certains cancers : sein, côlon et rectum et prostate. L'objectif est double : évaluer la qualité des méthodes de couplage et déterminer la validité du recours à des données couplées pour estimer les taux de traitement du cancer à l'échelle provinciale. L'étude est fondée sur les données du Registre canadien du cancer de 2005 à 2008 couplées à celles de la Base de données sur les congés des patients (BDCP) et du Système national d'information sur les soins ambulatoires (SNISA) pour quatre provinces (l'Ontario, le Manitoba, la Nouvelle-Écosse et l'Île-du-Prince-Édouard). Le couplage a été proposé par Statistique Canada, le CCRC et l'Institut canadien d'information sur la santé (ICIS). Le couplage a été approuvé et Statistique Canada a procédé au couplage.

    Date de diffusion : 2015-11-23

  • Articles et rapports : 11-522-X201300014270
    Description :

    Dans le domaine du couplage d’enregistrements, il existe un large éventail de comparateurs de chaînes de caractères. Les difficultés lors des comparaisons surviennent lorsque des facteurs influent sur la composition des chaînes (ex. : emploi de surnoms pour les prénoms de personnes, erreurs typographiques, etc.). Il faut alors faire appel à des comparateurs plus sophistiqués. De tels outils permettent de réduire le nombre de liens potentiellement manqués. Malheureusement, une partie des gains peuvent s’avérer de faux liens. Afin d’améliorer les appariements, trois comparateurs de chaînes sophistiqués ont été développés et sont présentés dans cet article. Ce sont le comparateur Lachance, ainsi que ses dérivés, les comparateurs multi-mots et multi-types. Cette gamme d’outils est présentement disponible dans un prototype de couplage d’enregistrements déterministe, MixMatch. Ce logiciel permet de faire appel à des connaissances a priori afin de réduire le volume de faux liens générés lors des appariements. Un indicateur de force de liens est également proposé.

    Date de diffusion : 2014-10-31
Références (2)

Références (2) ((2 résultats))

  • Enquêtes et programmes statistiques — Documentation : 68-514-X
    Description :

    L'approche utilisée par Statistique Canada pour la collecte et la diffusion de données économiques a évolué depuis plusieurs décennies vers un système de collecte et d'estimation fortement intégré qui alimente le cadre du Système de comptabilité nationale du Canada.

    L'élément clé de cette approche a été la création de l'Enquête unifiée auprès des entreprises, qui avait pour objet d'améliorer l'uniformité, la cohérence, l'ampleur et la profondeur des données des enquêtes-entreprises.

    L'EUE a atteint cet objectif en regroupant dans un cadre commun un grand nombre d'enquêtes-entreprises annuelles du Canada. Ce cadre comprenait une seule base de sondage, un schéma pour le plan d'échantillonnage, l'harmonisation conceptuelle du contenu des enquêtes, divers moyens d'utiliser les données administratives pertinentes, une collecte intégrée des données, des outils de traitement et d'analyse, et un entrepôt central de données.

    Date de diffusion : 2006-11-20

  • Enquêtes et programmes statistiques — Documentation : 81-595-M2003005
    Géographie : Canada
    Description :

    Dans ce document, on élabore des procédures techniques permettant aux ministères de l'Éducation d'établir un lien entre les tests provinciaux et les tests nationaux et internationaux afin de pouvoir comparer les normes et présenter les résultats selon une échelle commune.

    Date de diffusion : 2003-05-29
Date de modification :