Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (7)

Tout (7) ((7 résultats))

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2018014
    Description :

    La Base canadienne de données sur la mortalité (BCDM) est une base de données administratives qui recueille des renseignements sur la cause de décès auprès de tous les registres provinciaux et territoriaux de la statistique de l’état civil au Canada. La Base canadienne de données sur la mortalité (BCDM) ne comporte pas d’identificateurs de la sous-population pour examiner les taux de mortalité et les disparités entre des groupes tels que les Premières Nations, les Métis, les Inuits et les groupes de minorités visibles. Le couplage des données de la BCDM à celles du Recensement de la population permet de contourner ce problème. Le présent rapport décrit un couplage de la BCDM (2006 à 2011) au Recensement de la population de 2006, qui a été réalisé au moyen d’un appariement exact déterministe hiérarchique, en mettant l’accent sur la méthodologie et la validation.

    Date de diffusion : 2018-02-14

  • Articles et rapports : 11-522-X201300014268
    Description :

    En surveillance des maladies chroniques, la cueillette d’information est essentielle dans le but de mesurer l’ampleur des maladies, évaluer l’utilisation des services, identifier les groupes à risque et suivre l’évolution des maladies et des facteurs de risque dans le temps en vue de planifier et d’appliquer des programmes de prévention en santé publique. C’est dans ce contexte qu’a été créé le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ). Le SISMACQ est une base de données issue du jumelage de fichiers administratifs, couvrant les années 1996 à 2013, représentant une alternative intéressante aux données d’enquêtes puisqu’elle porte sur la totalité de la population, n’est pas affectée par le biais de rappel et permet de suivre la population dans le temps et dans l’espace. Cette présentation a pour objet de présenter la pertinence de l’utilisation des données administratives comme alternative aux données d’enquête ainsi que de les méthodes choisies pour la construction de la cohorte populationnelle à partir du jumelage des différentes sources de données brutes ainsi que de décrire les traitements apportées dans le but de minimiser les biais. Nous discuterons également des avantages et des limites liés à l’analyse des fichiers administratifs.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X200600110410
    Description :

    Survey of Occupational Illnesses and Injuries (SOII) des États Unis est une enquête à grande échelle effectuée auprès des établissements et réalisée par le Bureau of Labor Statistics. Elle a pour but de mesurer les taux d'incidence et les conséquences des maladies et des blessures professionnelles dans certaines industries à l'échelle du pays et de l'État. À l'heure actuelle, cette enquête s'appuie sur des méthodes relativement simples pour la détection et le traitement des valeurs aberrantes. Les méthodes de détection des valeurs aberrantes reposent sur la comparaison des taux d'incidence déclarés en ce qui concerne l'établissement à la distribution correspondante des déclarations dans des cellules particulières définies par le croisement des classifications selon l'État et selon l'industrie. Les méthodes de traitement comportent le remplacement des poids probabilistes type par un poids dont la valeur est fixée à un, suivi par un étalonnage.

    Des méthodes plus complexes pourraient être utilisées pour la détection et le traitement des valeurs aberrantes dans la SOII, par exemple des méthodes de détection qui s'appuient sur des fonctions d'influence, des poids probabilistes et des observations multivariées, ou des méthodes de traitement fondées sur la winsorisation ou l'estimation M. L'évaluation des avantages pratiques de ces méthodes plus complexes nécessite la prise en considération de trois facteurs importants. Premièrement, les valeurs très extrêmes sont relativement rares, mais lorsqu'elles se produisent, elles peuvent avoir un effet important sur les estimateurs de la SOII dans les cellules définies par le croisement des États et des industries. Par conséquent, l'évaluation pratique de l'effet des méthodes de détection des valeurs aberrantes se concentre principalement sur les queues des distributions des estimateurs, plutôt que sur les mesures de performance agrégées normalisées, comme la variance ou l'erreur quadratique moyenne. Deuxièmement, les évaluations analytiques et fondées sur des données sont axées sur l'amélioration progressive obtenue grâce à l'utilisation de méthodes plus complexes, comparativement aux résultats produits par les méthodes simples suivies à l'heure actuelle. Troisièmement, l'élaboration des outils susmentionnés nécessite le recours à une théorie asymptotique qui n'est pas tout à fait standard pour refléter les compromis en ce qui a trait aux effets associés à, respectivement, l'accroissement de la taille des échantillons, l'accroissement du nombre de cellules pour la publication et l'évolution des queues des distributions sous jacentes des observations.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20010016259
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    L'échantillonnage défini par un seuil d'inclusion retranche délibérément une partie de la population cible. Pour ce qui est de la statistique des entreprises, la base de sondage et l'échantillon se limitent ordinairement aux entreprises d'une taille donnée, c'est-à-dire comptant au moins un certain nombre d'employés. On élimine ainsi le fardeau de réponse des petites entreprises, mais il faut recourir à des hypothèses pour la proportion non échantillonnée de la population.

    Ce document présente certains résultats empiriques en fonction d'une enquête et de données administratives suédoises, et traite des différentes sources d'erreur et de leur incidence sur l'exactitude des résultats d'ensemble.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 12-001-X198800214583
    Description :

    Cette note d’information met en lumière les points forts et les points faibles du langage SQL.

    Date de diffusion : 1988-12-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (7)

Analyses (7) ((7 résultats))

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2018014
    Description :

    La Base canadienne de données sur la mortalité (BCDM) est une base de données administratives qui recueille des renseignements sur la cause de décès auprès de tous les registres provinciaux et territoriaux de la statistique de l’état civil au Canada. La Base canadienne de données sur la mortalité (BCDM) ne comporte pas d’identificateurs de la sous-population pour examiner les taux de mortalité et les disparités entre des groupes tels que les Premières Nations, les Métis, les Inuits et les groupes de minorités visibles. Le couplage des données de la BCDM à celles du Recensement de la population permet de contourner ce problème. Le présent rapport décrit un couplage de la BCDM (2006 à 2011) au Recensement de la population de 2006, qui a été réalisé au moyen d’un appariement exact déterministe hiérarchique, en mettant l’accent sur la méthodologie et la validation.

    Date de diffusion : 2018-02-14

  • Articles et rapports : 11-522-X201300014268
    Description :

    En surveillance des maladies chroniques, la cueillette d’information est essentielle dans le but de mesurer l’ampleur des maladies, évaluer l’utilisation des services, identifier les groupes à risque et suivre l’évolution des maladies et des facteurs de risque dans le temps en vue de planifier et d’appliquer des programmes de prévention en santé publique. C’est dans ce contexte qu’a été créé le Système intégré de surveillance des maladies chroniques du Québec (SISMACQ). Le SISMACQ est une base de données issue du jumelage de fichiers administratifs, couvrant les années 1996 à 2013, représentant une alternative intéressante aux données d’enquêtes puisqu’elle porte sur la totalité de la population, n’est pas affectée par le biais de rappel et permet de suivre la population dans le temps et dans l’espace. Cette présentation a pour objet de présenter la pertinence de l’utilisation des données administratives comme alternative aux données d’enquête ainsi que de les méthodes choisies pour la construction de la cohorte populationnelle à partir du jumelage des différentes sources de données brutes ainsi que de décrire les traitements apportées dans le but de minimiser les biais. Nous discuterons également des avantages et des limites liés à l’analyse des fichiers administratifs.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X200600110410
    Description :

    Survey of Occupational Illnesses and Injuries (SOII) des États Unis est une enquête à grande échelle effectuée auprès des établissements et réalisée par le Bureau of Labor Statistics. Elle a pour but de mesurer les taux d'incidence et les conséquences des maladies et des blessures professionnelles dans certaines industries à l'échelle du pays et de l'État. À l'heure actuelle, cette enquête s'appuie sur des méthodes relativement simples pour la détection et le traitement des valeurs aberrantes. Les méthodes de détection des valeurs aberrantes reposent sur la comparaison des taux d'incidence déclarés en ce qui concerne l'établissement à la distribution correspondante des déclarations dans des cellules particulières définies par le croisement des classifications selon l'État et selon l'industrie. Les méthodes de traitement comportent le remplacement des poids probabilistes type par un poids dont la valeur est fixée à un, suivi par un étalonnage.

    Des méthodes plus complexes pourraient être utilisées pour la détection et le traitement des valeurs aberrantes dans la SOII, par exemple des méthodes de détection qui s'appuient sur des fonctions d'influence, des poids probabilistes et des observations multivariées, ou des méthodes de traitement fondées sur la winsorisation ou l'estimation M. L'évaluation des avantages pratiques de ces méthodes plus complexes nécessite la prise en considération de trois facteurs importants. Premièrement, les valeurs très extrêmes sont relativement rares, mais lorsqu'elles se produisent, elles peuvent avoir un effet important sur les estimateurs de la SOII dans les cellules définies par le croisement des États et des industries. Par conséquent, l'évaluation pratique de l'effet des méthodes de détection des valeurs aberrantes se concentre principalement sur les queues des distributions des estimateurs, plutôt que sur les mesures de performance agrégées normalisées, comme la variance ou l'erreur quadratique moyenne. Deuxièmement, les évaluations analytiques et fondées sur des données sont axées sur l'amélioration progressive obtenue grâce à l'utilisation de méthodes plus complexes, comparativement aux résultats produits par les méthodes simples suivies à l'heure actuelle. Troisièmement, l'élaboration des outils susmentionnés nécessite le recours à une théorie asymptotique qui n'est pas tout à fait standard pour refléter les compromis en ce qui a trait aux effets associés à, respectivement, l'accroissement de la taille des échantillons, l'accroissement du nombre de cellules pour la publication et l'évolution des queues des distributions sous jacentes des observations.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20010016259
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    L'échantillonnage défini par un seuil d'inclusion retranche délibérément une partie de la population cible. Pour ce qui est de la statistique des entreprises, la base de sondage et l'échantillon se limitent ordinairement aux entreprises d'une taille donnée, c'est-à-dire comptant au moins un certain nombre d'employés. On élimine ainsi le fardeau de réponse des petites entreprises, mais il faut recourir à des hypothèses pour la proportion non échantillonnée de la population.

    Ce document présente certains résultats empiriques en fonction d'une enquête et de données administratives suédoises, et traite des différentes sources d'erreur et de leur incidence sur l'exactitude des résultats d'ensemble.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 12-001-X198800214583
    Description :

    Cette note d’information met en lumière les points forts et les points faibles du langage SQL.

    Date de diffusion : 1988-12-15
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :