Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

2 facets displayed. 0 facets selected.

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (33)

Tout (33) (0 à 10 de 33 résultats)

  • Stats en bref : 89-20-00062022003
    Description :

    À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux.

    Date de diffusion : 2022-05-24

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100027
    Description :

    Les préoccupations en matière de confidentialité constituent un obstacle à l’application d’analyses à distance, notamment l’apprentissage automatique, sur des données sensibles au sein du nuage. Dans le cadre de ce travail, nous utilisons un schéma de chiffrement totalement homomorphe à niveau pour entraîner un algorithme d’apprentissage automatique supervisé de bout en bout à classer du texte tout en protégeant la confidentialité des points de données d’entrée. Nous entraînons notre réseau neuronal à simple couche sur un important ensemble de données de simulation en fournissant une solution pratique à une tâche de classification de textes réels comprenant de multiples catégories. Pour améliorer à la fois la précision et le temps d’entraînement, nous entraînons un ensemble de tels classificateurs en parallèle par un groupage de cryptogrammes.

    Mots clés : protection des renseignements personnels, apprentissage automatique, chiffrement

    Date de diffusion : 2021-10-29

  • Articles et rapports : 12-001-X202000200005
    Description :

    Dans les enquêtes, les réponses textuelles à des questions ouvertes ont de l’importance, puisqu’elles permettent aux répondants de livrer plus de renseignements sans contrainte. Dans une classification automatique des réponses à des questions ouvertes en apprentissage supervisé, la précision souvent n’est pas assez grande. Comme autre possibilité, une stratégie de classification semi-automatisée peut être envisagée : les réponses sont classifiées automatiquement dans le groupe facile à classer et classifiées manuellement dans le reste. Nous présentons ici une méthode de classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples pour les cas où les réponses textuelles peuvent appartenir simultanément à plusieurs classes. La méthode que nous proposons se trouve à combiner de multiples chaînes de classification probabiliste en évitant des coûts de calcul prohibitifs. L’évaluation du rendement sur trois ensembles de données démontre l’efficacité de cette méthode.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 11-633-X2019003
    Description :

    Le présent rapport donne un aperçu des définitions et des cadres de compétence de la littératie des données, ainsi que des outils d’évaluation utilisés pour la mesurer. Tout cela est fondé sur la littérature existante et les pratiques actuelles dans le monde. La littératie des données, ou la capacité de tirer des renseignements utiles des données, est un concept relativement nouveau. Cependant, on la reconnaît de plus en plus comme un ensemble de compétences essentielles à l’ère de l’information. Les approches existantes à l’égard de la mesure de la littératie des données (des outils d’autoévaluation aux mesures objectives et des évaluations individuelles aux évaluations organisationnelles) sont analysées dans le présent rapport afin d’orienter l’élaboration d’un outil d’évaluation pour la littératie des données au sein de la fonction publique canadienne.

    Date de diffusion : 2019-08-14

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200008
    Description :

    De nos jours, il y a une non-réponse élevée dans de nombreuses enquêtes-échantillons, y compris d’importantes enquêtes menées par des organismes statistiques gouvernementaux. Une collecte de données adaptative peut être avantageuse dans cette situation : il est possible de réduire le biais de non-réponse dans les estimations de l’enquête, jusqu’à un certain point, en produisant un ensemble de répondants bien équilibré. Les variables auxiliaires ont un double objectif. Utilisées au cours de la phase d’estimation, elles réduisent le biais, sans toutefois l’éliminer complètement, par une pondération ajustée par calage. Au cours de la phase précédente de collecte de données adaptative, les variables auxiliaires jouent également un rôle important : elles contribuent à réduire le déséquilibre dans l’ensemble final de répondants. Dans le contexte de cette utilisation combinée de variables auxiliaires, le présent article est consacré à un examen de l’écart entre l’estimation par calage et l’estimation sans biais (réponse complète). Nous montrons que cet écart est la somme de deux composantes. La composante réductible peut être réduite, par la collecte de données adaptative, jusqu’à zéro si une réponse parfaitement équilibrée est obtenue par rapport à un vecteur auxiliaire choisi. En revanche, la composante résistante ne varie pas ou varie peu sous l’effet d’une réponse mieux équilibrée; elle représente une partie de l’écart qu’un plan adaptatif ne permet pas d’éliminer. La taille relative de cette première composante est un indicateur de l’avantage qu’on peut tirer d’un plan de sondage adaptatif.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2019002
    Description :

    La collecte de données d’enquête au moyen des appareils mobiles, comme les tablettes électroniques et les téléphones intelligents, a fait son apparition au Canada. Cependant, on en sait peu au sujet de la représentativité des données recueillies au moyen de ces appareils. En mars 2017, Statistique Canada a commandé une collecte de données d’enquête par l’intermédiaire de l’application Carotte Points Santé et a inclus 11 questions dans l’enquête réalisée sur l’application mobile Carotte Points Santé (Carotte) tirées de l’Enquête sur la santé dans les collectivités canadiennes (ESCC) de 2017.

    Date de diffusion : 2019-06-04

  • Articles et rapports : 11-633-X2018016
    Description :

    Le couplage d’enregistrements a été reconnu comme mécanisme possible pour inclure des renseignements sur les traitements dans le Registre canadien du cancer (RCC). Le Projet de couplage des données sur le traitement du cancer au Canada (PCDTCC) a pour objet d’ajouter des données sur les traitements chirurgicaux au RCC. La Base de données sur les congés des patients (BDCP) et le Système national d’information sur les soins ambulatoires (SNISA) ont été couplés au RCC, et les données sur les traitements chirurgicaux ont été extraites. Le projet a été financé dans le cadre de l’Initiative de développement concerté des données du Partenariat canadien contre le cancer.

    Le PCDTCC a été conçu comme une étude de faisabilité dans le cadre de laquelle les dossiers de patients contenus dans le RCC seraient couplés aux enregistrements sur les traitements chirurgicaux contenus dans la BDCP et le SNISA, tenus par l’Institut canadien d’information sur la santé. La cohorte cible pour le couplage des données sur les traitements chirurgicaux était les patients âgés de 19 ans ou plus inscrits au RCC (de 2010 à 2012). Le couplage a été fait dans l’Environnement de couplage de données sociales (ECDS) de Statistique Canada.

    Date de diffusion : 2018-03-27
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (33)

Analyses (33) (0 à 10 de 33 résultats)

  • Stats en bref : 89-20-00062022003
    Description :

    À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux.

    Date de diffusion : 2022-05-24

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100027
    Description :

    Les préoccupations en matière de confidentialité constituent un obstacle à l’application d’analyses à distance, notamment l’apprentissage automatique, sur des données sensibles au sein du nuage. Dans le cadre de ce travail, nous utilisons un schéma de chiffrement totalement homomorphe à niveau pour entraîner un algorithme d’apprentissage automatique supervisé de bout en bout à classer du texte tout en protégeant la confidentialité des points de données d’entrée. Nous entraînons notre réseau neuronal à simple couche sur un important ensemble de données de simulation en fournissant une solution pratique à une tâche de classification de textes réels comprenant de multiples catégories. Pour améliorer à la fois la précision et le temps d’entraînement, nous entraînons un ensemble de tels classificateurs en parallèle par un groupage de cryptogrammes.

    Mots clés : protection des renseignements personnels, apprentissage automatique, chiffrement

    Date de diffusion : 2021-10-29

  • Articles et rapports : 12-001-X202000200005
    Description :

    Dans les enquêtes, les réponses textuelles à des questions ouvertes ont de l’importance, puisqu’elles permettent aux répondants de livrer plus de renseignements sans contrainte. Dans une classification automatique des réponses à des questions ouvertes en apprentissage supervisé, la précision souvent n’est pas assez grande. Comme autre possibilité, une stratégie de classification semi-automatisée peut être envisagée : les réponses sont classifiées automatiquement dans le groupe facile à classer et classifiées manuellement dans le reste. Nous présentons ici une méthode de classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples pour les cas où les réponses textuelles peuvent appartenir simultanément à plusieurs classes. La méthode que nous proposons se trouve à combiner de multiples chaînes de classification probabiliste en évitant des coûts de calcul prohibitifs. L’évaluation du rendement sur trois ensembles de données démontre l’efficacité de cette méthode.

    Date de diffusion : 2020-12-15

  • Articles et rapports : 11-633-X2019003
    Description :

    Le présent rapport donne un aperçu des définitions et des cadres de compétence de la littératie des données, ainsi que des outils d’évaluation utilisés pour la mesurer. Tout cela est fondé sur la littérature existante et les pratiques actuelles dans le monde. La littératie des données, ou la capacité de tirer des renseignements utiles des données, est un concept relativement nouveau. Cependant, on la reconnaît de plus en plus comme un ensemble de compétences essentielles à l’ère de l’information. Les approches existantes à l’égard de la mesure de la littératie des données (des outils d’autoévaluation aux mesures objectives et des évaluations individuelles aux évaluations organisationnelles) sont analysées dans le présent rapport afin d’orienter l’élaboration d’un outil d’évaluation pour la littératie des données au sein de la fonction publique canadienne.

    Date de diffusion : 2019-08-14

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200008
    Description :

    De nos jours, il y a une non-réponse élevée dans de nombreuses enquêtes-échantillons, y compris d’importantes enquêtes menées par des organismes statistiques gouvernementaux. Une collecte de données adaptative peut être avantageuse dans cette situation : il est possible de réduire le biais de non-réponse dans les estimations de l’enquête, jusqu’à un certain point, en produisant un ensemble de répondants bien équilibré. Les variables auxiliaires ont un double objectif. Utilisées au cours de la phase d’estimation, elles réduisent le biais, sans toutefois l’éliminer complètement, par une pondération ajustée par calage. Au cours de la phase précédente de collecte de données adaptative, les variables auxiliaires jouent également un rôle important : elles contribuent à réduire le déséquilibre dans l’ensemble final de répondants. Dans le contexte de cette utilisation combinée de variables auxiliaires, le présent article est consacré à un examen de l’écart entre l’estimation par calage et l’estimation sans biais (réponse complète). Nous montrons que cet écart est la somme de deux composantes. La composante réductible peut être réduite, par la collecte de données adaptative, jusqu’à zéro si une réponse parfaitement équilibrée est obtenue par rapport à un vecteur auxiliaire choisi. En revanche, la composante résistante ne varie pas ou varie peu sous l’effet d’une réponse mieux équilibrée; elle représente une partie de l’écart qu’un plan adaptatif ne permet pas d’éliminer. La taille relative de cette première composante est un indicateur de l’avantage qu’on peut tirer d’un plan de sondage adaptatif.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 11-633-X2019002
    Description :

    La collecte de données d’enquête au moyen des appareils mobiles, comme les tablettes électroniques et les téléphones intelligents, a fait son apparition au Canada. Cependant, on en sait peu au sujet de la représentativité des données recueillies au moyen de ces appareils. En mars 2017, Statistique Canada a commandé une collecte de données d’enquête par l’intermédiaire de l’application Carotte Points Santé et a inclus 11 questions dans l’enquête réalisée sur l’application mobile Carotte Points Santé (Carotte) tirées de l’Enquête sur la santé dans les collectivités canadiennes (ESCC) de 2017.

    Date de diffusion : 2019-06-04

  • Articles et rapports : 11-633-X2018016
    Description :

    Le couplage d’enregistrements a été reconnu comme mécanisme possible pour inclure des renseignements sur les traitements dans le Registre canadien du cancer (RCC). Le Projet de couplage des données sur le traitement du cancer au Canada (PCDTCC) a pour objet d’ajouter des données sur les traitements chirurgicaux au RCC. La Base de données sur les congés des patients (BDCP) et le Système national d’information sur les soins ambulatoires (SNISA) ont été couplés au RCC, et les données sur les traitements chirurgicaux ont été extraites. Le projet a été financé dans le cadre de l’Initiative de développement concerté des données du Partenariat canadien contre le cancer.

    Le PCDTCC a été conçu comme une étude de faisabilité dans le cadre de laquelle les dossiers de patients contenus dans le RCC seraient couplés aux enregistrements sur les traitements chirurgicaux contenus dans la BDCP et le SNISA, tenus par l’Institut canadien d’information sur la santé. La cohorte cible pour le couplage des données sur les traitements chirurgicaux était les patients âgés de 19 ans ou plus inscrits au RCC (de 2010 à 2012). Le couplage a été fait dans l’Environnement de couplage de données sociales (ECDS) de Statistique Canada.

    Date de diffusion : 2018-03-27
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :