Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (36)

Tout (36) (0 à 10 de 36 résultats)

  • Articles et rapports : 11-522-X202200100008
    Description : La publication de davantage de données présentant un niveau élevé de désagrégation peut accroître la transparence et fournir des renseignements importants sur les groupes sous-représentés. L’élaboration d’options d’accès plus facilement disponibles augmente la quantité d’information disponible et produite par les chercheurs. Accroître l’étendue et la profondeur de l’information diffusée permet une meilleure représentation de la population canadienne, mais impose également à Statistique Canada une plus grande responsabilité quant à la manière dont cela est fait, qui se doit de préserver la confidentialité; il est donc utile d’élaborer des outils qui nous permettent de quantifier le risque lié à la granularité accrue des données. Afin d’évaluer le risque d’une attaque par reconstruction de base de données sur les données de recensement publiées par Statistique Canada, nous appliquons la stratégie de l’U.S. Census Bureau, qui met en avant une méthode utilisant un solveur de satisfaisabilité booléenne (SAT) pour reconstruire les attributs individuels des résidents d’un îlot hypothétique du recensement américain, basé uniquement sur un tableau de statistiques récapitulatives. Nous prévoyons d’étendre cette technique pour tenter de reconstruire une petite fraction des microdonnées de recensement de Statistique Canada. Dans cet article, nous aborderons nos conclusions, les défis liés à l’élaboration d’une attaque par reconstruction et l’effet d’une mesure de confidentialité existante pour atténuer ces attaques. En outre, nous comparerons notre stratégie actuelle à d’autres méthodes potentielles utilisées aux fins de protection des données, en particulier la publication de données tabulaires perturbées par un mécanisme aléatoire, tel que la confidentialité différentielle.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-633-X2023003
    Description : Ce document couvre les travaux universitaires et les stratégies d’estimation utilisées par les organismes nationaux de statistique. Il aborde la question de la production d’estimations géographiques détaillées au niveau du quadrillage pour le Canada en étudiant la mesure du produit intérieur brut infraprovincial et infraterritorial à l’aide du Yukon comme scénario d’essai.
    Date de diffusion : 2023-12-15

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100017
    Description : L’apparition de la pandémie de COVID-19 a contraint le gouvernement du Canada à fournir des renseignements pertinents et actuels pour appuyer la prise de décisions sur nombre de questions, notamment l’acquisition et le déploiement d’équipements de protection individuelle (EPI). Notre équipe a élaboré un modèle épidémiologique compartimental à partir d’une base de code existante pour projeter la demande d’EPI dans plusieurs scénarios épidémiologiques. Ce modèle a été ensuite amélioré au moyen de techniques de science des données, ce qui a permis de rapidement élaborer et diffuser les résultats du modèle pour éclairer les décisions stratégiques.

    Mots clés : COVID-19; SARS-CoV-2; modèle épidémiologique; science des données; équipement de protection individuelle (EPI); SEIR

    Date de diffusion : 2021-10-22

  • Articles et rapports : 11-522-X202100100002
    Description :

    Un cadre pour l’utilisation des processus d’apprentissage automatique de façon responsable a été élaboré à Statistique Canada. Le cadre comprend des lignes directrices pour l’usage responsable de l’apprentissage automatique et une liste de contrôle connexe, qui sont organisées en quatre thèmes : le respect des personnes; le respect des données; des méthodes éprouvées; une application rigoureuse. Les quatre thèmes mis en commun assurent l'utilisation éthique des algorithmes et des résultats de l’apprentissage automatique. Le cadre est ancré dans une vision qui cherche à créer un milieu de travail moderne et à fournir une orientation et un soutien à ceux qui utilisent les techniques d’apprentissage automatique. Il s’applique à tous les programmes et projets statistiques menés par Statistique Canada qui utilisent des algorithmes d’apprentissage automatique. Cela comprend les algorithmes d’apprentissage supervisés et non supervisés. Le cadre et les lignes directrices le supportant seront présentés dans un premier temps. Le processus de revue des projets utilisant l’apprentissage automatique, soit la façon dont le cadre est appliqué aux projets de Statistique Canada, sera ensuite expliqué. Finalement, des travaux futurs pour améliorer le cadre seront décrits.

    Mots Clés : Apprentissage automatique responsable, explicabilité, éthique

    Date de diffusion : 2021-10-15

  • Articles et rapports : 11-522-X202100100003
    Description :

    La taille et la richesse croissantes des données numériques permettent de modéliser des relations et des interactions plus complexes, ce qui est le point fort de l’apprentissage automatique. Dans notre étude, nous avons appliqué le boosting de gradient au système néerlandais d’ensembles de données statistiques sociales pour estimer les probabilités de transition vers la pauvreté et de sortie de la pauvreté. Les estimations individuelles sont raisonnables, mais la méthode combinée avec SHAP et des modèles de substitution globaux apporte des avantages, principalement : le classement simultané de centaines de caractéristiques selon leur importance, une vue détaillée de leur relation avec les probabilités de transition, et l’identification fondée sur les données de sous-populations ayant des probabilités de transition relativement élevées et faibles. En outre, nous décomposons la différence de l’importance des caractéristiques entre la population générale et les sous-populations entre un effet de fréquence et un effet de la caractéristique. Nous mettons en garde contre les possibilités de mauvaise interprétation et discutons des futurs travaux envisageables.

    Mots clés : classification; explicabilité; boosting de gradient; événement de la vie; facteurs de risque; décomposition SHAP.

    Date de diffusion : 2021-10-15

  • Articles et rapports : 11-633-X2020001
    Description :

    La présente étude porte sur différentes mesures de la diversité des revenus au sein d’unités géographiques et les applique en utilisant des données sur le revenu détaillées au niveau géographique qui sont dérivées des déclarations de revenus. Elle permet de faire ressortir les caractéristiques de ces mesures, en particulier leur facilité d’interprétation et leur adaptabilité à la décomposition à divers niveaux d’analyse, en allant des quartiers aux immeubles d’appartements individuels. L’analyse porte sur trois mesures : l’indice de dissimilarité, l’indice de théorie de l’information et l’indice de divergence (Indice-D). L’accent est mis en particulier sur l’indice-D, car il s’agit de l’indice qui décrit le plus efficacement la différence entre la répartition des revenus au niveau sous métropolitain (p. ex. quartiers) et celle au niveau métropolitain (c.-à-d. le degré de tri du revenu pour tous les quartiers). De plus, l’indice-D peut systématiquement mesurer les contributions du tri du revenu au sein des quartiers (p. ex. pour tous les immeubles d’appartements individuels) par rapport à la diversité des revenus à l’échelle du quartier et de la région métropolitaine.

    Date de diffusion : 2020-01-21

  • Articles et rapports : 82-003-X201901200003
    Description :

    Cet article fournit une description des Cohortes santé et environnement du recensement canadien (CSERCan), qui sont des ensembles de données couplées, fondés sur la population à domicile au moment de la collecte du recensement. Les ensembles de données des CSERCan constituent des ressources nationales en matière de données qui sont abondantes et qui peuvent servir à mesurer et à examiner les inégalités en matière de santé selon les aspects socioéconomiques et ethnoculturels lors de différentes périodes et à divers endroits. Ils peuvent également servir à examiner les effets de l'exposition à des facteurs environnementaux sur la santé humaine.

    Date de diffusion : 2019-12-18

  • Articles et rapports : 11-633-X2019004
    Description :

    La présente étude montre comment estimer l’effet de la frontière canado-américaine sur le commerce de marchandises non énergétiques au niveau infraprovincial et au sein des États en utilisant le Fichier des transports terrestres de Statistique Canada et des données sur le commerce intérieur des États-Unis. Dans le cadre de l’étude, on a recours à un cadre de modèle gravitationnel afin de comparer les flux commerciaux transfrontaliers et intérieurs au sein de 201 régions du Canada et des États-Unis au cours de l’année 2012. L’étude permet de montrer que quelque 25 ans après la ratification de l’Accord de libre-échange Canada–États-Unis (prédécesseur de l’Accord de libre-échange nord-américain), le coût du commerce transfrontalier des marchandises représente toujours des droits tarifaires de 30 % sur le commerce bilatéral entre les régions du Canada et des États-Unis. La présente étude permet également de montrer la façon d’utiliser ces estimations ainsi que des méthodes générales d’équilibre de pseudo maximum de vraisemblance de Poisson pour décrire l’effet de changements dans les coûts liés à la frontière sur les structures du commerce nord-américain et du bien-être régional.

    Date de diffusion : 2019-09-24
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (34)

Analyses (34) (0 à 10 de 34 résultats)

  • Articles et rapports : 11-522-X202200100008
    Description : La publication de davantage de données présentant un niveau élevé de désagrégation peut accroître la transparence et fournir des renseignements importants sur les groupes sous-représentés. L’élaboration d’options d’accès plus facilement disponibles augmente la quantité d’information disponible et produite par les chercheurs. Accroître l’étendue et la profondeur de l’information diffusée permet une meilleure représentation de la population canadienne, mais impose également à Statistique Canada une plus grande responsabilité quant à la manière dont cela est fait, qui se doit de préserver la confidentialité; il est donc utile d’élaborer des outils qui nous permettent de quantifier le risque lié à la granularité accrue des données. Afin d’évaluer le risque d’une attaque par reconstruction de base de données sur les données de recensement publiées par Statistique Canada, nous appliquons la stratégie de l’U.S. Census Bureau, qui met en avant une méthode utilisant un solveur de satisfaisabilité booléenne (SAT) pour reconstruire les attributs individuels des résidents d’un îlot hypothétique du recensement américain, basé uniquement sur un tableau de statistiques récapitulatives. Nous prévoyons d’étendre cette technique pour tenter de reconstruire une petite fraction des microdonnées de recensement de Statistique Canada. Dans cet article, nous aborderons nos conclusions, les défis liés à l’élaboration d’une attaque par reconstruction et l’effet d’une mesure de confidentialité existante pour atténuer ces attaques. En outre, nous comparerons notre stratégie actuelle à d’autres méthodes potentielles utilisées aux fins de protection des données, en particulier la publication de données tabulaires perturbées par un mécanisme aléatoire, tel que la confidentialité différentielle.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-633-X2023003
    Description : Ce document couvre les travaux universitaires et les stratégies d’estimation utilisées par les organismes nationaux de statistique. Il aborde la question de la production d’estimations géographiques détaillées au niveau du quadrillage pour le Canada en étudiant la mesure du produit intérieur brut infraprovincial et infraterritorial à l’aide du Yukon comme scénario d’essai.
    Date de diffusion : 2023-12-15

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100017
    Description : L’apparition de la pandémie de COVID-19 a contraint le gouvernement du Canada à fournir des renseignements pertinents et actuels pour appuyer la prise de décisions sur nombre de questions, notamment l’acquisition et le déploiement d’équipements de protection individuelle (EPI). Notre équipe a élaboré un modèle épidémiologique compartimental à partir d’une base de code existante pour projeter la demande d’EPI dans plusieurs scénarios épidémiologiques. Ce modèle a été ensuite amélioré au moyen de techniques de science des données, ce qui a permis de rapidement élaborer et diffuser les résultats du modèle pour éclairer les décisions stratégiques.

    Mots clés : COVID-19; SARS-CoV-2; modèle épidémiologique; science des données; équipement de protection individuelle (EPI); SEIR

    Date de diffusion : 2021-10-22

  • Articles et rapports : 11-522-X202100100002
    Description :

    Un cadre pour l’utilisation des processus d’apprentissage automatique de façon responsable a été élaboré à Statistique Canada. Le cadre comprend des lignes directrices pour l’usage responsable de l’apprentissage automatique et une liste de contrôle connexe, qui sont organisées en quatre thèmes : le respect des personnes; le respect des données; des méthodes éprouvées; une application rigoureuse. Les quatre thèmes mis en commun assurent l'utilisation éthique des algorithmes et des résultats de l’apprentissage automatique. Le cadre est ancré dans une vision qui cherche à créer un milieu de travail moderne et à fournir une orientation et un soutien à ceux qui utilisent les techniques d’apprentissage automatique. Il s’applique à tous les programmes et projets statistiques menés par Statistique Canada qui utilisent des algorithmes d’apprentissage automatique. Cela comprend les algorithmes d’apprentissage supervisés et non supervisés. Le cadre et les lignes directrices le supportant seront présentés dans un premier temps. Le processus de revue des projets utilisant l’apprentissage automatique, soit la façon dont le cadre est appliqué aux projets de Statistique Canada, sera ensuite expliqué. Finalement, des travaux futurs pour améliorer le cadre seront décrits.

    Mots Clés : Apprentissage automatique responsable, explicabilité, éthique

    Date de diffusion : 2021-10-15

  • Articles et rapports : 11-522-X202100100003
    Description :

    La taille et la richesse croissantes des données numériques permettent de modéliser des relations et des interactions plus complexes, ce qui est le point fort de l’apprentissage automatique. Dans notre étude, nous avons appliqué le boosting de gradient au système néerlandais d’ensembles de données statistiques sociales pour estimer les probabilités de transition vers la pauvreté et de sortie de la pauvreté. Les estimations individuelles sont raisonnables, mais la méthode combinée avec SHAP et des modèles de substitution globaux apporte des avantages, principalement : le classement simultané de centaines de caractéristiques selon leur importance, une vue détaillée de leur relation avec les probabilités de transition, et l’identification fondée sur les données de sous-populations ayant des probabilités de transition relativement élevées et faibles. En outre, nous décomposons la différence de l’importance des caractéristiques entre la population générale et les sous-populations entre un effet de fréquence et un effet de la caractéristique. Nous mettons en garde contre les possibilités de mauvaise interprétation et discutons des futurs travaux envisageables.

    Mots clés : classification; explicabilité; boosting de gradient; événement de la vie; facteurs de risque; décomposition SHAP.

    Date de diffusion : 2021-10-15

  • Articles et rapports : 11-633-X2020001
    Description :

    La présente étude porte sur différentes mesures de la diversité des revenus au sein d’unités géographiques et les applique en utilisant des données sur le revenu détaillées au niveau géographique qui sont dérivées des déclarations de revenus. Elle permet de faire ressortir les caractéristiques de ces mesures, en particulier leur facilité d’interprétation et leur adaptabilité à la décomposition à divers niveaux d’analyse, en allant des quartiers aux immeubles d’appartements individuels. L’analyse porte sur trois mesures : l’indice de dissimilarité, l’indice de théorie de l’information et l’indice de divergence (Indice-D). L’accent est mis en particulier sur l’indice-D, car il s’agit de l’indice qui décrit le plus efficacement la différence entre la répartition des revenus au niveau sous métropolitain (p. ex. quartiers) et celle au niveau métropolitain (c.-à-d. le degré de tri du revenu pour tous les quartiers). De plus, l’indice-D peut systématiquement mesurer les contributions du tri du revenu au sein des quartiers (p. ex. pour tous les immeubles d’appartements individuels) par rapport à la diversité des revenus à l’échelle du quartier et de la région métropolitaine.

    Date de diffusion : 2020-01-21

  • Articles et rapports : 82-003-X201901200003
    Description :

    Cet article fournit une description des Cohortes santé et environnement du recensement canadien (CSERCan), qui sont des ensembles de données couplées, fondés sur la population à domicile au moment de la collecte du recensement. Les ensembles de données des CSERCan constituent des ressources nationales en matière de données qui sont abondantes et qui peuvent servir à mesurer et à examiner les inégalités en matière de santé selon les aspects socioéconomiques et ethnoculturels lors de différentes périodes et à divers endroits. Ils peuvent également servir à examiner les effets de l'exposition à des facteurs environnementaux sur la santé humaine.

    Date de diffusion : 2019-12-18

  • Articles et rapports : 11-633-X2019004
    Description :

    La présente étude montre comment estimer l’effet de la frontière canado-américaine sur le commerce de marchandises non énergétiques au niveau infraprovincial et au sein des États en utilisant le Fichier des transports terrestres de Statistique Canada et des données sur le commerce intérieur des États-Unis. Dans le cadre de l’étude, on a recours à un cadre de modèle gravitationnel afin de comparer les flux commerciaux transfrontaliers et intérieurs au sein de 201 régions du Canada et des États-Unis au cours de l’année 2012. L’étude permet de montrer que quelque 25 ans après la ratification de l’Accord de libre-échange Canada–États-Unis (prédécesseur de l’Accord de libre-échange nord-américain), le coût du commerce transfrontalier des marchandises représente toujours des droits tarifaires de 30 % sur le commerce bilatéral entre les régions du Canada et des États-Unis. La présente étude permet également de montrer la façon d’utiliser ces estimations ainsi que des méthodes générales d’équilibre de pseudo maximum de vraisemblance de Poisson pour décrire l’effet de changements dans les coûts liés à la frontière sur les structures du commerce nord-américain et du bien-être régional.

    Date de diffusion : 2019-09-24
Références (2)

Références (2) ((2 résultats))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X20050019476
    Description :

    La communication montrera comment, avec les données publiées par Statistique Canada et disponibles à partir des bibliothèques membres de la CRÉPUQ, une approche d'appariement via le code postal permet de relier les données du fichier des résultats à un ensemble de variables contextuelles. Ces variables pourraient ainsi concourir à la production, à titre exploratoire, d'un indice servant à une meilleure explication de la performance différenciée des élèves des écoles. Sous l'angle des retombées, l'indice envisagé pourrait illustrer encore davantage les limites des classements d'élèves et d'écoles qui ne prennent pas suffisamment en compte ces informations.

    Date de diffusion : 2007-03-02

  • Enquêtes et programmes statistiques — Documentation : 68-514-X
    Description :

    L'approche utilisée par Statistique Canada pour la collecte et la diffusion de données économiques a évolué depuis plusieurs décennies vers un système de collecte et d'estimation fortement intégré qui alimente le cadre du Système de comptabilité nationale du Canada.

    L'élément clé de cette approche a été la création de l'Enquête unifiée auprès des entreprises, qui avait pour objet d'améliorer l'uniformité, la cohérence, l'ampleur et la profondeur des données des enquêtes-entreprises.

    L'EUE a atteint cet objectif en regroupant dans un cadre commun un grand nombre d'enquêtes-entreprises annuelles du Canada. Ce cadre comprenait une seule base de sondage, un schéma pour le plan d'échantillonnage, l'harmonisation conceptuelle du contenu des enquêtes, divers moyens d'utiliser les données administratives pertinentes, une collecte intégrée des données, des outils de traitement et d'analyse, et un entrepôt central de données.

    Date de diffusion : 2006-11-20
Date de modification :