Méthodes statistiques

Aller au contenu principal
Aller au pied de page

Sélection de la langue

English

Recherche et menus

Recherche et menus

Rechercher

Indicateurs clés

Région géographique choisie : Canada

Investissement dans la construction de logements neufs - Canada
(Août 2018)

5 106,5 millions de dollars

-2,2 %

(variation sur 12 mois)
Investissement en construction résidentielle - Canada
(Deuxième trimestre de 2018)

36 023,7 millions de dollars

7,8 %

(variation d'une année à l'autre)

Passer au filtres. Voir les résultats.

Résultats

Tout (202)

Tout (202) (0 à 10 de 202 résultats)

1. Méthode de désagrégation fondée sur un modèle pour l’estimation des compétences des adultes Archivé
Articles et rapports : 11-522-X202200100003
Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
Date de diffusion : 2024-03-25
2. Prédiction QR pour l’intégration de données statistiques
Articles et rapports : 12-001-X202300200009
Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
Date de diffusion : 2024-01-03
3. Méthodes statistiques d’échantillonnage de populations recoupées sous contraintes
Articles et rapports : 12-001-X202300200011
Description : Le présent article permet d’examiner des plans d’échantillonnage pour les populations qui peuvent être représentées sous forme de matrice N × M. Par exemple, pour l’étude des activités touristiques, les lignes peuvent représenter les endroits visités par les touristes et les colonnes, les jours pendant la saison touristique. L’objectif est d’échantillonner les cellules (i, j) de la matrice lorsque le nombre de sélections dans chaque ligne et chaque colonne est a priori fixe. La taille d’échantillon de la i^e ligne représente le nombre de cellules sélectionnées dans la ligne i, tandis que la taille d’échantillon de la j^e colonne correspond au nombre de cellules sélectionnées dans la colonne j. Un plan d’échantillonnage matriciel donne une matrice d’indicateurs d’échantillon N × M, avec l’entrée 1 à la position (i, j) si la cellule (i, j) est échantillonnée, et 0 autrement. Le premier plan d’échantillonnage matriciel étudié comporte un niveau d’échantillonnage et les tailles d’échantillon des lignes et des colonnes sont établies à l’avance : les tailles d’échantillon des lignes peuvent varier, tandis que les tailles d’échantillon des colonnes sont toutes identiques. Nous pouvons considérer les marges fixes comme des contraintes d’équilibrage et nous examinons les algorithmes possibles pour la sélection de ces échantillons. Nous abordons ensuite un nouvel estimateur de variance de l’estimateur de Horvitz-Thompson pour la moyenne de la variable d’enquête y. Plusieurs niveaux d’échantillonnage peuvent être requis pour tenir compte de toutes les contraintes, ce qui nécessite des plans d’échantillonnage matriciel à plusieurs niveaux, que nous étudions également.
Date de diffusion : 2024-01-03
4. Commentaires de Camelia Goga et Anne Ruiz-Gazen à propos de l’article « Les contributions de Jean-Claude Deville à la théorie des sondages et à la statistique officielle » : Jean-Claude Deville : passionné de mathématiques, chercheur de haut vol et visionnaire
Articles et rapports : 12-001-X202300200013
Description : Jean-Claude Deville compte parmi les plus éminents chercheurs dans la théorie et la pratique des sondages. Ses travaux sur l’échantillonnage équilibré, l’échantillonnage indirect et le calage en particulier sont reconnus au niveau international et largement utilisés en statistique officielle. Il est également pionnier dans le domaine de l’analyse statistique des données fonctionnelles. Le présent article nous donne l’occasion de reconnaître l’immense travail qu’il a accompli, et de lui rendre hommage. Dans la première partie, nous évoquons brièvement la contribution de Jean-Claude à l’analyse statistique en composantes principales fonctionnelles. Nous détaillons également certaines extensions récentes de ses travaux au croisement des domaines de l’analyse statistique des données fonctionnelles et de la théorie des sondages. Dans la seconde partie, nous présentons une extension de son travail dans le domaine de l’échantillonnage indirect. Ces résultats de recherche sont motivés par des applications concrètes et illustrent l’influence de Jean-Claude sur notre travail de chercheuses.
Date de diffusion : 2024-01-03
5. Commentaires de J.N.K. Rao à propos de l’article « Contrôle de la divulgation statistique et avancées dans la protection officielle des renseignements : à la mémoire de Chris Skinner »
Articles et rapports : 12-001-X202300100006
Description : Mes commentaires sont répartis en trois volets : 1) bref compte rendu de mon association professionnelle avec Chris Skinner, 2) observations sur les réalisations de Skinner en matière de contrôle de la divulgation statistique et 3) propos sur la production d’inférences à partir de données d’enquête masquées.
Date de diffusion : 2023-06-30
6. Attrition dans l'Étude longitudinale et internationale des adultes, de la vague 1 (2012) à la vague 4 (2018)
Articles et rapports : 89-648-X2022001
Description :
Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

Date de diffusion : 2022-11-14
7. Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Articles et rapports : 12-001-X202200100003
Description :
L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

Date de diffusion : 2022-06-21
8. Rendement relatif des méthodes d’enquête fondées sur l’estimation par la régression assistée par un modèle Archivé
Articles et rapports : 11-522-X202100100009
Description :
Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.
Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

Date de diffusion : 2021-10-29
9. Modèles de forêts aléatoires, une proposition pour l’analyse de stratégies de vérification sélective Archivé
Articles et rapports : 11-522-X202100100021
Description : L’Institut national italien de statistique (Istat) a lancé un nouveau projet relatif aux processus statistiques à court terme, afin de respecter la future nouvelle réglementation européenne visant à diffuser des estimations plus rapidement. L’évaluation et l’analyse du processus d’enquête actuel de l’enquête à court terme sur le chiffre d’affaires dans les services (FAS) visent à relever la façon dont les meilleures caractéristiques des méthodes et pratiques actuelles peuvent être exploitées pour concevoir un processus plus « efficace ». Le projet devrait, en particulier, fournir des méthodes permettant d’appliquer en général d’importantes économies d’échelle, de portée et de connaissances au contexte de production des enquêtes à court terme, qui ont généralement recours à un nombre restreint de ressources. L’analyse du processus TEL QUEL a révélé que l’enquête FAS entraînait des coûts substantiels de vérification et d’imputation, en particulier du fait de l’importance du suivi et de la vérification interactive utilisés pour tous les types d’erreurs détectées. Dans cette optique, nous avons essayé d’exploiter les leçons retenues en participant au Groupe de haut niveau sur la modernisation des statistiques officielles (GHN-MSO, CEE-ONU) sur l’utilisation de l’apprentissage automatique dans les statistiques officielles. Dans cette étude, nous présentons une première expérience utilisant les modèles de forêt aléatoire pour : (i) prédire les unités représentant des données « douteuses », (ii) évaluer l’utilisation du potentiel de prédiction sur de nouvelles données et (iii) explorer des données afin de relever des règles et des tendances cachées. Nous nous concentrons en particulier sur le recours à la modélisation par forêt aléatoire pour comparer certaines autres méthodes en matière d’efficacité de la prédiction d’erreurs et pour traiter des aspects principaux de la nouvelle conception du schéma de vérification et d’imputation.
Date de diffusion : 2021-10-15
10. Mesure de la proximité des services et commodités : ensemble expérimental d'indicateurs pour les quartiers et les localités
Articles et rapports : 18-001-X2020001
Description :
Le présent article décrit la méthodologie qui a utilisée pour générer la première mouture de cette base de données, qui contient les résultats obtenus à partir d'un premier ensemble de dix mesures. Les méthodes de calcul sont présentées sous forme de modèle généralisable, car il est maintenant possible d'appliquer des méthodes similaires à une multitude d'autres services et commodités, avec diverses autres spécifications.
Date de diffusion : 2021-02-15

Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (186)

Analyses (186) (0 à 10 de 186 résultats)

1. Méthode de désagrégation fondée sur un modèle pour l’estimation des compétences des adultes Archivé
Articles et rapports : 11-522-X202200100003
Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
Date de diffusion : 2024-03-25
2. Prédiction QR pour l’intégration de données statistiques
Articles et rapports : 12-001-X202300200009
Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
Date de diffusion : 2024-01-03
3. Méthodes statistiques d’échantillonnage de populations recoupées sous contraintes
Articles et rapports : 12-001-X202300200011
Description : Le présent article permet d’examiner des plans d’échantillonnage pour les populations qui peuvent être représentées sous forme de matrice N × M. Par exemple, pour l’étude des activités touristiques, les lignes peuvent représenter les endroits visités par les touristes et les colonnes, les jours pendant la saison touristique. L’objectif est d’échantillonner les cellules (i, j) de la matrice lorsque le nombre de sélections dans chaque ligne et chaque colonne est a priori fixe. La taille d’échantillon de la i^e ligne représente le nombre de cellules sélectionnées dans la ligne i, tandis que la taille d’échantillon de la j^e colonne correspond au nombre de cellules sélectionnées dans la colonne j. Un plan d’échantillonnage matriciel donne une matrice d’indicateurs d’échantillon N × M, avec l’entrée 1 à la position (i, j) si la cellule (i, j) est échantillonnée, et 0 autrement. Le premier plan d’échantillonnage matriciel étudié comporte un niveau d’échantillonnage et les tailles d’échantillon des lignes et des colonnes sont établies à l’avance : les tailles d’échantillon des lignes peuvent varier, tandis que les tailles d’échantillon des colonnes sont toutes identiques. Nous pouvons considérer les marges fixes comme des contraintes d’équilibrage et nous examinons les algorithmes possibles pour la sélection de ces échantillons. Nous abordons ensuite un nouvel estimateur de variance de l’estimateur de Horvitz-Thompson pour la moyenne de la variable d’enquête y. Plusieurs niveaux d’échantillonnage peuvent être requis pour tenir compte de toutes les contraintes, ce qui nécessite des plans d’échantillonnage matriciel à plusieurs niveaux, que nous étudions également.
Date de diffusion : 2024-01-03
4. Commentaires de Camelia Goga et Anne Ruiz-Gazen à propos de l’article « Les contributions de Jean-Claude Deville à la théorie des sondages et à la statistique officielle » : Jean-Claude Deville : passionné de mathématiques, chercheur de haut vol et visionnaire
Articles et rapports : 12-001-X202300200013
Description : Jean-Claude Deville compte parmi les plus éminents chercheurs dans la théorie et la pratique des sondages. Ses travaux sur l’échantillonnage équilibré, l’échantillonnage indirect et le calage en particulier sont reconnus au niveau international et largement utilisés en statistique officielle. Il est également pionnier dans le domaine de l’analyse statistique des données fonctionnelles. Le présent article nous donne l’occasion de reconnaître l’immense travail qu’il a accompli, et de lui rendre hommage. Dans la première partie, nous évoquons brièvement la contribution de Jean-Claude à l’analyse statistique en composantes principales fonctionnelles. Nous détaillons également certaines extensions récentes de ses travaux au croisement des domaines de l’analyse statistique des données fonctionnelles et de la théorie des sondages. Dans la seconde partie, nous présentons une extension de son travail dans le domaine de l’échantillonnage indirect. Ces résultats de recherche sont motivés par des applications concrètes et illustrent l’influence de Jean-Claude sur notre travail de chercheuses.
Date de diffusion : 2024-01-03
5. Commentaires de J.N.K. Rao à propos de l’article « Contrôle de la divulgation statistique et avancées dans la protection officielle des renseignements : à la mémoire de Chris Skinner »
Articles et rapports : 12-001-X202300100006
Description : Mes commentaires sont répartis en trois volets : 1) bref compte rendu de mon association professionnelle avec Chris Skinner, 2) observations sur les réalisations de Skinner en matière de contrôle de la divulgation statistique et 3) propos sur la production d’inférences à partir de données d’enquête masquées.
Date de diffusion : 2023-06-30
6. Attrition dans l'Étude longitudinale et internationale des adultes, de la vague 1 (2012) à la vague 4 (2018)
Articles et rapports : 89-648-X2022001
Description :
Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

Date de diffusion : 2022-11-14
7. Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Articles et rapports : 12-001-X202200100003
Description :
L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

Date de diffusion : 2022-06-21
8. Rendement relatif des méthodes d’enquête fondées sur l’estimation par la régression assistée par un modèle Archivé
Articles et rapports : 11-522-X202100100009
Description :
Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.
Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

Date de diffusion : 2021-10-29
9. Modèles de forêts aléatoires, une proposition pour l’analyse de stratégies de vérification sélective Archivé
Articles et rapports : 11-522-X202100100021
Description : L’Institut national italien de statistique (Istat) a lancé un nouveau projet relatif aux processus statistiques à court terme, afin de respecter la future nouvelle réglementation européenne visant à diffuser des estimations plus rapidement. L’évaluation et l’analyse du processus d’enquête actuel de l’enquête à court terme sur le chiffre d’affaires dans les services (FAS) visent à relever la façon dont les meilleures caractéristiques des méthodes et pratiques actuelles peuvent être exploitées pour concevoir un processus plus « efficace ». Le projet devrait, en particulier, fournir des méthodes permettant d’appliquer en général d’importantes économies d’échelle, de portée et de connaissances au contexte de production des enquêtes à court terme, qui ont généralement recours à un nombre restreint de ressources. L’analyse du processus TEL QUEL a révélé que l’enquête FAS entraînait des coûts substantiels de vérification et d’imputation, en particulier du fait de l’importance du suivi et de la vérification interactive utilisés pour tous les types d’erreurs détectées. Dans cette optique, nous avons essayé d’exploiter les leçons retenues en participant au Groupe de haut niveau sur la modernisation des statistiques officielles (GHN-MSO, CEE-ONU) sur l’utilisation de l’apprentissage automatique dans les statistiques officielles. Dans cette étude, nous présentons une première expérience utilisant les modèles de forêt aléatoire pour : (i) prédire les unités représentant des données « douteuses », (ii) évaluer l’utilisation du potentiel de prédiction sur de nouvelles données et (iii) explorer des données afin de relever des règles et des tendances cachées. Nous nous concentrons en particulier sur le recours à la modélisation par forêt aléatoire pour comparer certaines autres méthodes en matière d’efficacité de la prédiction d’erreurs et pour traiter des aspects principaux de la nouvelle conception du schéma de vérification et d’imputation.
Date de diffusion : 2021-10-15
10. Mesure de la proximité des services et commodités : ensemble expérimental d'indicateurs pour les quartiers et les localités
Articles et rapports : 18-001-X2020001
Description :
Le présent article décrit la méthodologie qui a utilisée pour générer la première mouture de cette base de données, qui contient les résultats obtenus à partir d'un premier ensemble de dix mesures. Les méthodes de calcul sont présentées sous forme de modèle généralisable, car il est maintenant possible d'appliquer des méthodes similaires à une multitude d'autres services et commodités, avec diverses autres spécifications.
Date de diffusion : 2021-02-15

Références (16)

Références (16) (0 à 10 de 16 résultats)

1. L'approche intégrée des enquêtes économiques au Canada Archivé
Enquêtes et programmes statistiques — Documentation : 68-514-X
Description :
L'approche utilisée par Statistique Canada pour la collecte et la diffusion de données économiques a évolué depuis plusieurs décennies vers un système de collecte et d'estimation fortement intégré qui alimente le cadre du Système de comptabilité nationale du Canada.
L'élément clé de cette approche a été la création de l'Enquête unifiée auprès des entreprises, qui avait pour objet d'améliorer l'uniformité, la cohérence, l'ampleur et la profondeur des données des enquêtes-entreprises.
L'EUE a atteint cet objectif en regroupant dans un cadre commun un grand nombre d'enquêtes-entreprises annuelles du Canada. Ce cadre comprenait une seule base de sondage, un schéma pour le plan d'échantillonnage, l'harmonisation conceptuelle du contenu des enquêtes, divers moyens d'utiliser les données administratives pertinentes, une collecte intégrée des données, des outils de traitement et d'analyse, et un entrepôt central de données.
Date de diffusion : 2006-11-20
2. Les effets de la méthodologie d'estimation révisée sur les estimations des enquêtes sur les dépenses des ménages Archivé
Enquêtes et programmes statistiques — Documentation : 62F0026M2005002
Description :
Le présent document fournit un aperçu des différences entre l'ancienne et la nouvelle méthodologie de pondération, ainsi que des effets du nouveau système de pondération sur les estimations.
Date de diffusion : 2005-06-30
3. Enquête mensuelle sur les industries manufacturières : utilisation des données administratives Archivé
Enquêtes et programmes statistiques — Documentation : 31-533-X
Description :
Commençant avec le mois de référence août 2004, l'Enquête mensuelle sur les industries manufacturières (EMIM) utilise des données administratives (fichiers de la taxe sur les produits et services) pour l'estimation des livraisons manufacturières pour une portion de petits établissements de l'échantillon. Ce document a été publié pour servir de complément à la diffusion des données de l'EMIM pour ce mois.
Date de diffusion : 2004-10-15
4. Travailler ensemble : une mise à jour du Comité consultatif national de la statistique culturelle Archivé
Avis et consultations : 87-004-X20000035566
Géographie : Canada
Description :
Comme plusieurs autres domaines de Statistique Canada, le Programme de la statistique culturelle (PSC) tire parti des conseils avisés d'un comité consultatif externe. Fondé en 1984, le Comité consultatif national de la statistique culturelle (CCNSC) a pour mandat de donner des conseils sur la mise en place d'activités statistiques liées à tous les aspects de l'art et de la culture au Canada.
Date de diffusion : 2001-03-16
5. Modélisation des carrières au sein de la population active pour le modèle de simulation « lifepaths » Archivé
Enquêtes et programmes statistiques — Documentation : 11-522-X19990015648
Description :
On estime les paramètres d'un modèle stochastique des carrières au sein de la population active tenant compte de la répartition des périodes corrélées d'emploi, de chômage (avec et sans recherche d'emploi) et de non appartenance à la population active. Aucune source unique de données n'est complètement satisfaisante si l'on veut que le modèle refléte les tendances infra-annuelles de l'emploi, ainsi que la progression vers l'âge de la retraite. Par contre, on peut calculer une approximation d'après plusieurs sources de données distinctes.
Date de diffusion : 2000-03-02
6. Incertitudes liées aux estimations du risque de cancer pulmonaire dû au radon Archivé
Enquêtes et programmes statistiques — Documentation : 11-522-X19990015658
Description :
Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.
Date de diffusion : 2000-03-02
7. Une évaluation de méthodes de fusion de données Archivé
Enquêtes et programmes statistiques — Documentation : 11-522-X19990015666
Description :
L'échantillon de fusion obtenu par un procédé d'appariement statistique peut être considéré comme un échantillon tiré d'une population artificielle. Nous dérivons la distribution de cette population artificielle. Si la corrélation entre des variables spécifiques est le seul point d'intérêt, l'importance de l'indépendance conditionnelle peut être réduite. Dans une étude de simulation, nous examinons les effets de la non-confirmation de certaines hypothèses formulées pour obtenir la distribution de la population artificielle. Enfin, nous présentons des idées au sujet de l'établissement de la supposée indépendance conditionnelle par l'analyse de classes latentes.
Date de diffusion : 2000-03-02
8. Planification intégrée des activités médiatiques grâce à l'appariement statistique : développement et évaluation du service panorama de la Nouvelle-Zélande Archivé
Enquêtes et programmes statistiques — Documentation : 11-522-X19990015670
Description :
Pour atteindre efficacement leur public cible, les publicistes et les planificateurs des médias ont besoin de savoir quel pourcentage de consommateurs de Coke diète regardent Alerte à Malibu, ou combien de clients d'AT&T ont vu une annonce de Sprint au cours de la dernière semaine. Toutes les données pertinentes pourraient en théorie être recueillies auprès de chacun des répondants. Toutefois, la collecte de données précises et détaillées serait très coûteuse. Elle imposerait en outre un fardeau important aux répondants, compte tenu de la technique de collecte utilisée actuellement. Pour le moment, ces donées sont recueillies dans le cadre d'enquêtes distinctes, en Nouvelle-Zélande et dans nombre d'autres pays. Le niveau d'exposition aux principaux médias est mesuré de façon continue, et les études sur l'utilisation des produits sont répandues. Des techniques d'appariement statistique fournissent une façon de combiner ces sources d'information distinctes. La base de données des cotes d'écoute de la télévision en Nouvelle-Zélande a été combinée à une enquête multi-intérêts portant sur le profit des lecteurs d'imprimés et la consommation de produits, grâce à l'appariement statistique. Le service Panorama qui en résulte répond aux besoins d'information des publicistes et des planificateurs des médias. L'expérience a été reprise depuis en Australie. Le présent document porte sur l'élaboration du cadre d'appariement statistique qui a servi à la combinaison de ces bases de données, ainsi que sur les connaissances heuristiques et les techniques qui ont été utilisées. Celles-ci comprenaient notamment une expérience effectuée au moyen d'un plan de contrôle visant à déterminer les variables d'appariement importantes. Le présent document comprend en outre un résumé des études ayant servi à l'évaluation et à la validation des résultats combinés. Trois critères principaux d'évaluation ont été utilisés, à savoir : la précision des résultats combinés, la stabilité de ces résultats et la préservation des résultats des bases de données originales. On aborde aussi la façon dont les conditions préalables à la combinaison de ces bases de données ont été respectées. Les différences entre les techniques d'analyse utilisées dans les deux bases de données d'origine ont constitué l'obstacle le plus important à cette étape. Enfin, des suggestions pour le de'veloppement de systèmes d'appariement statistique similaires ailleurs sont fournis.
Date de diffusion : 2000-03-02
9. Modélisation à niveaux multiples de structures de données complexes, avec appartenance multiple et identification d'unités manquantes Archivé
Enquêtes et programmes statistiques — Documentation : 11-522-X19980015018
Description :
Dans la présente communication, nous décrivons une méthode pour le traitement de données longitudinales concernant des personnes qui font partie de plus d'une unité, à un niveau supérieur, et au sujet desquelles il manque des renseignements pour l'identification des unités auxquelles appartiennent ces personnes. Dans le domaine de l'éducation, par exemple, un élève peut être classé comme appartenant tour à tour à une école primaire et à une école secondaire en particulier, mais dans le cas de certains élèves, il se peut qu'on ne connaisse ni le nom de l'école primaire, ni celui de l'école secondaire. De manière analogue, dans le cadre d'une étude longitudinale, des élèves peuvent changer d'école ou de classe entre deux périodes et appartenir ainsi à plus d'une unité de niveau supérieur. La méthode utilisée pour modéliser ces structures est une généralisation d'un modèle à effets aléatoires et à niveaux multiples de recoupement.
Date de diffusion : 1999-10-22
10. Modèle de catégorie latente pour l'analyse de la transition de l'école au marché du travail en présence de données manquantes Archivé
Enquêtes et programmes statistiques — Documentation : 11-522-X19980015024
Description :
Une étude longitudinale d'une cohorte d'élèves de l'école secondaire est menée dans une région de l'Italie depuis 1986 afin d'étudier la transition entre l'école et le marché du travail. Les renseignements ont été collectés à chaque étape au moyen d'un questionnaire envoyé par la poste et, à l'étape finale, au moyen d'une interview en salle de classe au cours de laquelle on a posé des questions rétrospectives portant sur l'ensemble de la période d'observation. Les flux bruts entre différents états discrets - toujours dans le système scolaire, sur le marché du travail mais inactif, sur le marché du travail et actif - peuvent ensuite être estimés à la fois à partir de donées prospectives et rétrospectives, et l'effet de mémoire peut être évalué. De plus, les conditions observées au moyen des deux techniques différentes peuvent être considérées comme deux indicateurs de la condition réelle non observable, ce qui nous amène à la spécification et à l'estimation d'un modèle de catégorie latente. Dans ce cadre de référence, une hypothèse de chaïne markovienne peut être introduite et évaluée de maniére à estimer les probabilités de transition entre les états, une fois ceux-ci corrigés ou les erreurs de classification. Puisque les renseignements collectés par la poste présentent une proportion importante de données manquantes sous forme de non-réponse d'unités, nous introduisons aussi la catégorie manquante dans le modèle applicable aux données prospectives.
Date de diffusion : 1999-10-22

Browse our partners page to find a complete list of our partners and their associated products.

Signaler un problème ou une erreur sur cette page

Date de modification :: 2024-04-26

Comment utiliser les filtres et le champ de recherche

Vous pouvez faire une recherche en inscrivant des mots-clés ou en sélectionnant des filtres (p. ex. sous Sujet, Géographie, etc.) du côté gauche de la page.
On peut utiliser les filtres ensemble ou former diverses combinaisons. À chaque sélection de filtre, la page des résultats est mise à jour.
Pour commencer une nouvelle recherche, cliquez sur le bouton Effacer tout au-dessus du champ de recherche ou décochez tous les filtres.
Les mots-clés et les filtres précisés sont affichés au-dessus du champ de recherche. Vous pouvez désélectionner l’un ou l’autre des éléments ou tous les éléments, pour préciser ou effacer votre recherche.

Comment préciser ma recherche

Vous pouvez entrer des mots-clés dans le champ de recherche. Il n’est pas nécessaire d’utiliser « + » ou « , » ou « ET ».
Vous pouvez supprimer certains mots-clés ou tous les mots-clés de votre chaîne de recherche.
Les mots-clés entre guillemets limitent la recherche à l’expression précise.
- Par exemple, si vous cherchez « Enquête sur la population active », vous obtiendrez seulement des documents contenant cette suite de mots.
Utilisez « ou » entre les mots-clés pour obtenir des résultats qui contiennent au moins l’un des termes recherchés.
- Par exemple, si vous cherchez enquête ou population ou active, vous obtiendrez seulement les documents contenant l’un ou l’autre de ces mots, ou tous ces mots.

Comment fonctionne la recherche

Cette forme de recherche fournira les résultats contenant le(s) mot(s) inscrit(s) dans le titre, la description, le sujet, la géographie, le numéro de produit ou toute autre information au sujet du produit.
- Par exemple, lorsque vous cherchez le mot « maladies », tous les résultats obtenus contiendront ce mot dans le titre, la description, ou le sujet.
La recherche ne se fait pas dans le texte des articles ou des publications. Pour faire une recherche plein texte dans les articles, utilisez la fonction de recherche du site.