Annonces

Octobre 2019

Défi aux scientifiques des données sur les entreprises

Défi aux scientifiques des données sur les entreprises de 2019-2020

Produit intérior brut (PIB) nominal par industrie

Statistique Canada travaille sans relâche pour fournir des données de grande qualité, pertinentes et actuelles sur l'évolution économique et sociale du Canada. Son tableau de données « Productivité multifactorielle, valeur ajoutée, facteur capital et facteur travail dans le secteur agrégé des entreprises et ses principaux sous-secteurs, selon des industries (36-10-0208-01) » fournit d'importants indicateurs de l'efficacité de la production et du rendement des entreprises dans les industries canadiennes. Parmi les variables présentées dans le tableau, le PIB nominal joue un rôle crucial dans l'estimation de la croissance de la productivité multifactorielle. Il sert également de base pour le calcul des parts de revenu et d'autres intrants. Bien que les données de la plupart des variables du tableau soient accessibles jusqu'à la plus récente année de référence, les données du PIB nominal sont accessibles avec un décalage de trois ans.

Le défi à relever

Cette année, le défi consiste à utiliser des sources de données accessibles au public et/ou à appliquer des techniques d'analyse des données afin de produire des estimations actuelles du PIB nominal, et ce, au même niveau des industries que le tableau de données 36-10-0208-01. Les éléments suivants sont d'un intérêt particulier : mesure du PIB nominal à l'aide de sources de données accessibles au public; méthodes permettant de produire des estimations plus actuelles; et méthodes pour l'étalonnage.

Il est à noter que les données accessibles au public comprennent des tableaux de données de Statistique Canada tels que « Productivité multifactorielle et variables connexes, selon des industries », « PIB aux prix de base, par industries », « Indices implicites de prix, PIB », « Indice des prix des produits industriels », et d'autres tableaux relatifs au PIB et aux prix.

Les soumissions présentées dans le cadre du défi peuvent comprendre des modèles prédictifs, des applications d'apprentissage automatique, des visualisations de données, des outils ou des tableaux de bord interactifs, des outils de collecte de données ou de moissonnage Web, de l'exploration de texte, ou tout autre processus ou technique d'analyse. L'utilisation de données provenant de sources accessibles au public doit se faire conformément aux lois pertinentes.

Admissibilité

Le défi s'adresse aux étudiants diplômés et aux finissants du premier cycle d'une université canadienne ainsi qu'aux étudiants diplômés et finissants du premier cycle d'une université étrangère qui sont Canadiens ou résidents permanents du Canada.

Les participants peuvent étudier dans l'un des domaines suivants : économie, science des données, informatique, mathématiques et statistique.

Les soumissions peuvent être présentés par des équipes d'un à trois étudiants admissibles.

Inscription (date limite le 1er mars 2020)

Pour s'inscrire au défi, chaque équipe doit présenter :

  • une lettre d'appui d'un membre du corps enseignant, d'au plus 500 mots incluant le nom de tous les membres de l'équipe, et
  • un formulaire de consentement complété pour chaque membre de l'équipe.

Veuillez envoyer votre inscription par courriel à statcan.cder-cdre.statcan@canada.ca, avec la mention suivante dans la zone objet : « À l'attention de : Inscription au Défi aux scientifiques des données (LE NOM DE VOTRE ÉQUIPE) ».

Les équipes peuvent s'inscrire en tout temps jusqu'à la date limite du 1er mars 2020.

Après l'inscription, l'ensemble de données et des renseignements généraux seront envoyés aux participants par courrier électronique.

Soumissions et date limite

Les équipes inscrites doivent envoyer leur soumission par courriel à statcan.cder-cdre.statcan@canada.ca, avec la mention suivante dans la zone objet : « À l'attention de : Soumission pour le Défi aux scientifiques des données (LE NOM DE VOTRE ÉQUIPE) ».

La date limite pour la présentation des soumissions est le 31 mars 2020.

Les soumissions doivent comprendre :

  • un produit (p. ex. un modèle de prévision, une visualisation, un tableau de bord, etc.);
  • un code bien documenté s'exécutant sans intervention manuelle une fois les données chargées;
  • un rapport d'au plus 1 500 mots pouvant comprendre jusqu'à quatre tableaux et quatre graphiques ou éléments visuels.

Il n'y a aucune restriction quant au type de logiciel pouvant être utilisé.

Veuillez noter que nous ne communiquerons qu'avec les finalistes.

Évaluation, sélection des gagnants et présentation des résultats

Les soumissions seront évaluées par un jury formé de membres du personnel de Statistique Canada et seront jugés en fonction de leur caractère novateur, de leur utilité, de leur exactitude ou de leur capacité à dériver une valeur ajoutée des données du concours.

Les gagnants seront dévoilés au plus tard le 31 mai 2020.

Un représentant de l'équipe gagnante sera invité à présenter ses résultats à Statistique Canada et verra sa soumission publié par l'organisme. Tous les droits d'auteur et de propriété intellectuelle des soumissions présentés reviendront à Statistique Canada. Veuillez noter que Statistique Canada se réserve le droit de refuser d'annoncer un gagnant si trop peu de soumissions sont reçues.

Questions et coordonnées

Les questions concernant le défi peuvent être envoyées par courriel à statcan.cder-cdre.statcan@canada.ca (objet : « À l'attention de : Questions sur le défi).

Une liste de diffusion regroupant tous les participants sera créée, et les réponses aux questions générales seront communiquées à tous.

Mai 2019

Défi aux scientifiques des données sur les entreprises

Gagnants du Défi aux scientifiques des données sur les entreprises 2018/2019

Statistique Canada est heureux d'annoncer que les gagnants du Défi aux scientifiques des données sur les entreprises 2018-2019.

Les gagnants sont Nicolas Leblanc, Mindy Lin et Jasper Zhu, tous de l'Université de Waterloo!

Cette année, le concours a reçu de nombreux dossiers de grande qualité de partout au Canada. Dans le cadre du défi, les participants devaient évaluer les mesures trimestrielles de la dynamique des entreprises (entrée, sortie, ouverture d'entreprises, fermeture d'entreprises, nombre d'entreprises). Les équipes ont reçu l'ensemble de données du concours, qui pouvait être utilisé seul ou fusionné avec d'autres sources de données.

Dans le cadre de leur projet, Nicolas, Mindy et Jasper ont choisi de se concentrer sur la dynamique des entreprises au Canada et ont combiné l'ensemble de données du concours avec des renseignements de l'Enquête sur la population active et du Relevé trimestriel des états financiers. Ils ont ajouté une tendance linéaire ainsi que des variables catégoriques pour chacun des quatre trimestres. Ils ont rédigé un programme R qui utilise cette information pour prédire le nombre d'entrées, de sorties, d'ouvertures, de fermetures et d'entreprises actives.

Les prédictions sont fondées sur deux modèles, l'un pour la sélection des variables et l'autre pour la prédiction des séries chronologiques. Pour sélectionner les variables pertinentes pour la prédiction, Nicolas, Mindy et Jasper ont utilisé un modèle linéaire binomial général négatif avec LASSO dans le paquet glmnetNote de bas de page 1. À l'aide de la fonction cv.glmnet, ils ont déterminé les variables les plus pertinentes pour prédire une mesure particulière de la dynamique des entreprises.

Ils ont ensuite appliqué un modèle linéaire général pour les données chiffrées du paquet tscountNote de bas de page 2. La fonction tsglm a été utilisée pour faire des prédictions sur le nombre d'entrées, de sorties, d'ouvertures, de fermetures et d'entreprises. Le modèle de série chronologique comprend deux paramètres supplémentaires pour les décalages de la variable dépendante et le nombre de décalages des variables explicatives. Ces paramètres ont été déterminés à partir d'une recherche par grille, et les résultats de la prédiction ont été placés dans une application R shinyNote de bas de page 3 qui visualise la série chronologique originale ainsi que les prédictions.

Merci à tous ceux qui se sont inscrits et félicitations encore une fois à Nicolas, à Mindy et à Jasper!


Le Défi des scientifiques des données sur les entreprises prochain

De plus amples renseignements sur le Défi des scientifiques des données sur les entreprises 2019-2020 de Statistique Canada seront annoncés en septembre 2019, alors restez à l'affût et informez-en tous les étudiants que vous connaissez.

Le Défi des scientifiques des données sur les entreprises est fondé sur un ensemble de données sur les entreprises disponible auprès de Statistique Canada. L'ensemble de données et le but du défi changent au fil du temps. À l'aide de l'ensemble de données, des équipes de jusqu'à trois personnes doivent appliquer des techniques analytiques afin qu'un auditoire puisse avoir une idée ou une compréhension d'un phénomène économique.

En fonction du défi, les équipes peuvent utiliser des prévisions ou des modèles prédictifs, des applications d'apprentissage automatique, des visualisations de données, des outils ou des tableaux de bord interactifs, des outils de collecte de données ou de moissonnage du Web, de l'exploration de texte ou tout autre processus ou technique d'analyse disponible. Des données provenant de sources accessibles au public peuvent être combinées à l'ensemble de données du défi, mais cela doit être fait conformément aux règlements applicables.

Présentations de dossier et admissibilité

Ce concours s'adresse aux étudiants diplômés et aux finissants du premier cycle d'une université canadienne ainsi qu'aux étudiants diplômés et finissants du premier cycle d'une université étrangère qui sont Canadiens ou résidents permanents du Canada. Les candidats peuvent être inscrits dans l'un des domaines suivants : économie, science des données, informatique, mathématiques et statistique. Les dossiers peuvent être présentés par des équipes composées de trois personnes au maximum.

Les équipes peuvent utiliser Python, R, SAS ou Stata. D'autres logiciels peuvent être utilisés s'ils sont approuvés par Statistique Canada.

Coordonnées

Veuillez adresser vos questions à l'adresse statcan.cder-cdre.statcan@canada.ca


Novembre 2018

Défi aux scientifiques des données sur les entreprises

Défi aux scientifiques des données sur les entreprises

Statistique Canada s'efforce continuellement d'améliorer la pertinence et l'actualité de ses données. Un domaine où l'organisme progresse est la publication de séries de données sur le rendement des entreprises, comme l'entrée de nouvelles entreprises, les sorties d'entreprises et la redistribution des emplois. Ces données donnent des renseignements sur le processus dynamique au sein de l'économie canadienne selon lequel de nouvelles entreprises entrent sur le marché, les entreprises qui obtiennent du succès se développent et les entreprises qui ne réussissent pas déclinent ou quittent le marché. Même si elles sont instructives, ces données sont uniquement disponibles après un délai de plusieurs années.

Pour produire plus rapidement des estimations des entrées et des sorties d'entreprises, un ensemble d'estimations expérimentales trimestrielles ont été créées. Ces estimations donnent des renseignements sur les entrées d'entreprises jusqu'au trimestre le plus récent, mais le nombre d'entreprises sortantes est toujours estimé dans un délai pouvant atteindre sept trimestres.

Défi

Le défi consiste à appliquer des techniques d'analyse de données pour mieux comprendre l'état des entrées et des sorties d'entreprises dans l'économie canadienne. Les méthodes revêtant un intérêt particulier sont celles qui permettent de produire des estimations plus actuelles pour les sorties d'entreprises, de détecter les observations atypiques telles que les points leviers et les valeurs aberrantes et d'en tenir compte, et d'intégrer les entreprises non classées dans l'analyse.

Les dossiers présentés peuvent comprendre des prévisions ou des modèles prédictifs, des applications d'apprentissage automatique, des visualisations de données, des outils ou des tableaux de bord interactifs, des outils de collecte de données ou de moissonnage du Web, de l'exploration de texte ou tout autre processus ou technique d'analyse disponible. Des données provenant de sources accessibles au public peuvent être combinées aux données d'entrées et de sorties d'entreprises, mais cela doit être fait conformément aux lois applicables.

Présentations de dossier et admissibilité

Ce concours s'adresse aux étudiants diplômés et aux finissants du premier cycle d'une université canadienne ainsi qu'aux étudiants diplômés et finissants du premier cycle d'une université étrangère qui sont Canadiens ou résidents permanents du Canada. Les postulants peuvent être inscrits dans l'un des domaines suivants : science économique, science des données, informatique, mathématiques et statistique. Les dossiers peuvent être présentés par des équipes composées de trois personnes au maximum.

Pour s'inscrire au concours, les candidats doivent présenter une lettre d'appui d'un membre du corps enseignant (faisant au plus une demi-page) et le nom des membres de l'équipe.

Les dossiers doivent comprendre un produit (p. ex. modèle de prévision, visualisation, tableau de bord, etc.) ainsi que  :

  • un code bien documenté s'exécutant sans intervention manuelle une fois les données chargées;
  • un rapport de 1 500 mots au maximum pouvant comprendre jusqu'à quatre tableaux et quatre graphiques ou éléments visuels;

Aucune restriction ne s'applique au type de logiciel pouvant être utilisé.

Inscription au concours et date limite

Pour vous inscrire au concours, veuillez envoyer un courriel décrivant l'équipe et ses membres en joignant une courte lettre d'appui (une demi-page) d'un membre du corps enseignant et en indiquant « Inscription au concours de données » dans la ligne de mention objet, à l'adresse statcan.cder-cdre.statcan@canada.ca. Il est possible de s'inscrire en tout temps jusqu'au 1er mars 2019. Après leur inscription, les participants recevront un courriel contenant l'ensemble de données et des renseignements généraux.

La date limite de présentation des dossiers est le 31 mars 2019. Veuillez envoyer un courriel contenant l'entrée, le code du projet et un bref rapport, au besoin, en indiquant « Présentation du dossier pour le concours de données » dans la ligne de mention objet, à l'adresse statcan.cder-cdre.statcan@canada.ca d'ici le 31 mars 2019. Nous ne communiquerons qu'avec les finalistes.

Présentation des résultats

Un groupe d'employés de Statistique Canada évaluera les dossiers présentés. Ces derniers seront jugés en fonction de leur caractère novateur, de leur utilité, de leur exactitude ou de leur capacité à dériver une valeur ajoutée.

Un représentant de l'équipe gagnant sera invité à présenter ses résultats à Statistique Canada et verra son projet publié par Statistique Canada. Tous les droits d'auteur et de propriété intellectuelle des dossiers présentés reviendront à Statistique Canada. Statistique Canada se réserve le droit de ne pas annoncer de gagnant si le nombre de dossiers présentés est trop faible. Les noms des gagnants seront dévoilés au plus tard le 31 mai 2019.

Coordonnées des personnes-ressources

Envoyez vos questions à l'adresse statcan.cder-cdre.statcan@canada.ca en indiquant « Questions relatives au concours de données » dans la ligne de mention objet du courriel.

Une liste de diffusion sera dressée à partir des adresses des participants, et les réponses aux questions générales seront communiquées à l'ensemble des participants.


Septembre 2015

Accès à distance

Les chercheurs peuvent obtenir un accès à distance aux données de l'Enquête sur le milieu de travail et les employés (EMTE) grâce à un service offert par le CDRE. L'accès est accordé selon certaines conditions et est offert contre recouvrement des coûts. Lorsque l'on demande un accès à distance, une justification est nécessaire pour indiquer pourquoi l'accès aux données n'est pas demandé par l'intermédiaire d'un CDR.

Une fois leur projet approuvé, les chercheurs obtiennent des données synthétiques à partir desquelles ils élaborent et mettent à l'essai leurs programmes informatiques (SAS ou STATA), pour ensuite les transmettre à un analyste du CDRE, au moyen d'une adresse courriel réservée. Les programmes sont exécutés sur des serveurs de données sécuritaires par l'analyste. Celui-ci vérifie en outre les résultats, afin de s'assurer qu'ils respectent les exigences en matière de divulgation et de confidentialité, et renvoie les produits approuvés aux chercheurs par courriel.

Nota : Le chercheur est entièrement responsable du développement et de la mise à l'essai de ses programmes avant de les soumettre pour exécution. Statistique Canada n'offre pas d'aide à la programmation, ne fournit pas un soutien pour l'utilisation du logiciel et n'apporte pas de modifications aux programmes soumis. Si un programme ne peut être exécuté correctement, ou si le chercheur soumet un trop grand nombre de programmes complexes, il doit modifier les programmes et les soumettre à nouveau.

Pour plus de renseignements, communiquez avec le CDRE à l'adresse statcan.cder-cdre.statcan@canada.ca.


Mai 2015

L'Enquête sur le milieu de travail est maintenant disponible!

Date de modification :