Supplément à l'Évaluation générique des facteurs relatifs à la vie privée de Statistique Canada relatif au moissonnage du Web et aux autres activités de collecte sur le Web visant à recueillir des renseignements liés à la COVID 19 pour des entreprises don

Octobre 2020

Gestionnaire de programme : Directeur, Division de l'activité minière, de la fabrication et du commerce de gros

Mention du fichier de renseignements personnels (FRP)

Sans objet. Aucun renseignement personnel ne peut être récupéré en utilisant le nom d'une personne ou un autre identificateur direct.

Description de l'activité statistique

Statistique Canada automatisera le moissonnage du Web et d'autres activités de collecte sur le Web afin de pouvoir recueillir sur le Web, de façon plus rapide et plus efficace, les renseignements publics requis pour analyser l'incidence de la pandémie de COVID 19 sur l'activité économique canadienne.

L'initiative consiste à automatiser trois méthodes de collecte de renseignements publics sur le Web qui sont exécutées manuellement à l'heure actuelle :

  • Moissonnage des sites Web des entreprises canadiennes, et également des sites Web des gouvernements provinciaux et territoriaux qui fournissent des renseignements sur les services essentiels rattachés à la COVID-19;
  • Collecte de renseignements affichés par ces entreprises sur leurs comptes de médias sociaux (LinkedIn et Twitter);
  • Collecte de renseignements propres aux entreprises à partir de services d'agrégation des nouvelles (InfoMedia du gouvernement du Canada et Google News).

Les renseignements à extraire comprennent le nom de l'entreprise, la date d'accès ou la date de publication, la source des renseignements et les « fragments » (paragraphes de texte) qui contiennent des mots-clés d'intérêt liés à la COVID-19. Cela permettra de fournir des renseignements sur les fermetures liées à la pandémie, sur les changements apportés aux produits ou aux processus de production, sur les mises à pied, etc.

Moissonnage du Web

Le moissonnage du Web s'effectue au moyen de programmes automatisés, ou « robots », qui peuvent accéder à certaines parties des sites Web des entreprises où l'on trouve des nouvelles sur les activités en cours.

Statistique Canada moissonnera quotidiennement les sites Web des fabricants canadiens qui enregistrent les ventes les plus importantes, à la recherche de mentions d'événements liés à la COVID-19, comme des fermetures, des changements touchant les produits ou les processus de production, ou encore des mises à pied. Les sites Web des gouvernements provinciaux et territoriaux qui contiennent de l'information sur les services essentiels feront eux aussi l'objet d'un moissonnage quotidien.
Toutes les activités de moissonnage seront exécutées en conformité avec les conditions établies par les propriétaires des sites.

Médias sociaux

Les annonces pertinentes des entreprises de la fabrication sur leurs comptes LinkedIn et Twitter seront également récupérées, que ce soit directement, au moyen d'une interface avec les données (interface de programmation d'applications), ou indirectement, par l'intermédiaire d'InfoMedia (qui fournit ce service en complément de l'agrégation des nouvelles).

Services de nouvelles

InfoMedia et Google News seront également consultés en utilisant des noms d'entreprises et des mots-clés comme termes de recherche.

Tandis que les sites Web des entreprises et des gouvernements provinciaux et territoriaux feront l'objet d'un moissonnage quotidien, l'information des comptes de médias sociaux et des agrégateurs de nouvelles sera récupérée mensuellement.

Les renseignements recueillis au moyen de ces trois méthodes et sources (moissonnage du Web, médias sociaux et services de nouvelles) seront traités, combinés et stockés dans une base de données à laquelle seuls les employés de Statistique Canada auront accès, afin de faciliter l'analyse des répercussions économiques de la COVID-19.

Ces activités ne visent pas à recueillir, à créer ou à utiliser des renseignements personnels. Si des renseignements personnels ou des identificateurs personnels — comme le nom d'un compte, un pseudonyme ou tout autre renseignement personnel — sont recueillis par inadvertance, ils seront extraits des données et supprimés.

Raison du supplément

L'Évaluation générique des facteurs relatifs à la vie privée traite de la plupart des risques liés à la protection de la vie privée et à la sécurité qui sont associés aux activités statistiques menées par Statistique Canada.

Ce supplément vise pour sa part à atténuer tout risque pour la protection de la vie privée pouvant être associé à la collecte accidentelle de renseignements personnels (par exemple les noms de comptes de médias sociaux ou les pseudonymes d'une personne) au cours du moissonnage du Web et d'autres activités de collecte sur le Web. Le cas échéant, les renseignements personnels recueillis par inadvertance seront extraits des données et supprimés.

Nécessité et proportionnalité

Les activités automatisées de moissonnage du Web et de collecte sur le Web à l'appui de l'étude de l'incidence de la COVID 19 sur l'activité économique canadienne n'ont pas pour but de recueillir, de créer ou d'utiliser des renseignements personnels. Le cas échéant, les renseignements personnels recueillis par inadvertance au cours de ces activités seront extraits des données et supprimés.

En outre, ce projet a fait l'objet d'une évaluation fondée sur le Cadre de nécessité et de proportionnalité de Statistique Canada :

  1. Nécessité : L'information en cause est nécessaire pour mesurer l'incidence de la COVID 19 sur le secteur de la fabrication et pour produire des estimations rapides du produit intérieur brut mensuel, qui sont un nouveau produit statistique de Statistique Canada.

    Les activités qui seront menées serviront à élargir la couverture et à obtenir des renseignements de grande qualité à propos de l'incidence de la COVID 19 sur l'activité économique canadienne dans l'intérêt des partenaires de Statistique Canada, notamment le public, de même qu'à étayer les politiques et la prise de décisions du gouvernement.

    Les renseignements recueillis permettront de fournir des données plus exactes qui aideront les Canadiens à mieux comprendre comment la pandémie de COVID 19 touche les différentes industries au Canada. Cela comprend, par exemple, les répercussions des mesures de confinement et des fermetures d'usines sur l'emploi, la manière dont certains fabricants ont modifié leur chaîne de production afin de pouvoir produire de l'équipement de protection individuelle, des respirateurs ou des désinfectants pour les mains, et la détermination des secteurs où l'emploi est à la hausse.

    Les programmes économiques utilisent ce type d'information recueillie sur le Web pour valider, étoffer et analyser les renseignements recueillis par d'autres moyens, comme les enquêtes ou les données administratives. Les analystes utilisent cette information pour assurer la qualité des produits statistiques et pour mieux comprendre les phénomènes économiques mesurés.

  2. Efficacité (hypothèses de travail) : Dans le contexte actuel, où l'activité économique essuie le contrecoup de la pandémie et évolue rapidement, l'automatisation de ces activités de moissonnage du Web permet d'obtenir des renseignements sur les enjeux émergents ou actuels reliés à l'activité économique de façon systématique, efficace et rapide.

    Une fois déployés dans un environnement interactif où les renseignements peuvent être recueillis et présentés quotidiennement, ces outils aideront l'organisme à atteindre l'un de ses objectifs énoncés, c'est à dire la diffusion d'information statistique en temps quasi réel.

    L'automatisation du processus de collecte des données devrait donner lieu à des économies de temps et de ressources mesurables. En outre, l'automatisation facilite l'échange de renseignements entre les programmes, ce qui assurera la cohérence des analyses à l'échelle de l'organisme.

    À des fins de validation de principe, cette initiative fournit un scénario d'essai englobant les environnements de TI, l'apprentissage automatique, les applications de programmation et les processus d'acquisition de l'information, ce qui permettra à l'organisme de moderniser ses processus de collecte, de traitement, de communication et de visualisation des données.

  3. Proportionnalité : La mesure de l'incidence de la COVID 19 sur l'activité économique canadienne ne requiert aucun renseignement personnel ni aucun identificateur personnel. Seuls les renseignements nécessaires sur les fabricants canadiens seront recueillis. Les données serviront uniquement à améliorer les analyses effectuées par l'organisme et se substitueront aux renseignements recueillis manuellement à l'heure actuelle. Il n'est nullement question de divulguer ces renseignements à d'autres ministères ou organismes, ou au public.

    Les renseignements personnels qui pourraient être recueillis par inadvertance sont déjà du domaine public. De plus, étant donné que les paramètres de confidentialité des plateformes de médias sociaux qui seront visées (Twitter et LinkedIn) sont bien compris par les utilisateurs, surtout comparativement à ceux de Facebook, les utilisateurs qui divulguent de l'information le font en toute connaissance de cause.

  4. Solutions de rechange : Ce projet vise à automatiser les processus et à présenter l'information dans un format utilisable.

    La solution de rechange consisterait à recueillir de l'information sur les médias sociaux (la seule source prise en considération qui puisse contenir des identificateurs personnels) de façon manuelle et intermittente, qui est en fait le processus en place en ce moment. Par rapport aux méthodes actuelles, ce projet pourrait générer des économies de temps substantielles et automatiser le suivi en temps réel de l'évolution de la situation des entreprises. On a aussi envisagé la possibilité de tenir une enquête, mais cette solution ne permettrait pas d'atteindre l'objectif principal, qui est de produire de l'information en temps réel.

    Enfin, en ce qui concerne la protection des renseignements personnels, il faut considérer que les analystes peuvent déjà recueillir toute l'information à laquelle on aura accès dans le cadre de ce projet au moyen de processus manuels. À l'heure actuelle, les analystes ne conservent pas les identificateurs personnels contenus dans les médias sociaux; de la même manière, les identificateurs que pourrait comporter l'information recueillie dans le cadre de ce projet seront supprimés avant que le traitement se poursuive.

Facteurs d'atténuation

Tout renseignement personnel recueilli par inadvertance sera identifié, extrait et détruit immédiatement. Une application sera configurée pour repérer et supprimer automatiquement les identificateurs de compte d'utilisateur et les identificateurs similaires qui ne sont pas associés aux entreprises faisant l'objet de la recherche d'information.

Par exemple, dans le cas de Twitter, les gazouillis ainsi que les gazouillis partagés sont présentés comme des enregistrements distincts dans les bases de données. Ces enregistrements individuels contiennent des champs comportant des identificateurs personnels, comme l'identificateur et le pseudonyme de l'utilisateur. À mesure que les données sont saisies, le contenu de ces champs peut être supprimé à l'égard de tous les utilisateurs autres que les entreprises dont les renseignements font l'objet de la recherche.

Conclusion

Cette évaluation n'a relevé aucun risque lié à la protection de la vie privée qui ne puisse être géré à l'aide des mesures de protection existantes.

Approbation officielle

La présente évaluation des facteurs relatifs à la vie privée complémentaire a été examinée et recommandée aux fins d'approbation par l'agente principale de la protection des renseignements personnels, le directeur général de la Direction des méthodes statistiques modernes et de la science des données, et la statisticienne en chef adjointe du Secteur de la statistique sociale, de la santé et du travail de Statistique Canada.

Le statisticien en chef du Canada exerce les pouvoirs délégués en vertu de l'article 10 de la Loi sur la protection des renseignements personnels pour Statistique Canada, et est responsable des opérations de l'organisme, y compris du secteur de programme cité dans cette évaluation des facteurs relatifs à la vie privée complémentaire.

Cette évaluation des facteurs relatifs à la vie privée a été approuvée par le statisticien en chef du Canada.

Date de modification :