La Base de données ouvertes sur les installations culturelles et artistiques

Numéro de catalogue : 21260001
Numéro d'exemplaire : 2020001

La Base de données ouvertes sur les installations culturelles et artistiques (BDOICA) est une collection de données ouvertes comprenant le nom, le type et l'emplacement d'installations culturelles et artistiques à l'échelle du Canada. Elle est accessible en vertu de la Licence du gouvernement ouvert – Canada.

La BDOICA compile des données ouvertes et des données accessibles au public sur les installations de culture et d'art au Canada. Les sources de données comprennent les gouvernements provinciaux / territoriaux, les autorités municipales, ainsi que les associations professionnelles.

Cette base de données vise à fournir un meilleur accès à une liste harmonisée des installations culturelles et artistiques au Canada, en permettant une consultation de ces installations sous la forme de données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les données d'entrée de la BDOICA sont des ensembles de données dont les sources incluent les gouvernements provinciaux et territoriaux, les autorités municipales, ainsi que les associations professionnelles. Ces ensembles de données étaient disponibles soit en vertu de l'un des types existants de licence de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Les détails des sources utilisées sont disponibles dans un tableau « Sources de données » situé dans le dossier compressé téléchargeable de la BDOICA.

Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOICA harmonise le type d'installation en attribuant, à chaque installation, un type parmi neuf. Ce processus a été mis en œuvre sur la base du type d'installation fourni par la source de données, ainsi qu'en utilisant d'autres recherches spécifiquement à cette fin.

La BDOICA utilise les neuf types d'installations suivants : « centre des arts ou de culture », « artiste », « site de festival », « galerie », « site patrimonial ou historique », « bibliothèque ou archive », « musée », « théâtre/salle de spectacle et salle de concert », et « divers ».

La BDOICA ne prétend pas à une couverture exhaustive des installations culturelles et artistiques et pourrait ne pas contenir tous les établissements entrant dans la portée de sa version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'installation et de géolocalisation des installations restent également possibles. Bien que toutes les données de la BDOICA soient publiées à la même date, les dates à compter desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.

Un sous-ensemble de coordonnées géographiques disponibles des sources était validé utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, on a effectué un géocodage pour certaines sources en utilisant les données d'adresse de la source.

On a mis en œuvre une déduplication pour supprimer les enregistrements en double, lorsque les portées de plusieurs sources se chevauchaient.

La version actuelle de la base de données (Version 1.0) contient environ 8 000 enregistrements. Les données ont été recueillies à partir des sources entre janvier 2020 et juillet 2020.

Voici les variables comprises dans la BDOICA :

  • Nom de l'installation
  • Type d'installation de source
  • Type d'installation de la BDOICA
  • Fournisseur
  • Numéro d'unité
  • Numéro de rue
  • Nom de la rue
  • Ville
  • Province ou territoire
  • Identificateur unique de la province
  • Nom de la subdivision de recensement
  • Identificateur unique de la subdivision de recensement
  • Longitude
  • Latitude
  • Index

Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOICA.

Téléchargement de la BDOICA

Pour faciliter le téléchargement, la BDOICA est fourni sous forme de fichier CSV compressé.

Visualisant la BDOICA

Le contenu de la BDOICA peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Partagez cette page
Date de modification :

La Base de données ouvertes sur les installations culturelles et artistiques (BDOICA)
Document de métadonnées : concepts, méthodologie et qualité des données

Version 1.0

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

le 2 octobre, 2020

Table des matières

  1. Aperçu
  2. Sources de données
  3. Période de référence
  4. Population cible
  5. Méthodologie de compilation
  6. Couverture de la base de données
  7. Qualité des données
  8. Dictionnaire de données
  9. Contactez-nous

1. Aperçu

Cette Base de données ouvertes sur les installations culturelles et artistiques (BDOICA) expérimentale est l'un des nombreux ensembles de données en cours de création dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative exploratoire du Laboratoire d'exploration et d'intégration des données (LEID) de Statistique Canada. Cette initiative exploratoire vise à accroître l'utilisation, l'accessibilité et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour coupler ces ensembles de données. Cette initiative vise également à explorer les données ouvertes pour les statistiques officielles et à appuyer la recherche géospatiale dans divers domaines. Les ensembles de données et le code de l'ECDO sont disponibles sur le site Web de Statistique Canada à l'adresse suivante : Environnement de couplage de données ouvertes

La BDOICA est une base de données sur les installations culturelles et artistiques diffusée sous forme de données ouvertes. Les sources de données comprennent les différents ordres de gouvernement au CanadaNote de bas de page 1 ainsi que les associations professionnelles. Le présent document décrit en détail le processus de collecte, de compilation et de normalisation des ensembles de données individuels des installations culturelles et artistiques qui ont servi à créer la BDOICA. La BDOICA est offerte dans le cadre de la Licence du gouvernement ouvert – Canada.

Dans sa version actuelle (Version 1.0), la BDOICA contient environ 8 000 enregistrements individuels. On prévoit mettre à jour périodiquement la base de données à mesure que de nouveaux ensembles de données ouvertes seront rendus disponibles. La BDOICA est fournie sous forme de fichier CSV (champs séparés par des virgules) compressé.

2. Sources de données

De nombreuses sources de données ont été utilisées pour créer la BDOICA. Les sources de données utilisées sont détaillés dans un fichier CSV « Sources de données » situé dans le dossier de données compressé disponible pour le téléchargement sur le site web de la BDOICA. Les liens vers les ensembles de données originales, les licences ou les conditions d'utilisation, les mentions et les notes supplémentaires sont donnés dans le fichier CSV « Sources de données ». Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent consulter directement les portails de données ouvertes des fournisseurs de données en question. En plus des bases de données faisant l'objet d'une licence ouverte, la BDOICA comprend également un ensemble de listes accessibles au public d'installations culturelles et artistiques dont l'inclusion a été autorisée par les fournisseurs de données.

Les données ouvertes se distinguent des autres données accessibles au public en raison des conditions de licence (explicites ou implicites) qui accompagnent chaque ensemble de données sources utilisé. Les licences de données ouvertes autorisent, à divers degrés, la facilité d'utilisation à des fins légitimes, la redistribution (rediffusion), la modification et le reconditionnement des données. Toutefois, les licences de données ouvertes peuvent imposer des restrictions, comme la mention de la source originale, la collaboration (la rediffusion n'est autorisée que selon des conditions semblables) et l'absence d'utilisation commerciale. Les licences de données ouvertes comprennent, par exemple, Creative Commons, MIT, Gplv3 et la Licence du gouvernement ouvert du Canada. En général, aucune garantie n'est expresse et le fournisseur précise des conditions très minimes.

Les données accessibles au public qui ne sont pas des données ouvertes peuvent être associées à des licences particulières ou à des conditions d'utilisation qui restreignent généralement plusieurs aspects autrement autorisés en vertu des licences de données ouvertes.

3. Période de référence

Le CSV « Sources de données » fournit, lorsque cela est connu, la fréquence de mise à jour ou la date à laquelle chaque ensemble de données a été mis à jour par le fournisseur (ces renseignements ont été recueillis lors de l'accès à l'ensemble de données pour ce projet). De plus, le CSV « Sources de données » présente la date à laquelle chaque ensemble de données utilisé dans la BDOICA a été téléchargé. Les données ont été recueillies entre janvier 2020 et juillet 2020. Il importe de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la date de référence des données. Si l'utilisateur nécessite des renseignements précis sur la date de référence des données, il doit communiquer avec le fournisseur de données concerné.

4. Population cible

Aux fins de la présente base de données, les installations culturelles et artistiques sont des installations dont l'activité ou l'utilisation principale est d'ordre culturel ou artistique. La population cible comprend seulement les installations de culture ou d'art physiques qui offrent des programmes ou des services au grand public.

En ce qui concerne le Système de classification des industries de l'Amérique du Nord (SCIAN), les installations de la BDOICA se trouvent principalement dans les sous-secteurs suivants :

  • 711 - Arts d'interprétation, sports-spectacles et activités connexes
  • 712 - Établissements du patrimoine

Les installations sont incluses lorsque leurs principales activités sont liées à des fins artistiques ou culturelles, sans égard à la source de financement, au statut privé ou public, au type d'exploitant, à l'emplacement ou à d'autres attributs. Toutefois, les installations qui ne sont pas ouvertes au grand public ou qui sont principalement de nature commerciale ne sont pas incluses. Ainsi, un théâtre qui offrait des spectacles de ballet serait couvert, alors qu'une école de ballet qui offrait de la formation et des spectacles seulement à des élèves payants ne le serait pas.

5. Méthodologie de compilation

Cette section présente un aperçu du processus suivi pour compiler les données de la BDOICA.

Nettoyage et standardisation des données

La première composante de traitement de la BDOICA comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec les noms des variables normalisées (colonnes). Cela a été fait en utilisant une version du logiciel personnalisé OpenTabulate, développé par l'équipe ECDO. Un dictionnaire de données des variables utilisées est présenté à la section 8.

En raison des différents systèmes de classification et attributs de données utilisés dans les ensembles de données sources et de la nécessité de normaliser par l'application de plusieurs étapes de traitement, il existe un risque d'introduction d'erreurs.

La méthodologie et les limites des techniques utilisées dans chaque étape du processus de nettoyage de données sont décrites ci-dessous. Les techniques de nettoyage banales, comme la suppression des espaces et de la ponctuation, ne sont pas décrites.

Analyse des adresses

L'analyseur d'adresses libpostal, une solution de traitement du langage naturel permettant d'analyser les adresses, est utilisé pour séparer les chaînes d'adresse concaténées en chaînes correspondant aux variables d'adresse, comme le nom de rue et le numéro de rue. À l'occasion, les adresses ne seront pas séparées correctement en raison du formatage non conventionnel de l'adresse originale. Il est possible que des inscriptions ayant été analysées de façon erronée n'aient pas été détectées, malgré les efforts déployés pour les relever et les corriger dans la base de données finale. Les inscriptions dont le numéro d'immeuble est composé de deux nombres séparés par un trait d'union ou une espace font exceptions. Ces inscriptions indiquent habituellement que l'analyseur d'adresses a mal analysé une adresse, par exemple, dans l'inscription « 123 100 ave », « 123 100 » est considéré comme le numéro d'immeuble et « ave », comme le nom de rue ou alors une unité n'est pas identifiée correctement (comme dans l'entrée « 3-100 rue principale »). Ces nombres sont automatiquement séparés, et, si le nom de rue est une variante du mot « rue » ou « avenue », le nombre de droite est considéré comme le nom de rue. Autrement, le nombre de gauche est inscrit dans la colonne des unités.

Un nombre limité d'inscriptions ont été modifiées manuellement lorsqu'il était évident que l'analyse n'avait pas été réalisée correctement. Prenons l'exemple des adresses comportant des nombres avec un trait d'union comme « 1035-55 rue no », qui peut avoir été interprété comme ayant le numéro « 1035-55 » et le nom de rue « rue no », plutôt que le numéro 1035 et le nom de rue « 55e rue no ». Bien que des efforts aient été déployés pour assurer que les données soient correctes, il est possible que les scripts utilisés pour traiter et analyser les adresses aient entraîné par inadvertance d'autres erreurs non détectées. Si de telles erreurs sont détectées par les utilisateurs ou par l'équipe ECDO, elles seront corrigées dans les versions futures de la BDOICA.

Suppression des enregistrements en double

La suppression des enregistrements en double est réalisée au moyen d'une mise en correspondance floue et parfaite du nom de l'installation et du nom de rue, subordonnée au numéro de rue et au nom de la province ou terroir. Par subordonnée, on veut dire qu'une comparaison floue entre deux installations est faite à condition que les numéros et les provinces ou territoires concordent. La comparaison floue est faite au moyen du progiciel FuzzyWuzzyNote de bas de page 2 de Python, qui détermine un score de similitude variant de 0 à 100 entre deux chaînes; un score de 100 signifie qu'une chaîne courte est une sous-chaîne d'une chaîne plus longue. Une valeur seuil du résultat de la comparaison est choisie de façon empirique, indiquant si une inscription est désignée comme un enregistrement en double.

Si deux inscriptions avaient le même numéro d'immeuble et la même province, les noms de rue et d'installation étaient alors comparés. Si ceux-ci étaient presque identiques (c'est-à-dire que la somme des scores de similitude des noms d'installations et des noms de rues était au moins de 195 sur une possibilité de 200), les inscriptions étaient alors désignées comme des enregistrements en double. Les enregistrements en double reconnus étaient supprimés sans intervention manuelle. Le seuil choisi s'approchait du résultat maximal pour éviter le plus possible de supprimer des faux positifs. Lorsque des enregistrements en double étaient repérés, l'enregistrement qui comptait le plus de champs remplis était conservé. Au total, 2 435 enregistrements en double ont été supprimés.

Identification des inscriptions incorrectes

Une fois les adresses analysées, les données étaient traitées au moyen d'une paire de filtres. Ainsi, les inscriptions dont le code postal ou le code de province n'était pas valide ont été relevées, puis inscrites dans un fichier séparé de la base de données pour être traitées ultérieurement. La plupart de ces enregistrements sont corrigés manuellement et sont réintroduits dans la base de données. Le choix repose sur le fait que les erreurs dans les codes postaux et les provinces peuvent être détectées et corrigées beaucoup plus facilement.

Autres étapes du nettoyage des données

  • Formatage de la saisie des données (suppression de l'espace blanc excédentaire et ponctuation), normalisation des codes postaux et des adresses, nom des provinces et territoires.
  • Pendant le traitement, la séparation des données nettoyées et des entrées dont le code postal ou le format de code de province/territoire à deux lettres est incorrect et leur correction manuelle.

Sélection du dossier à conserver en cas de doublons

Dans certains cas, une installation était mentionnée dans plus d'une source. Dans de tels cas, l'enregistrement contenant le plus d'informations disponibles a été conservé. Lorsque les renseignements entre les sources ne correspondaient pas, des outils de validation ont été utilisés pour décider lesquels conserver.

Classification utilisée et désignation de type d'installations culturelles et artistiques

Les sources de données originales utilisent diverses normes, classifications et nomenclature pour décrire le type d'installation culturelle et artistique. Malheureusement, il n'y a pas au Canada de classification universelle des installations culturelles et artistiques. Les classifications suivantes pour les installations culturelles et artistiques sont actuellement utilisées pour la Version 1.0 de la BDOICA :

  • Centre des arts ou de culture : Établissements dont l'activité principale est la promotion de la culture et des arts.
  • Artiste : Artistes individuels engagés dans la création d'œuvres artistiques.
  • Site de festival : Sites où se tiennent des festivals artistiques ou culturels.
  • Galerie : Établissements dont l'activité principale consiste à exposer des œuvres artistiques.
  • Site patrimonial ou historique : Sites d'importance culturelle, artistique ou historique.
  • Bibliothèque ou archives : Établissements dont l'activité principale consiste à exposer, à conserver et à partager des documents écrits.
  • Divers : Établissements associés d'une façon ou d'une autre à la promotion ou à la prestation de la culture ou des arts qui ne font partie d'aucune des catégories susmentionnées.
  • Musée : Établissements dont l'activité principale consiste à exposer, à conserver et à partager des collections d'artefacts, d'œuvres d'art et d'autres objets d'importance artistique, culturelle ou historique.
  • Théâtres/salles de spectacle et salles de concert : Établissements dont l'activité principale est l'exécution publique d'œuvres artistiques ou culturelles.

La classification vise à définir de grandes catégories qui permettent de distinguer les principaux types d'installations tout en permettant la mise en correspondance exacte des types d'installations propres à la source. Les types d'installations sont déterminés à partir des types d'installations propres à la source et des métadonnées sources de couverture. Les tâches sont effectuées à l'aide de mots-clés avant d'être validées, et des modifications sont apportées manuellement au besoin. Pour classer les installations en fonction des métadonnées sources, on a procédé de façon analytique au cas par cas.

Géocodage et imputation des noms de subdivision de recensement

En général, les données incluses dans la BDOICA sont les données accessibles dans les sources originales sans imputation. L'imputation des noms RSD et le géocodage, décrite ci-après, fait exception à la règle.

Les noms de subdivision de recensement (SDR)Note de bas de page 3 proviennent de deux attributs différents dans les données.

Le premier attribut comprend les coordonnées géographiques, à savoir la latitude et la longitude. Les coordonnées sont attribuées aux SDR correspondantes en liant les points de coordonnées aux polygones de la SDR au moyen d'une opération de jointure spatiale en utilisant le paquet GeoPandasNote de bas de page 4 de Python.

Le second attribut est le nom de la ville, pour lequel une mise en correspondance parfaite est faite entre le nom de la municipalité de chaque installation culturelle ou artistique et une liste de noms de SDR. Les noms de villes comportant au moins dix entrées qui n'ont pas reçu un nom de SDR par ce processus ont été attribués manuellement un nom de SDR à l'aide de noms de lieux dans GéoSuite.

Pour certaines sources, on a procédé au géocodage des sources qui fournissent des données d'adresse, mais pas de coordonnées géographiques. Pour un sous-ensemble des sources, la latitude et la longitude ont été déterminées et validées à l'aide d'outils sur Internet. Les coordonnées géographiques provenant de la source ont également été validées sur Internet. Certaines coordonnées ont également été supprimées des sources d'origine lorsqu'il a été déterminé qu'elles étaient dérivées de codes postaux ou d'autres zones géographiques agrégées, par opposition à l'adresse municipale.

Bien qu'on ait tâché d'assurer l'exactitude des coordonnées géographiques, il n'existe aucune garantie entendue et des erreurs et inexactitudes sont possibles.

Type d'installation fourni dans les ensembles de données sources

Les types d'installations tels que fournis dans les sources de données (p. ex., centre de culture ou d'exposition, bibliothèque communautaire, centre d'art, etc.) sont inclus dans la BDOICA sans modification, de nouvelle attribution ou de mise en correspondance avec une classification uniforme.

6. Couverture de la base de données

La base de données de la version actuelle de la BDOICA (Version 1.0) contient environ 8 000 installations culturelles et artistiques.

Comme on ne connaît pas avec une certitude raisonnable le nombre total d'installations culturelles et artistiques qu'il y a au pays, on n'a pas pu évaluer de façon quantitative la couverture obtenue à l'aide des sources. Toutefois, bon nombre des sources sont censées indiquer tous les établissements d'un certain type dans un secteur de compétence. Par conséquent, à l'intérieur de ces catégories de types d'établissements et de secteurs de compétence, la couverture devrait être assez complète. Toutefois, si des établissements d'une certaine catégorie ont été omis dans une source, il se pourrait qu'ils soient absents de la base de données, à moins qu'ils proviennent d'une autre source.

7. Qualité des données

Toutes les données relatives aux installations culturelles et artistiques figurant dans la BDOICA ont été recueillies auprès de sources de données gouvernementales, soit à partir de Portails de données ouvertes ou de pages Web publiques. Sauf indication contraire, les ensembles de données sous-jacents sont considérés tels quels. L'exactitude et l'exhaustivité des données sont généralement fonction des ensembles de données sources utilisés.

Classification des établissements

L'attribution du type d'installation BDOICA a été largement basée sur les types d'installations fournis par les fournisseurs de données sources. Dans les cas où les types d'installations n'étaient pas clairs ou n'étaient pas définis par le fournisseur, ils ont été classés avec l'aide des recherches supplémentaires.

Doublons

Certains ensembles de données sources se chevauchent; les ensembles de données qui ne couvrent qu'un type particulier d'installation artistique ou culturelle pour toute une province, par exemple, peuvent chevaucher des données fournies uniquement pour des villes particulières. Bien que des techniques de déduplication soient utilisées, il se peut que tous les enregistrements en double n'aient pas été supprimés. La modification des méthodes de déduplication pour trouver les enregistrements en double restants génère de nombreux faux positifs, ce qui exige une intervention manuelle supplémentaire. De plus amples renseignements sont disponibles à la sous-section Suppression des enregistrements en double ci-dessus.

Corrigeant les inscriptions incorrectes

Quelques inscriptions comportant des noms de province/territoire et des codes postaux erronés ont été détectées et corrigées manuellement. De plus amples renseignements sur l'identification des inscriptions erronées sont également fournis à la sous-section Identification des inscriptions incorrectes.

Analyse des adresses

On a fait appel à des méthodes de traitement du langage naturel pour analyser et séparer les chaînes d'adresse en variables d'adresse, comme le code postal et le numéro de voirie. Les méthodes sont reconnues pour leur rendement et leur exactitude ultramodernes, mais, comme toutes les méthodes d'apprentissage statistique, elles comportent aussi des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut donner une analyse inexacte. Après un examen manuel de la base de données, nous n'avons relevé aucune analyse inexacte. À ce stade-ci, les enregistrements des adresses dans la base de données devraient être dûment analysés.

8. Dictionnaire de données

Le dictionnaire de données ci-dessous décrit les variables contenues dans la BDOICA.

Variables des installations de culture et d'art

Variable – Index

Nom
Index
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données.
Description
Numéro d'enregistrement unique généré automatiquement lors du traitement des données.

Variable – Nom de l'installation

Nom
Nom_Installation
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de l'installation

Variable – Type d'installation source

Nom
Type_Installation_Source
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'installation créé par les fournisseurs de données

Variable – Type d'installation BDOICA

Nom
Type_Installation_BDOICA
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'installation déterminée à l'aide des critères de classification utilisés (voir la partie 5)

Variables de lieu

Variable – Unité

Nom
Unité
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro du local.

Variable – Numéro de rue

Nom
Numéro_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro d'immeuble.

Variable – Nom de rue

Nom
Nom_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la rue (type et direction).

Variable – Ville

Nom
Ville
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la ville ou municipalité (certains enregistrements peuvent indiquer le nom du quartier).

Variable – Province/territoire

Nom
Prov_Terr
Format
Chaîne de caractères
Source
Convertie en un code de deux lettres (approuvé à l'échelle internationale) après analyse à partir de la chaîne de l'adresse complète ou indiquée par le fournisseur.
Description
Nom de la province ou du territoire.

Variable – Identificateur unique de province

Nom
PRIDU
Format
Nombre entier
Source
Converti du code de province.
Description
Identificateur unique de la province.

Variable – Nom de SDR

Nom
SDR_Nom
Format
Chaîne de caractères
Source
Imputée à partir des coordonnées géographiques et des noms de ville au moyen de Geosuite 2016.
Description
Nom de la subdivision de recensement.

Variable – Identificateur unique de la SDR

Nom
SDRIDU
Format
Nombre entier
Source
Imputée à partir des coordonnées géographiques ou du nom de la SDR au moyen de GeoSuite 2016.
Description
Identificateur unique de la subdivision de recensement.

Variable – Longitude

Nom
Longitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Longitude.

Variable – Latitude

Nom
Latitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Latitude.

Variable – Fournisseur de données

Nom
Fournisseur
Format
Texte (chaîne de caractères)
Source
Créée à partir des origines de l'ensemble de données ayant servi d'intrant.
Description
Nom de la municipalité, de la région ou de la province/territoire ayant fourni l'ensemble de données.

9. Contactez-nous

Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.

Partagez cette page
Date de modification :

La Base de données ouvertes sur les établissements de soins de santé

Numéro de catalogue : 13260001
Numéro d'exemplaire : 2020001

La Base de données ouvertes sur les établissements de soins de santé (BDOESS) est une collection de données ouvertes comprenant les noms, les types et les emplacements des établissements de soins de santé au Canada. Elle est publiée en vertu de la Licence du gouvernement ouvert du Canada.

La BDOESS compile des données ouvertes, des données accessibles au public et des données fournies directement sur les établissements de soins de santé au Canada. Les sources de données comprennent les régies régionales de la santé, les gouvernements provinciaux et territoriaux, les autorités municipales, ainsi que les organismes de santé publique et de soins de santé professionnels. Cette base de données vise à fournir un meilleur accès à une liste harmonisée des établissements de soins de santé au Canada, en permettant une consultation de ces établissements sous la forme de données ouvertes. Cette base de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les données d'entrée de la BDOESS sont des ensembles de données dont les sources incluent les régies régionales de la santé, les gouvernements provinciaux et territoriaux, les autorités municipales, ainsi que les organismes de santé publique et de soins de santé professionnels. Ces ensembles de données étaient disponibles soit en vertu de l'un des types existants de licence de données ouvertes, par exemple un portail gouvernemental ouvert, soit sous la forme de données accessibles au public. Dans certains cas, les données ont été obtenues directement auprès de sources administratives. Les détails des sources utilisées sont disponibles dans les métadonnées de la BDOESS.

Les différentes sources de données utilisées ne s'appuient pas sur un système de classification uniforme. La BDOESS harmonise le type d'établissement en attribuant, à chaque établissement de soins de santé, un type parmi trois. Ce processus a été mis en œuvre sur la base du type d'établissement fourni par la source de données, ainsi qu'en utilisant d'autres recherches spécifiquement à cette fin. La BDOESS utilise les trois types d'établissements suivants : « services de soins de santé ambulatoires », « hôpitaux » et « établissements de soins infirmiers et de soins pour bénéficiaires internes ». On notera, toutefois, que les médecines douces et de remplacement (par exemple les herboristes) et certains domaines spécialisés (par exemple les chiropraticiens, les dentistes ou les spécialistes de la santé mentale) ne font pas partie de la portée de la version actuelle de la BDOESS (version 1.1).

La BDOESS ne prétend pas à une couverture exhaustive des établissements de santé et pourrait ne pas contenir tous les établissements entrant dans la portée de sa version actuelle. En dépit des efforts réalisés pour minimiser ces lacunes, des erreurs de classification du type d'établissement et de géolocalisation des établissements restent également possibles. Bien que toutes les données soient publiées à la même date, les dates à compter desquelles les données sont actuelles dépendent des dates de mise à jour des sources utilisées.

Un sous-ensemble de coordonnées géographiques disponibles des sources était validé utilisant l'internet et mis à jour lorsque nécessaire. Lorsque la latitude et la longitude n'étaient pas disponibles, on a effectué un géocodage pour certaines sources en utilisant les données d'adresse de la source. Certaines coordonnées ont également été supprimées des sources d'origine lorsqu'il a été déterminé qu'elles étaient dérivées de codes postaux ou d'autres zones géographiques agrégées, au lieu de l'adresse municipale.

On a mis en œuvre une déduplication pour supprimer les enregistrements en double, lorsque les portées de plusieurs sources se chevauchaient.

La version actuelle de la base de données (version 1.1) contient environ 7 000 enregistrements. Les données ont été recueillies à partir des sources entre novembre 2019 et mars 2020 pour la diffusion initiale, avec des données supplémentaires collectées ou autrement mises à jour de mai à juin 2020 pour la version 1.1.

Voici les variables comprises dans la BDOESS :

  • Index
  • Nom de l'établissement
  • Type d'établissement source
  • Type d'établissement BDOESS
  • Fournisseur
  • Numéro d'unité
  • Numéro de rue
  • Nom de la rue
  • Code postal
  • Ville
  • Province ou territoire
  • Adresse municipale du format source
  • Nom de la subdivision de recensement
  • Identificateur unique de la subdivision de recensement
  • Identificateur unique de la province ou territoire
  • Latitude
  • Longitude

Pour obtenir de plus amples renseignements sur la façon dont les adresses et les variables ont été compilées, veuillez consulter les métadonnées qui accompagnent la BDOESS.

Téléchargement de la BDOESS

Pour faciliter le téléchargement, la BDOESS est fournie sous la forme d'un fichier compressé au format CSV (valeurs séparées par des virgules).

Visualisant la BDOESS

Le contenu de la BDOESS peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Partagez cette page
Date de modification :

La Base de données ouvertes sur les établissements de soins de santé (BDOESS)
Document de métadonnées : concepts, méthodologie et qualité des données

Version 1.1

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

le 7 août, 2020

Table des matières

1. Aperçu

La Base de données ouvertes sur les établissements de soins de santé (BDOESS) est une base de données pancanadienne sur les établissements de soins de santé, compilée par le Centre des projets spéciaux sur les entreprises (CPSE) de Statistique Canada. Le présent document traite de la méthodologie employée pour créer la BDOESS et porte sur la première mise à jour de celle-ci (version 1.1) en août 2020. La première version de la BDOESS a été publié en avril 2020 et les principales mises à jour de la version 1.1 comprennent l'ajout de 5 nouvelles sources de données, des mises à jour des entrées avec la collaboration des fournisseurs de données, et une déduplication améliorée.

La base de données repose à la fois sur des données ouvertes et des données accessibles au public, avec la permission du propriétaire des données (un ensemble de données est désigné comme étant ouvert si les données sont distribuées en vertu d'une licence de données ouvertes). La plupart des données proviennent des administrations municipales et régionales, des gouvernements provinciaux et territoriaux, d'organismes fédéraux ou d'organismes sans but lucratif indépendants et spécialisés dans le domaine de l'information sur la santé. Les données sont obtenues au moyen du moissonnage du Web, du téléchargement ou elles sont obtenues directement de leur source.

Le principal objectif de la production de la BDOESS est la diffusion de ces renseignements grâce à l'harmonisation et à l'intégration des données de géolocalisation et, dans une faible mesure, à l'ajout de ces données à celles recueillies à partir des diverses sources.

La version 1.1 de la BDOESS renferme 7 033 enregistrements individuels. Cela représente une réduction d'environ 2 000 enregistrements par rapport à la version 1.0. Cette différence est principalement due à la déduplication améliorée (plus de 1 600 entrées supprimées) appliquée dans la version 1.1, mais aussi à la suppression de certains enregistrements à la demande des fournisseurs de données et au remplacement de la source de données utilisée pour la province de Québec. Les données obtenues au moyen du moissonnage du Web dans la version 1.0 ont été remplacées par une source ouverte dans la version 1.1. La BDOESS est présentée sous forme de fichier CSV (valeurs séparées par des virgules) compressé et devrait être mise à jour à intervalles réguliers, à mesure que de nouveaux ensembles de données seront disponibles ou que d'autres améliorations seront apportées.

La BDOESS figure parmi les divers ensembles de données créés dans le cadre de l'Environnement de couplage de données ouvertes (ECDO), une initiative du CPSE. L'ECDO est une initiative exploratoire qui vise à accroître l'utilisation et l'harmonisation des données ouvertes et accessibles au public, provenant de sources faisant autorité, en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique. L'ECDO fournit également un code à source ouverte qui relie ces ensembles de données. On peut accéder aux ensembles de données et au code de l'ECDO sur le site Web de l'Environnement de couplage de données ouvertes de Statistique Canada

2. Population cible

Un établissement de soins de santé est un lieu physique dont l'activité première est la prestation de soins de santé. Les établissements de soins de santé au Canada qui assurent des services de santé sont inclus dans cet ensemble de données. Plus précisément, en ce qui concerne le Système de classification des industries de l'Amérique du Nord (SCIAN), les industries suivantes sont visées :

  • 621 – Services de soins de santé ambulatoires
  • 622 – Hôpitaux
  • 623 – Établissements de soins infirmiers et de soins pour bénéficiaires internes

Les établissements sont inclus lorsque leurs activités principales sont liées aux soins de santé, quelle que soit leur source du financement, qu'ils soient privés ou publics, peu importe le type d'exploitant, l'emplacement ou les autres attributs non énumérés ici. En outre, comme un seul type est attribué à chaque établissement, il est possible qu'il offre plusieurs types de services mais qu'il ne soit répertorié que comme un seul. Toutefois, les médecines douces (p. ex. les herboristes) et les domaines spécialisés (p. ex. les chiropraticiens, les dentistes, les spécialistes de la santé mentale, etc.) ne sont pas inclus dans la version actuelle de la BDOESS (version 1.1). Cependant, lorsque les sources utilisées contenaient ces installations hors de portée, certaines d'entre elles pouvaient toujours être présentes dans la base de données BDOESS.

Les établissements qui font partie de domaines indirectement liés à la prestation de soins de santé globaux, comme les pharmacies, l'assistance sociale, etc., ne sont pas non plus visés par la version courante de la BDOESS.

3. Sources des données

Les sources de données ouvertes sont décrites en détail à l'annexe A et les sources de données accessibles au public figurent à l'annexe B. Les liens vers les ensembles de données originaux, les licences ou les conditions d'utilisation, les mentions et les notes supplémentaires sont également donnés aux annexes A et B. Cinq sources supplémentaires ont été ajoutées dans la mise à jour 1.1. À la demande de certains des fournisseurs de données, certaines entrées ont été mises à jour ou supprimées.

Presque toutes les sources de données utilisées pour créer cette base de données sont des sources accessibles au public, comme les administrations municipales, les gouvernements provinciaux et territoriaux, les autorités sanitaires et les organismes de santé, ainsi que des organismes sans but lucratif indépendants, spécialisés dans le domaine de l'information sur la santé. Les données ont été obtenues soit sur des portails de données ouvertes situés sur des sites Web, soit par moissonnage Web, ou encore elles ont été fournies directement par la source. Dans la plupart des cas, les sources ont été découvertes à l'aide des principaux moteurs de recherche ou par l'intermédiaire de contacts professionnels. On a cherché des sources dans toutes les provinces et tous les territoires du Canada.

Les données ouvertes se distinguent des autres données accessibles au public en raison des conditions de licence (explicites ou implicites) qui accompagnent chaque ensemble de données sources utilisé. Les licences de données ouvertes autorisent, à divers degrés, la facilité d'utilisation à des fins légitimes, la redistribution (rediffusion), la modification et le reconditionnement des données. Toutefois, les licences de données ouvertes peuvent imposer des restrictions, comme la mention de la source originale, la collaboration (la rediffusion n'est autorisée que selon des conditions semblables) et l'absence d'utilisation commerciale. Les licences de données ouvertes comprennent, par exemple, Creative Commons, MIT, Gplv3 et la Licence du gouvernement ouvert du Canada. En général, aucune garantie n'est expresse et le fournisseur précise des conditions très minimes.

Les données accessibles au public qui ne sont pas des données ouvertes peuvent être associées à des licences particulières ou à des conditions d'utilisation qui restreignent généralement plusieurs aspects autrement autorisés en vertu des licences de données ouvertes. Les sources des données ouvertes sont décrites en détail à l'annexe A et les autres sources de données accessibles au public sont présentées à l'annexe B.

Les liens menant aux ensembles de données originales de la version actuelle de la BDOESS (version 1.1), les licences ou les conditions d'utilisation, les mentions et les notes supplémentaires figurent également aux annexes A et B. Pour en savoir plus sur chaque licence, les utilisateurs peuvent consulter directement les renseignements donnés sur le portail des fournisseurs de données.

4. Période de référence et dates des dernières mises à jour

En principe, la date de référence de la base de données représenterait la date à laquelle tous les établissements de soins de santé existants à cette date ont été intégrés dans l'ensemble de données. Dans l'idéal, il s'agirait de la même date pour tous les ensembles de données utilisés, mais ce n'est pas le cas. La date de référence à laquelle une source particulière était à jour ou a été mise à jour peut varier selon le fournisseur. Dans certains cas, de tels détails ne faisaient pas partie des renseignements transmis par les fournisseurs de données.

Les annexes A et B indiquent la date à laquelle le fournisseur a mis à jour chaque ensemble de données sources pour la dernière fois (ces renseignements ont été recueillis lors de l'accès à l'ensemble de données pour ce projet). Comme il n'existait qu'une version de toutes les sources de données, c'est elle qui a été utilisée et qui est considérée être la toute dernière version qui soit disponible.

Les utilisateurs sont priés de ne pas interpréter la dernière date de mise à jour comme la date de référence des données. S'ils ont besoin de renseignements précis sur la période de référence des données, ils devraient communiquer avec les fournisseurs de données appropriés, dont le nom figure à l'annexe A, Sources des données ouvertes, et à l'annexe B, Autres sources de données accessibles au public.

5. Méthode de compilation

Cette section présente un aperçu du processus suivi pour compiler les données de la BDOESS.

Nettoyage des données

La principale composante de traitement de la base de données comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec le nom des variables (colonnes) défini pour cette base de données. Un dictionnaire de données sur les variables employées pour cette base de données est présenté à la partie 8, Dictionnaire de données. Voici les mesures prises pour nettoyer les données :

  • Analyse et normalisation des adresses
    • Les données d'adresses concaténées ont été analysées et séparées dans les variables de lieux respectives au moyen de libpostal, une solution à la fine pointe de traitement du langage naturel pour l'analyse des adresses. Des erreurs ont été commises lors de l'analyse d'un petit nombre d'adresses et elles ont été corrigées manuellement.
    • Formatage de la saisie des données (suppression de l'espace blanc excédentaire et ponctuation), normalisation des codes postaux et des adresses, nom des provinces et territoires.
    • La saisie de certaines données qui avaient été éliminées par filtrage grâce à des méthodes de nettoyage automatisées a été corrigée manuellement. Voir les détails à la partie 8.
  • Suppression des doublons
    • Les doublons sont supprimés au moyen de la mise en correspondance floue de chaînes de caractères en fonction de critères comprenant le nom de l'établissement, le nom de la rue, le numéro de voirie et les coordonnées géographiques. Les critères ont été établis de façon empirique dans le but d'éviter les faux positifs.
  • Identification des entrées erronées
    • Les entrées erronées ont été repérées à l'aide de programmes et de façon manuelle. Les entrées de données qui n'ont pas pu être traitées correctement par des techniques automatisées ont été filtrées et stockées dans un fichier distinct, avant d'être corrigées manuellement.
  • Sélection du dossier à conserver en cas de doublons
    • Dans certains cas, un établissement était mentionné dans plus d'une source. Dans de tels cas, l'enregistrement contenant le plus d'informations disponibles a été conservé. Lorsque les renseignements entre les sources ne correspondaient pas, des outils de validation ont été utilisés pour décider lesquels conserver.

Pour la mise à jour de la version 1.1, un processus de déduplication plus rigoureux a été mis en place afin de supprimer un certain nombre de doublons qui existaient dans la première version. Ce processus a été réalisé en utilisant le package Python Record Linkage Toolkit pour effectuer diverses comparaisons de chaînes sur les différentes colonnes de la base de données et le package Scikit Learn pour effectuer une classification d'apprentissage automatique afin d'identifier les enregistrements potentiellement en double. Les entrées ne contenant pas suffisamment d'informations pour être classées de cette manière ont été traitées en considérant comme des doublons potentiels toutes les paires d'enregistrements dans la même province et dont les scores de comparaison de noms d'installations dépassaient un certain seuil. Tous les doublons potentiels identifiés de cette manière ont ensuite été vérifiés manuellement avant d'être supprimés. Pour les besoins de cette base de données, l'unité d'analyse est un établissement de soins de santé plutôt qu'un service particulier, et donc dans les cas où un établissement (tel qu'un complexe hospitalier) contient plusieurs services individuels, ceux-ci sont réduits à une seule entrée. À la suite de ce processus, plus de 1 600 doublons ont été supprimés.

Au cours de la validation, des changements peuvent avoir été apportés aux noms et adresses des installations lorsque cela a été jugé approprié. Cela peut entraîner des divergences occasionnelles entre les colonnes des numéros et noms de rue et la colonne de l'adresse source originale. Pour en savoir plus sur le logiciel de traitement des données, voir la page Github du CPSE « OpenTabulate ».

Détermination des types d'établissements de soins de santé

Les sources de données originales utilisent diverses normes, classifications et nomenclatures pour décrire le type d'un établissement de soins de santé. Malheureusement, il n'existe aucune classification universelle des établissements de soins de santé au Canada. Chacune des autorités sanitaires possède sa propre méthode pour classer ses établissements, selon divers systèmes de classification. Voici la classification des établissements de soins de santé qui est actuellement utilisée pour la base de données :

  • Services de soins de santé ambulatoires : Établissements dont l'activité principale consiste à dispenser directement ou indirectement des soins de santé à des malades ambulatoires. (Par exemple : clinique, centre de santé mentale.)
  • Hôpitaux : Établissements reconnus comme des hôpitaux agréés dont l'activité principale consiste à fournir des services diagnostiques et thérapeutiques aux bénéficiaires internes ainsi qu'à héberger ces derniers dans des conditions particulières. (Par exemple : service d'urgence, hôpital général.)
  • Établissements de soins infirmiers et de soins pour bénéficiaires internes : Établissements dont l'activité principale consiste à fournir des soins et des services infirmiers, des services de surveillance ou des soins divers aux malades. (Par exemple : maison de repos.)

La classification a pour but de définir des catégories larges qui permettent d'établir une distinction entre les principaux types d'établissements, tout en permettant la mise en correspondance exacte des types d'établissements propres à la source. Les types d'établissements sont déterminés à partir des types d'établissements propres à la source (p. ex. les centres de traitement du cancer sont classés comme des « hôpitaux ») et des métadonnées sources de couverture. Les tâches sont effectuées à l'aide de mots-clés avant d'être validées, et des modifications sont apportées manuellement, au besoin. Pour classer les établissements en fonction des métadonnées sources, on a procédé de façon analytique au cas par cas.

Le tableau 1 illustre l'utilisation de mots-clés pour attribuer des catégories de types aux établissements de soins de santé en fonction de la classification employée pour la BDOESS.

Tableau 1 Exemples de critères d'attribution des types d'établissements de soins de santé (selon les mots-clés)
Variables Condition Valeur Classification
Type d'établissement contient les mots-clés  « centre de santé communautaire » Services de soins de santé ambulatoires
Type d'établissement contient les mots-clés « hôpital », « centre de cancérologie », « centre de santé » Hôpitaux
Type d'établissement contient les mots-clés « vie active des personnes âgées », « maison de repos », « soins de longue durée » Établissements de soins infirmiers et de soins pour bénéficiaires internes

Géocodage et détermination de la subdivision de recensement (SDR ou municipalité)

Pour certaines sources, on a procédé au géocodage des sources qui fournissent des données d'adresse, mais pas de coordonnées géographiques. Pour un sous-ensemble des sources, la latitude et la longitude ont été déterminées et validées à l'aide d'outils sur Internet. Les coordonnées géographiques provenant de la source ont également été validées sur Internet. Certaines coordonnées ont également été supprimées des sources d'origine lorsqu'il a été déterminé qu'elles étaient dérivées de codes postaux ou d'autres zones géographiques agrégées, par opposition à l'adresse municipale.

Note : Bien qu'on ait tâché d'assurer l'exactitude des coordonnées géographiques, il n'existe aucune garantie entendue et des erreurs et inexactitudes sont possibles.

La subdivision de recensement (SDR)Note de bas de page 1 (ou la municipalité) provient des coordonnées géographiques obtenues en établissant un lien avec les polygones de SDR à l'aide d'une opération de jointure spatiale en utilisant le package Python GeoPandas ou en utilisant le nom de la ville qui figure dans le champ d'adresse de l'enregistrement à l'aide de GéoSuite.

6. Couverture de la base de données

La base de données de la version actuelle de la BDOESS (version 1.1) renferme 7 033 établissements de soins de santé.

Comme on ne connaît pas avec une certitude raisonnable le nombre total d'établissements de soins de santé qu'il y a au pays, on n'a pas pu évaluer de façon quantitative la couverture obtenue à l'aide des sources. Toutefois, bon nombre des sources sont censées indiquer tous les établissements d'un certain type (p. ex. hôpital de soins actifs, soins en établissement) dans un secteur de compétence. Par conséquent, à l'intérieur de ces catégories de types d'établissements et de secteurs de compétence, la couverture devrait être assez complète. Toutefois, si des établissements d'une certaine catégorie ont été omis dans une source, p. ex. des cliniques de consultation externe, il se pourrait qu'ils soient absents de la base de données, à moins qu'ils proviennent d'une autre source.

7. Qualité des données

L'exactitude et l'exhaustivité des données sont généralement fonction des ensembles de données sources utilisés. Sauf indication contraire, les ensembles de données sous-jacents sont considérés tels quels.

Classification des établissements
L'attribution du type d'établissement de BDOESS a été largement basée sur les types d'établissements fournis par les fournisseurs de données sources. Dans les cas où les types d'établissements n'étaient pas clairs ou n'étaient pas définis par le fournisseur, ils ont été classés avec l'aide des recherches supplémentaires.
Doublons
Certains ensembles de données fournissent des données pour lesquelles les lignes ne représentent pas des établissements uniques. Bien qu'on ait recours à des techniques de déduplication, il est prévu qu'il reste quelques doublons.
Analyse des adresses
On a fait appel à des méthodes de traitement du langage naturel pour analyser et séparer les chaînes d'adresse en variables d'adresse, comme le code postal et le numéro de voirie. Les méthodes sont reconnues pour leur rendement et leur exactitude ultramodernes, mais, comme toutes les méthodes d'apprentissage statistique, elles comportent aussi des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut donner une analyse inexacte. Après un examen manuel de la base de données, nous n'avons relevé aucune analyse inexacte. À ce stade-ci, les enregistrements des adresses dans la base de données devraient être dûment analysés.
Coordonnées géographiques
Certains établissements qui n'avaient pas de coordonnées géographiques ont été géocodées à l'aide de l'API Nominatim d'OpenStreetMap. L'exactitude du géocodage a été validée manuellement grâce aux services cartographiques propriétaires disponibles sur Internet. Dans certains cas, les coordonnées des établissements ont également été déterminées manuellement à partir des services cartographiques en ligne.

8. Dictionnaire de données

Le présent dictionnaire de données décrit les variables qui figurent dans la BDOESS. La base de données est présentée en format CSV. Chaque établissement est répertorié par ligne et ses attributs sont indiqués dans les colonnes. Les variables des colonnes correspondantes sont décrites dans le dictionnaire de données ci-dessous.

Variables des établissements de soins de santé

Variable – Index

Nom
index
Format
Alphanumérique
Source
Attribuée par série
Description
Numéro de série unique pour chaque établissement. Les entrées supplémentaires de la version 1.1 sont identifiées par le préfixe "S" suivi d'un numéro de série attribué

Variable – Nom de l'établissement

Nom
nom_établissement
Format
Chaîne
Source
Fournie telle quelle à partir des données originales
Description
Nom de l'établissement de santé

Variable – Type d'établissement source

Nom
type_établissement_source
Format
Chaîne
Source
Fournie telle quelle à partir des données originales
Description
Type d'établissement de santé attribué par l'autorité sanitaire régionale

Variable – Type d'établissement BDOESS

Nom
type_établissement_bdoess
Format
Chaîne
Source
Imputée à partir des métadonnées ou des données sources
Description
Valeur déterminée à l'aide des critères de classification utilisés (voir la partie 5)

Variable – Fournisseur

Nom
fournisseur
Format
Chaîne
Source
Attribuée en fonction de l'identité du fournisseur
Description
L'identité ou le nom du fournisseur de données

Variables de lieu

Variable – Numéro d'unité

Nom
numéro_unité
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Numéro d'unité municipale ou de bureau

Variable – Numéro de rue

Nom
numéro_rue
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Numéro civique

Variable – Nom de la rue

Nom
nom_rue
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Nom de la rue (type et direction)

Variable – Code postal

Nom
code_postal
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Code postal de l'établissement

Variable – Ville

Nom
ville
Format
Chaîne
Source
Analysée à partir d'une chaîne d'adresse complète ou fournie telle quelle
Description
Nom de la ville.

Variable – Province ou territoire

Nom
province
Format
Chaîne
Source
Convertie en codes à deux lettres après l'analyse d'une chaîne d'adresse complète ou fournie telle quelle ou encore indiquée par le fournisseur
Description
Nom de la province ou du territoire

Variable – Adresse municipale du format source

Nom
adresse_municipale_format_source
Format
Chaîne
Source
Adresse municipale selon la source de données fournie telle quelle
Description
Adresse municipale dans les données sources

Variable – Nom de la SDR

Nom
sdrnom
Format
Chaîne
Source
Imputée à partir des coordonnées géographiques et des noms de villes
Description
Nom de la subdivision de recensement

Variable – Identificateur unique de la SDR

Nom
sdridu
Format
Nombre entier
Source
Imputée à partir du nom de la SDR à l'aide de Géosuite 2016
Description
Identificateur unique de la subdivision de recensement

Variable – Identificateur unique de la province

Nom
pridu
Format
Nombre entier
Source
Imputée à partir des deux premiers chiffres de l'identificateur unique de la SDR
Description
Identificateur unique de la province

Variable – Latitude

Nom
latitude
Format
Flottant
Source
Fournie telle quelle à partir des données originales ou de la valeur corrigée si la valeur source a été jugée inexacte pendant la validation
Description
Latitude

Variable – Longitude

Nom
longitude
Format
Flottant
Source
Fournie telle quelle à partir des données originales ou de la valeur corrigée si la valeur source a été jugée inexacte pendant la validation
Description
Longitude

9. Contactez-nous

Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.

Annexe A : Sources de données ouvertes

Sources de données ouvertes
Fournisseur de données Province ou territoire Lien Lien vers la licence ou les conditions d'utilisation Dernière mise à jour par le fournisseur Aperçu Nouvelle source pour la BDOESS version 1.1
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Emergency Rooms in BC Open Government Licence - British Columbia 12/24/2019 Services d'urgence en Colombie-Britannique Non
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Hospitals in BC Open Government Licence - British Columbia 12/25/2019 Hôpitaux en Colombie-Britannique Non
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Residential Care Facilities Open Government Licence - British Columbia 12/26/2019 Soins en établissement en Colombie-Britannique Non
Colombie-Britannique (Province) Colombie-Britannique HealthLinkBC - Walk-in Clinics in BC Open Government Licence - British Columbia 12/27/2019 Cliniques sans rendez-vous en Colombie-Britannique Non
Moncton (Municipalité) Nouveau-Brunswick Ville de Moncton - Établissements de soins aux personnes âgées Ville de Moncton - Conditions d'utilisations des ensembles de données 3/19/2010 Établissements de soins aux personnes âgées de la région du Grand Moncton Oui
Moncton (Municipalité) Nouveau-Brunswick Ville de Moncton - Cliniques médicales Ville de Moncton - Conditions d'utilisations des ensembles de données 3/19/2010 Cliniques médicales de la région du Grand Moncton Oui
Nouveau-Brunswick (province) Nouveau-Brunswick Nouveau-Brunswick numérique - Foyers de soins agrées Licence du gouvernement ouvert - Nouveau-Brunswick 7/16/2020 Liste des foyers de soins agrées au Nouveau-Brunswick Oui
Nouvelle-Écosse (Province) Nouvelle-Écosse Open Data Nova Scotia - Hospitals Nova Scotia Open Government Licence 2/15/2019 Hôpitaux en Nouvelle-Écosse Non
Île-du-Prince-Édouard (province) Île-du-Prince-Édouard PEI Health Facilities PEI Health Facilities 4/17/2020 Établissements de soins de santé à l'Île-du-Prince-Édouard Oui
Île-du-Prince-Édouard (Province) Île-du-Prince-Édouard Open Data Prince Edward - Health PEI Facility Locations Licence du gouvernement ouvert – Île-du-Prince-Édouard 8/8/2019 Établissements de soins de santé à l'Île-du-Prince-Édouard Non
Québec (Québec) (Municipalité) Québec Données Québec - Ville de Québec - Lieux publics Creative Commons - Attribution 4.0 International (CC BY 4.0) 2/24/2020 Hôpitaux à Québec (Québec) Non
Québec (Province) Québec Santé et services sociaux Québec - Fichier cartographique des installations - M02 Données Quebéc - License Creative Commons (CC BY) 5/20/2020 Localisation des installations du réseau de la santé et des services sociaux Oui
Gatineau (Québec) (Municipalité) Québec Données Québec - Ville de Gatineau - Lieux publics Creative Commons - Attribution 4.0 International (CC BY 4.0) 2/25/2019 Hôpitaux à Gatineau (Québec) Non
Nouvelle-Écosse (Province) Nouvelle-Écosse Open Data Nova Scotia - Long Term Care and Residential Care Facilities Nova Scotia Open Government Licence 2/15/2019 Soins enétablissement en Nouvelle-Écosse Non
Ontario (Province) Ontario Ontario GeoHub - Ministry of Health Service Provider Locations
(via: Catalogue de données de l'Ontario - Emplacement des hôpitaux)
Licence du gouvernement ouvert – Ontario 10/15/2019 Établissements de soins de santé en Ontario Non
Régie régionale de la santé, Horizon (Nouveau-Brunswick) Nouveau-Brunswick Nouveau-Brunswick numérique - Hôpitaux au Nouveau-Brunswick opérés par le réseau de santé Horizon Licence du gouvernement ouvert- Nouveau-Brunswick 3/18/2020 Hôpitaux du Nouveau-Brunswick exploités par Horizon Non
Régie régionale de la santé, Vitalité (Nouveau-Brunswick) Nouveau-Brunswick Nouveau-Brunswick numérique - Hôpitaux au Nouveau-Brunswick opérés par le réseau de santé Vitalité Licence du gouvernement ouvert- Nouveau-Brunswick 3/18/2020 Hôpitaux du Nouveau-Brunswick exploités par Vitalité Non
Alberta (Province) Alberta Alberta Open Government - Hospital services in Alberta Open Government Licence - Alberta 7/1/2018 Hôpitaux et établissements de soins de santé en Alberta Non
Manitoba (Province) Manitoba Manitoba Government - Rural Health Care Facilities in Manitoba (renonciation) 6/30/2017 Établissements de soins de santé au Manitoba Non

Annexe B : Autres sources de données accessibles au public ou sources de données fournies directement

Autres sources de données accessibles au public ou sources de données fournies directement
Fournisseur de données Province ou territoire Lien Lien vers la licence ou les conditions d'utilisation Dernière mise à jour par le fournisseur Aperçu
Institut canadien d'information sur la santé Canada Fourni directement par courriel (renonciation) Non disponible Établissements de santé au Canada
Manitoba (Province) Manitoba Gouvernement du Manitoba - Information au sujet des délais d'attente - Carte des offices régionaux de la santé (ORS) du Manitoba Gouvernement du Manitoba -Droit d'auteur (renonciation) Non disponible Hôpitaux au Manitoba
Manitoba - Office régional de la santé de Winnipeg Manitoba Office régional de la santé de Winnipeg - Lieux et services Office régional de la santé de Winnipeg - Terms of Use and Privacy Statement Non disponible Locations d'établissements gérés par l'Office régional de la santé de Winnipeg
Manitoba - Office régional de la santé d'Entre-les-Lacs et de l'Est Manitoba Interlake-Eastern Regional Health Authority - Hospital Locations s.o. Non disponible Locations d'établissements gérés par l'Office régional de la santé d'Entre-les-Lacs et de l'Est
Manitoba - Office régional de la santé du Nord Manitoba Northern Health Region s.o. Non disponible Locations d'établissements gérés par l'Office régional de la santé du Nord
Manitoba - Santé Prairie Mountain Manitoba Prairie Mountain Health - Locations Map Prairie Mountain Health - Legal Notice and Disclaimer Non disponible Locations d'établissements gérés par Santé Prairie Mountain
Manitoba - Santé Sud Manitoba Santé Sud - Trouver des soins Santé Sud - Avertissement - Conditions d'utilisation Non disponible Locations d'établissements gérés par Santé Sud
Nunavut (territoire) Nunavut The Government of Nunavut - Qikiqtani General Hospital s.o. Non disponible Un seul hôpital au Nunavut
Agence dela santé publique du Canada Canada Fourni directement par courriel (renonciation) Non disponible Hôpitaux au Canada
Terre-Neuve-et-Labrador (Province) Terre-Neuve-et-Labrador Government of Newfoundland and Labrador - Services in Your Region Government of Newfoundland and Labrador- Disclaime r/ Copyright / Privacy Statement Non disponible Établissements de soins de santé à Terre-Neuve-et-Labrador
Territoires du Nord-Ouest (territoire) Territoires du Nord-Ouest Government of Northwest Territories - Hospitals and Health Centres Government of Northwest Territories - Terms of use (renonciation) Non disponible Établissements de soins de santé aux Territoires du Nord-Ouest
Manitoba (Province) Manitoba. Interlake-Eastern Regional Health Authority s.o. Non disponible Établissements de soins de santé au Manitoba
Yukon (territoire) Yukon Fourni directement par courriel (renonciation) Non disponible Établissements de soins de santé au Yukon
Saskatchewan (Province) Saskatchewan Saskatchewan Health Authority - Locating Facility and Service Information s.o. Non disponible Établissements de soins de santé en Saskatchewan
Partagez cette page
Date de modification :

No 37260001 au catalogue
No d'exemplaire 2022001

Version 2.1

Laboratoire d'exploration et d'intégration des données (LEID)
Centre des projets spéciaux sur les entreprises (CPSE)

Date de diffusion : 28 novembre 2022

Table des matières

Remerciements

Une première version de la base de données a été réalisée grâce au financement de Services aux Autochtones Canada (SAC) et de Relations Couronne-Autochtones et Affaires du Nord Canada (RCAANC). Cette version mise à jour, qui comprend les écoles de langue officielle en situation minoritaire, a été réalisée grâce au financement du Secrétariat du Conseil du Trésor du Canada (SCT) et en consultation avec Patrimoine canadien (PCH). Ces organisations nous ont fait part de leurs précieux commentaires, et nous les en remercions.

1. Aperçu

En vue d'explorer l'utilisation des données ouvertes pour produire les statistiques officielles et de soutenir la recherche géospatiale dans divers domaines, le Laboratoire d'exploration et d'intégration des données (LEID) a entrepris un projet en vue de créer une base de données sur les établissements d'enseignement qui soit accessible, harmonisée et fondée sur les données ouvertes ayant été publiées par plusieurs ordres de gouvernement au CanadaNote de bas de page 1. Le présent document décrit en détail le processus de collecte, de compilation et d'uniformisation des divers ensembles de données sur les établissements d'enseignement ayant servi à la création d'une mise à jour à la deuxième version de la Base de données ouvertes expérimentale sur les établissements d'enseignement (BDOEE), accessible en vertu de la Licence du gouvernement ouvert – Canada.

Dans sa version actuelle (version 2.1), la BDOEE contient 18 982 enregistrements individuels. Pour cette mise à jour de la base de données, des renseignements sur les écoles publiques des minorités de langues officielles (EMLO) ont été ajoutés à la version 2.0 existante de la BDOEE. Une EMLO s'entend d'une école anglophone au Québec ou d'une école francophone à l'extérieur du Québec. Au total, 967 enregistrements existants ont été désignés comme des enregistrements d'EMLO, et 38 nouveaux enregistrements ont été ajoutés à la version 2.1. Comme les données des EMLO ont été recueillies plus récemment que les données de la BDOEE, certains établissements dont l'adresse a changé l'ont fait mettre à jour. De plus, les coordonnées de latitude et de longitude des EMLO ont été mises à jour dans les enregistrements appariés de la BDOEE pour lesquels il manquait des données. On a ajouté des renseignements sur les RMR avec une jonction spatiale en utilisant le paquetage SFNote de bas de page 2 dans R pour tous les enregistrements comportant des données sur les coordonnées à des fins de concordance avec les EMLO. On prévoit mettre à jour périodiquement la base de données à mesure que de nouveaux ensembles de données ouvertes seront rendus disponibles. La BDOEE est fournie sous forme de fichier CSV (champs séparés par des virgules) compressé.

Cet ensemble de données figure parmi les divers ensembles de données créés dans le cadre de l'Environnement de couplage de données ouvertes (ECDO). L'ECDO est une initiative qui vise à accroître l'utilisation et l'harmonisation des données ouvertes provenant de sources faisant autorité en fournissant une série d'ensembles de données diffusés en vertu d'une licence unique, ainsi que du code source libre pour relier ces ensembles de données. On peut accéder aux ensembles de données et au code de l'ECDO sur le site Web de Statistique Canada à L'Environnement de couplage de données ouvertes.

2. Sources de données

De nombreuses sources de données ont été utilisées pour créer la BDOEE. Les fournisseurs de données, qui comprennent divers ordres de gouvernement, sont indiqués dans le matériel supplémentaire dans le Tableau 1, y compris l'attribution à chaque source de données conformément aux exigences de la licence. S'il y a lieu, la version de la licence est également indiquée. Pour en savoir plus sur les licences individuelles, les utilisateurs peuvent consulter directement les portails de données ouvertes des fournisseurs de données en question. En plus des bases de données faisant l'objet d'une licence ouverte, la BDOEE comprend également un ensemble de listes accessibles au public d'établissements d'enseignement dont l'inclusion a été autorisée par les fournisseurs de données.

En raison de l'inclusion de la variable EMLO dans la version 2.1 de la BDOEE, toutes les sources d'information sur les EMLO sont incluses dans le tableau 2 du matériel supplémentaire. Pour chaque province et territoire où de multiples sources de données sur le statut d'EMLO ont été trouvées, on a choisi une seule source de données primaire qui contenait le plus grand nombre d'enregistrements et d'attributs utiles comme les niveaux scolaires et l'information sur les adresses.

En plus des sources primaires énumérées au Tableau 2, la validation a été effectuée en comparant les listes aux pages Web des conseils scolaires de la minorité linguistique officielle. Cela a permis d'ajouter un petit nombre d'établissements qui manquaient dans les sources de données initiales. Les sources supplémentaires utilisées sont énumérées dans le Tableau 3 du matériel supplémentaire

3. Période de référence

Le matériel supplémentaire présente la fréquence de mise à jour ou la date à laquelle chaque ensemble de données a été mis à jour par le fournisseur (lorsque celle-ci est connue), ainsi quela date à laquelle chaque ensemble de données utilisé dans la BDOEE a été téléchargé. Les données ont été recueillies entre août 2019 et mars 2021 pour les données de la BDOEE, et de novembre 2021 à mars 2022 pour le statut EMLO. Il importe de rappeler aux utilisateurs que la date du téléchargement ne doit pas être interprétée comme étant la période de référence des données. Si l'utilisateur nécessite des renseignements précis sur la période de référence des données, il doit communiquer avec le fournisseur de données concerné.

4. Population cible

Un établissement d'enseignement est un lieu physique dont l'activité première consiste à donner un enseignement à un ensemble d'élèves ou de participants. Tous les établissements d'enseignement au Canada sont pris en compte dans cet ensemble de données. Cela inclut tous les niveaux d'éducation, les écoles privées et publiques sans exclusions quant au mode de financement, au type d'exploitant, au domaine, à la dénomination, au type d'élève, au lieu, etc.

Compte tenu de cette définition, la base de données couvre des établissements tels que les services d'éducation de la petite enfance, la maternelle, les établissements primaires, secondaires et postsecondaires, et des centres de formation professionnelle précis (comme les écoles de coiffure). La base de données n'inclut pas les établissements d'enseignement virtuels.

Pour le statut de l'EMLO, la population cible est limitée aux écoles publiques de minoritées de langue officielle de la maternelle à la 12e année. Cela peut inclure à la fois les écoles traditionnelles et les écoles alternatives si elles sont contrôlées par des conseils ou des autorités scolaires de langue officielle minoritaire.

Seule une modification minime des ensembles de données originaux a été réalisée. Au fur et à mesure que le travail sur la BDOEE expérimentale avancera, les définitions et les seuils évolueront. Il importe de rappeler aux utilisateurs que, dans la plupart des cas, il est possible d'obtenir directement les données non modifiées dans les portails de données ouvertes des divers fournisseurs de données.

5. Méthodologie de compilation

La première composante de traitement de la base de données comprenait le reformatage des données sources au format CSV et la mise en correspondance des attributs de l'ensemble de données original avec les noms des variables normalisées (colonnes). Un dictionnaire de données des variables utilisées est présenté à la section 6. Dictionnaire de données. Afin de compiler les données dans une seule base de données, les activités suivantes ont été effectuées :

  • Les données d'adresse concaténées ont été analysées et séparées dans les composantes qui les correspondent (p. ex., unité, numéro et nom de la rue, nom de la ville, etc.) au moyen de libpostal, une solution de traitement du langage naturel pour l'analyse des adresses.
  • Déduplication au moyen de la mise en correspondance floue et parfaite de chaînes de caractères. Cette étape est réalisée de manière prudente afin d'éviter les faux positifs (pour plus de détails, voir Standardisation des données).

Les fichiers et les champs de données originaux ont été convertis dans des formats et des champs normalisés à l'aide du logiciel personnalisé OpenTabulate. Un nombre limité d'inscriptions ont été modifiées manuellement lorsqu'il était évident que l'analyse n'avait pas été réalisée correctement. Prenons l'exemple des adresses comportant des nombres avec un trait d'union comme « 1035-55 rue no », qui peut avoir été interprété comme ayant le numéro « 1035-55 » et le nom de rue « rue no », plutôt que le numéro 1035 et le nom de rue « 55e rue no ». Bien que des efforts aient été déployés pour assurer que les données soient correctes, il est possible que les scripts utilisés pour traiter et analyser les adresses aient entraîné par inadvertance d'autres erreurs non détectées. Si de telles erreurs sont détectées, elles seront corrigées dans les versions futures de la BDOEE.

En général, les données incluses dans la BDOEE sont les données accessibles dans les sources originales sans imputation. Le géocodage des entrées dont les coordonnées sont manquantes, et l'imputation des noms RSD et les niveaux de la CITE, décrite ci-après, fait exception à la règle.

Dans la version 2 de la BDOEE, l'identifiant unique est passé d'un nombre entier à un hachage calculé à partir du nom de l'établissement, de l'adresse et de l'identifiant de la source (si disponible) de l'enregistrement.

Géocodage

Les enregistrements qui ne comportaient pas de géocoordonnées provenant de la source ont été géocodés à l'aide du géocodeur ESRI ArcGIS Online (AGOL) et du géocodeur OpenStreetMap (Nominatim). Le géocodeur AGOL renvoie les coordonnées, ainsi qu'un score et un type de géocodage. Seuls les enregistrements dont le score est supérieur à 90 et dont le type d'adresse indique que les coordonnées sont soit une adresse, une sous-adresse, un point d'intérêt ou une intersection ont été retenus pour la base de données finale. Les enregistrements qui ne pouvaient pas être géocodés avec le niveau de précision décrit ci-dessus ont ensuite été transmis au géocodeur Nominatim. Les écoles ont été recherchées à l'aide du nom de l'école, de la ville et de la province, et ont été conservées si le nom de l'école obtenu correspondait de près au nom de l'école d'origine. La colonne Geo_Source indique si les coordonnées d'un enregistrement ont été fournies par la source originale ou si elles ont été géocodées.

Imputation des niveaux de la CITE

Les sources de données originales utilisent diverses normes, classifications et nomenclatures pour décrire le niveau d'éducation ou les années scolaires. La BDOEE utilise la Classification internationale type de l'éducation (CITE) pour fournir une définition normalisée du niveau d'éducation. Cela a requis la conversion des années scolaires ou du niveau d'éducation d'un établissement d'éducation à un niveau de CITE.

Les niveaux de la CITE ont été dérivés à partir des années scolaires indiquées dans les données du fournisseur, si des années sont accessibles. Autrement, le niveau d'éducation est converti en années scolaires, qui sont ensuite mises en correspondance avec les niveaux de la CITE. Les entrées dans les données d'origine qui ne contenaient pas d'informations sur le niveau d'éducation n'ont pas reçu d'attributs de CITE, alors, ces champs sont vides dans la BDOEE.

Le Tableau 1 présente la mise en correspondance directe des niveaux de la CITE avec les années scolaires, et le Tableau 2 présente les années scolaires comprises dans un niveau d'éducation par province et territoire. Il convient de souligner que la définition de la « maternelle » comme niveau d'éducation varie selon les sources de données, et que certaines de ces écoles offrent une éducation à la petite enfance. Pour éviter les faux positifs, des valeurs ne sont pas attribuées dans la colonne CITE010 pour les établissements qui indiquent accueillir des élèves du préscolaire, décrit comme un niveau d'éducation (et non une année scolaire). Par exemple, les services de garde d'enfants en Alberta comprennent la maternelle et peuvent également inclure des services pour les enfants plus jeunes, mais ils n'ont été mis en correspondance qu'avec la CITE020. Malgré le fait que certains de ces établissements offrent une éducation à la petite enfance, la notion du préscolaire semble varier entre les fournisseurs de données et les écoles. Le Tableau 2 en témoigne, le « préscolaire » étant associé à la maternelle lorsqu'il est converti en une année scolaire.

Tableau 1 : Variables du dictionnaire de données et niveaux de la CITE correspondants
Variable Nom Niveau de la CITE Années scolaires
Éducation de la petite enfance CITE010 010 Préscolaire
Maternelle CITE020 020 Maternelle
Primaire CITE1 1 1 à 6
Secondaire de premier cycle CITE2 2 7 à 9
Secondaire de deuxième cycle CITE3 3 10 à 12
Postsecondaire CITE4+ 4+ -
Tableau 2 : Définition de la conversion du niveau d'éducation en années scolaires selon la province/territoire
Province / territoire Préscolaire / maternelle Primaire Secondaire de premier cycle Secondaire de deuxième cycle
Terre-Neuve-et-Labrador, Île-du-Prince-Édouard, Nouvelle-Écosse, Alberta, Territoires-du-Nord-Ouest, Nunavut Maternelle 1 à 6 7 à 9 10 à 12
Nouveau-Brunswick Maternelle 1 à 5 6 à 8 9 à 12
Québec Maternelle 1 à 6 7 à 11
Ontario Maternelle 1 à 8 9 à 12
Manitoba Maternelle 1 à 4 5 à 8 9 à 12
Saskatchewan Maternelle 1 à 5 6 à 9 10 à 12
Colombie-Britannique, Yukon Maternelle 1 à 7 8 à 12

Imputation des noms de subdivision de recensement (SDR)

Les noms de subdivision de recensement (SDR)Note de bas de page 3 proviennent des coordonnées géographiques, à savoir la latitude et la longitude. Les coordonnées sont attribuées aux SDR correspondantes en liant les points de coordonnées aux polygones de la SDR au moyen d'une opération de jointure spatiale en utilisant le paquet GeoPandasNote de bas de page 4 de Python.

Type d'établissement fourni dans les ensembles de données sources

Le type d'établissement fourni (p. ex., public, privé, confessionnel, etc.) a été utilisé tel qu'il fût indiqué dans l'ensemble de données source sans tentative d'interprétation, de nouvelle attribution ou de mise en correspondance avec une classification uniforme. Par rapport à l'utilisation de la CITE pour normaliser les niveaux d'éducation, il n'existe aucune norme liée au type d'établissement. Lorsque la source de données n'avait pas de colonne de type mais que la source de données elle-même correspondait à un type particulier (par exemple, un fichier d'écoles publiques ou un fichier d'écoles privées), le type d'établissement a été défini manuellement.

Standardisation des données

En raison des différentes normes adoptées dans les données originales, les mesures prises pour normaliser les données peuvent donner lieu à des erreurs. Les principes clés de la méthodologie utilisée sont d'éviter les faux positifs et les modifications importantes des données. La méthodologie et les limites de chaque technique sont décrites ci-dessous. Les techniques de nettoyage banales, comme la suppression des espaces et de la ponctuation, ne sont pas décrites.

Analyse des adresses

L'analyseur d'adresses libpostal, une solution de traitement du langage naturel permettant d'analyser les adresses, est utilisé pour séparer les chaînes d'adresse concaténées en chaînes correspondant aux variables d'adresse, comme le nom de rue et le numéro de rue. À l'occasion, les adresses ne seront pas séparées correctement en raison du formatage non conventionnel de l'adresse originale. Il est possible que des inscriptions ayant été analysées de façon erronée n'aient pas été détectées, malgré les efforts déployés pour les relever et les corriger dans la base de données finale. Les inscriptions dont le numéro d'immeuble est composé de deux nombres séparés par un trait d'union ou une espace font exceptions. Ces inscriptions indiquent habituellement que l'analyseur d'adresses a mal analysé une adresse, par exemple, dans l'inscription « 123 100 ave », « 123 100 » est considéré comme le numéro d'immeuble et « ave », comme le nom de rue ou alors une unité n'est pas identifiée correctement (comme dans l'entrée « 3-100 rue principale »). Ces nombres sont automatiquement séparés, et, si le nom de rue est une variante du mot « rue » ou « avenue », le nombre de droite est considéré comme le nom de rue.

Pour les inscriptions d'EMLO où seule une adresse de case postale a été fournie, les adresses ont été supprimées et remplacées par les adresses de voirie, qui ont été trouvées au moyen de recherches manuelles sur Internet.

Finalement, une quantité limitée d'inscriptions n'ayant pas été analysées correctement ont été relevées lors d'une vérification manuelle, puis corrigées.

Suppression des enregistrements en double

La suppression des doublons a été effectuée à l'aide du paquet Record Linkage Toolkit en Python, où les distances de Levenshtein et de Cosine ont été calculées sur les champs de nom et d'adresse pour les installations au sein de la même SDR. Les paires d'enregistrements dont la métrique de similarité des chaînes de caractères était supérieure à 0,9 ont été signalées pour inspection et supprimées s'il s'agissait de doublons.

Pour les inscriptions d'EMLO, on a inspecté manuellement les paires d'enregistrements pour déterminer si les appariements indiquaient de vrais ou de faux doublons. En effectuant des recherches sur Internet pour comparer les noms et les adresses entre les paires appariées et, dans certains cas, en vérifiant la réalité de terrain au moyen de sites cartographiques, on a établi que la plupart des paires d'enregistrements étaient de faux doublons. En outre, on a constaté que plusieurs paires appartenaient à la même école, mais couvraient des années scolaires différentes — elles ont été indiquées séparément. En fin de compte, seules les inscriptions qui semblaient être des doublons évidents (noms et adresses très semblables et renseignements égaux sur les années scolaires) ainsi que les établissements dont les noms et les adresses correspondaient parfaitement ont été choisis en vue d'être supprimés.

6. Dictionnaire de données

Le dictionnaire de données ci-dessous décrit les variables contenues dans la BDOEE exploratoire.

Variable – Numéro d'enregistrement

Nom
Index
Format
Chaîne de caractères
Source
Générée à l'interne lors du traitement des données.
Description
Numéro d'enregistrement unique généré automatiquement lors du traitement des données.

Variable – Source ID

Nom
Source_ID
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
L'identifiant unique de l'enregistrement tel qu'il figure dans la source de données originale, si disponible.

Variable – Nom de l'établissement

Nom
Nom_Établissement
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de l'établissement.

Variable – Type d'établissement

Nom
Type_Établissement
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Type d'établissement (p. ex. public, privé, gouvernemental, etc.).

Variable – Nom de l'autorité

Nom
Nom_Autorité
Format
Chaîne de caractères
Source
Fournie telle quelle dans les données originales.
Description
Nom de l'autorité.

Variable – Éducation de la petite enfance

Nom
CITE010
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves de la petite enfance telle que la définit le niveau de la CITE au Tableau 1.

Variable – Maternelle

Nom
CITE020
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves de maternelle telle que la définit le niveau de la CITE au Tableau 1.

Variable – Primaire

Nom
CITE1
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves du primaire tel que le définit le niveau de la CITE au Tableau 1.

Variable – Secondaire de premier cycle

Nom
CITE2
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves au premier cycle du secondaire tel que le définit le niveau de la CITE au Tableau 1.

Variable – Secondaire de deuxième cycle

Nom
CITE3
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves au deuxième cycle du secondaire tel que le définit le niveau de la CITE au  Tableau 1.

Variable – Postsecondaire

Nom
CITE4Plus
Format
Booléen
Source
Fournie telle quelle dans les données originales ou imputées à partir des données sur les années scolaires.
Description
Accueille des élèves de niveau postsecondaire tel que le définit le niveau de la CITE au Tableau 1.

Variable – Désignation d'une école des minorités de langue officielle

Nom
Statut_EMLO
Format
Booléen
Source
Mise en correspondance des enregistrements avec une base de données des écoles publiques des minorités de langues officielles de la maternelle à la 12e année.
Description
Une école de minorité de langue officielle est une école anglophone au Québec ou une école francophone dans les autres provinces et territoires. Une valeur de 1 indique que l'enregistrement est une EMLO.

Variables de lieu

Variable – Adresse complète

Nom
Adr_Complète
Format
Chaîne de caractères
Source
Une combinaison de composants d'adresses ou fournis tels quels.
Description
Adresse complète de l'établissement.

Variable – Unité

Nom
Unité
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro du local.

Variable – Numéro de la rue

Nom
Numéro_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Numéro d'immeuble.

Variable – Nom de la rue

Nom
Nom_Rue
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la rue (type et direction).

Variable – Ville

Nom
Ville
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Nom de la municipalité.

Variable – Province/territoire

Nom
Prov_Terr
Format
Chaîne de caractères
Source
Convertie en un code de deux lettres (approuvé à l'échelle internationale) après analyse à partir de la chaîne de l'adresse complète ou indiquée par le fournisseur.
Description
Nom de la province ou du territoire.

Variable – Code postale

Nom
Code_Postale
Format
Chaîne de caractères
Source
Analysée à partir de la chaîne de l'adresse complète ou fournie telle quelle.
Description
Code postale.

Variable – Identificateur unique de province

Nom
PRIDU
Format
Nombre entier
Source
Converti du code de province.
Description
Identificateur unique de la province.

Variable – Nom de SDR

Nom
SDR_Nom
Format
Chaîne de caractères
Source
Imputée à partir des coordonnées géographiques et des noms de ville au moyen de Geosuite 2016.
Description
Nom de la subdivision de recensement.

Variable – Identificateur unique de la SDR

Nom
SDRIDU
Format
Nombre entier
Source
Imputée à partir des coordonnées géographiques ou du nom de la SDR au moyen de GeoSuite 2016.
Description
Identificateur unique de la subdivision de recensement.

Variable – Longitude

Nom
Longitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Longitude.

Variable – Latitude

Nom
Latitude
Format
Flottant
Source
Fournie telle quelle dans les données originales.
Description
Latitude.

Variable – Source géocoordonnées

Nom
Geo_Source
Format
Chaîne de caractères
Source
Créé sur la base des origines des géocoordonnées.
Description
Une indication pour savoir si la latitude et la longitude ont été fournies dans la source originale, ou si elles ont été géocodées pour la BDOEE.

Variable – Fournisseur de données

Nom
Fournisseur
Format
Chaîne de caractères
Source
Créée à partir des origines de l'ensemble de données ayant servi d'intrant.
Description
Nom de la municipalité, de la région ou de la province/territoire ayant fourni l'ensemble de données.

7. Exactitude des données

Toutes les données relatives aux établissements d'enseignement figurant dans la BDOEE ont été collectées à partir de sources de données gouvernementales, soit à partir de portails de données ouverts, soit de pages web publiques. En général, les ensembles de données obtenus ont été laissés tels quels, à l'exception d'un traitement d'uniformisation des sources afin de constituer une seule base de données.

Quelques exceptions s'appliquent aux inscriptions d'EMLO. Certaines inscriptions qui ne figuraient pas dans les sources de données d'origine ont été ajoutées après avoir été comparées aux pages Web des conseils scolaires de langue officielle en situation minoritaire. Lorsqu'il manquait des renseignements sur les écoles, comme l'adresse ou le conseil scolaire, les données ont été complétées au moyen de recherches manuelles.

L'imputation des niveaux de la CITE est réalisée de manière prudente afin d'éviter les faux positifs. En conséquence, les pourcentages des niveaux de la CITE ayant des valeurs non vides diffèrent selon le niveau.

Des méthodes de traitement du langage naturel sont utilisées pour effectuer l'analyse et la séparation des chaînes de caractères d'adresse en variables d'adresse, comme le numéro et le code postal. Les méthodes sont reconnues pour offrir un grand rendement et une grande exactitude, mais, comme pour toutes les méthodes d'apprentissage statistique, elles présentent également des limites. Un mauvais formatage ou un formatage non conventionnel des adresses peut entraîner une analyse erronée. À cette étape, il n'y a eu aucune autre tentative d'intégration à d'autres sources d'adresses; ainsi, bien qu'on s'attende généralement à ce que les enregistrements d'adresse soient corrects, des erreurs résiduelles peuvent être présentes dans la version actuelle de la base de données.

Enfin, il convient de souligner que le type d'établissement, qui distingue les établissements publics, privés et d'autres types d'établissements, a des interprétations différentes selon la province et le fournisseur de données. À titre d'exemple, les écoles religieuses peuvent être financées par l'État dans une juridiction, mais pas dans une autre.

8. Contactez-nous

Les projets de Statistique Canada sur les données ouvertes sont conçus pour être améliorés de façon continue. Pour fournir des informations sur les ajouts, les mises à jour, les corrections ou les omissions, ou pour plus d'informations, veuillez nous contacter à l'adresse suivante : statcan.lode-ecdo.statcan@statcan.gc.ca. Veuillez inclure le titre de la base de données ouvertes dans le sujet du courriel.

Numéro de catalogue : 37-26-0001
Numéro d'exemplaire : 2022001

Image
Base de données ouvertes sur les établissements d'enseignement

La Base de données ouvertes sur les établissements d'enseignement (BDOEE) est une collection de données ouvertes comprenant le nom, le type et l'emplacement d'établissements d'enseignement à l'échelle du Canada, et elle est accessible en vertu de la Licence du gouvernement ouvert – Canada.

La BDOEE regroupe des données qui proviennent principalement de portails de données ouvertes et de pages Web d'administrations municipales et provinciales. Cette base de données vise à accroître l'accès national à une collection harmonisée de micro-enregistrements touchant une variété de sujets d'intérêt public. Cet ensemble de données est une composante de l'Environnement de couplage de données ouvertes (ECDO).

Sources de données et méthodologie

Les intrants de la BDOEE sont, pour la majeure partie, des ensembles de données fournis par des sources municipales, régionales ou provinciales et qui sont accessibles au grand public par l'intermédiaire de portails ouverts gouvernementaux en vertu de divers types de licences de données ouvertes, ou sinon ces ensembles de données sont publiés sur leur site Web.

Plus particulièrement, la version actuelle de la BDOEE a été créée en rassemblant les microdonnées sur les établissements d'enseignement à partir des portails de données ouvertes, des sites Web provinciaux ou territoriaux (avec la permission des fournisseurs de données), et d'un ministère fédéral.

La version actuelle de la base de données (version 2.1) contient environ 19 000 enregistrements. La collecte de données auprès des fournisseurs de données indiqués ci-dessus a eu lieu d'août 2019 à mars 2022. Les ensembles de données individuels ont été recueillis auprès de leurs sources respectives, puis traités et harmonisés dans la BDOEE. Dans les ensembles de données originaux, chaque fournisseur de données a joint un ensemble de variables différent. Pour consulter la liste exhaustive des variables offertes par un fournisseur de données en particulier, veuillez consulter les sources originales. Vous trouverez un lien vers ces dernières dans le document de métadonnées qui accompagne la BDOEE.

Voici les variables comprises dans la BDOEE :

  • Nom de l'établissement
  • Type d'établissement
  • Nom de l'autorité
  • Niveau de la Classification internationale type de l'éducation (CITE)
  • Statut d'École des minorités de langues officielles (EMLO)
  • Adresse
  • Unité
  • Numéro de la rue
  • Nom de la rue
  • Nom de la municipalité
  • Province
  • Code postale
  • Identificateur unique de province
  • Nom de la subdivision de recensement.
  • Identificateur unique de la subdivision de recensement.
  • Nom de la région métropolitaine de recensement
  • Identificateur unique de la région métropolitaine de recensement
  • Longitude
  • Latitude
  • Source de géocodage
  • Identificateur source
  • Identificateur unique

Pour obtenir plus de renseignements sur la façon dont les variables ont été compilées, consultez le document de métadonnées qui accompagne la BDOEE.

Téléchargement de la BDOEE

Pour faciliter le téléchargement, la BDOEE et le document de métadonnées qui l'accompagnent sont en format de fichier CSV compressé.

Visualisation de la BDOEE

Le contenu de la BDOEE peut être visualisé sur une carte à l'aide du Visualiseur de l'Environnement de couplage de données ouvertes.

Centre de statistiques sur le Canada et le monde

Le Centre de statistiques sur le Canada et le monde fournit des informations sur l'activité économique et financière du Canada avec le monde. Il regroupe des données provenant de plusieurs produits de Statistique Canada et les présente dans un seul outil d'analyse interactif.

L'information est présentée par thème, dont le commerce, l'investissement, l'emploi et les voyages. Le Centre de statistiques fournit aussi des liens vers des données et des renseignements plus détaillés concernant les définitions, les concepts et les méthodes.

Comment lire la table de correspondance : SCIAN Canada 2022 version 1.0 - CITI Rév. 4

La correspondance entre le Système de classification des industries de l'Amérique du Nord (SCIAN) Canada de 2022 version 1.0 et la révision 4 de la Classification internationale type, par industrie, de toutes les branches d'activité économique (CITI, Rév. 4) est présentée ci-après dans un tableau de correspondance. Celui-ci montre l'interprétation, par le Canada, des liens entre les deux classifications.

La correspondance est présentée aux niveaux les plus bas des deux classifications, c'est-à-dire aux niveaux à six chiffres du SCIAN et à quatre chiffres de la CITI, sauf dans trois cas où les liens sont établis au niveau à 3 chiffres de la CITI alors que des liens plus précis à la CITI ne peuvent être établis.

Les liens entre les deux classifications peuvent être simples ou complexes. Les exemples suivants sont présentés afin d'illustrer comment lire le tableau.

Dans le premier exemple, une classe du SCIAN correspond exactement à une classe de la CITI, les deux classes couvrant exactement les mêmes activités. Toutes les activités du SCIAN 212210 se retrouvent dans la CITI B0710.

Exemple 1
SCIAN Canada 2022 version 1.0 CITI Rév. 4
212210 Extraction de minerais de fer B0710 Extraction de minerai de fer

Dans le deuxième exemple, chaque classe du SCIAN correspond à une partie d'une même classe de la CITI. Les SCIAN 311340, 311351 et 311352 sont tous des sous-ensembles de la CITI C1073. La dernière colonne contient les notes explicatives.

Un astérisque attaché au code alphanumérique de la CITI indique qu'une classe du SCIAN correspond à une partie d'une classe de la CITI. La note explicative fournit une description courte de la nature du chevauchement entre les classes du SCIAN et de la CITI.

Exemple 2
SCIAN Canada 2022 version 1.0 CITI Rév. 4 Notes explicatives
311340 Fabrication de confiseries non chocolatées C1073* Fabrication de cacao, chocolat et confiserie Confiseries non chocolatées (p.ex., pastilles, gommes), fabrication
311351 Fabrication de chocolat et de confiseries chocolatées à partir de fèves de cacao C1073* Fabrication de cacao, chocolat et confiserie Fabrication de chocolat et de confiseries chocolatées à partir de fèves de cacao
311352 Fabrication de confiseries à partir de chocolat acheté C1073* Fabrication de cacao, chocolat et confiserie Fabrication de confiseries à partir de chocolat acheté

Dans le troisième exemple, une classe du SCIAN est équivalente à plus d'une classe de la CITI. Le SCIAN 115210 correspond à la CITI A0612 ainsi qu'à une partie de la CITI M7500. La dernière colonne contient les notes explicatives.

Exemple 3
SCIAN Canada 2022 version 1.0 CITI Rév. 4 Notes explicatives
115210 Activités de soutien à l'élevage A0162 Activités d'appui à la production animale  
M7500* Activités de services vétérinaires Vaccination d'animaux d'élevage et de maison (sauf par les vétérinaires)

Variante du SCPAN Canada 2012 version 1.1 - Dépenses d'immobilisations en construction non résidentielle - Renseignements généraux

Statut

La variante du Système de classification des produits de l'Amérique du Nord (SCPAN) Canada 2012 portant sur les dépenses d'immobilisations en construction non résidentielle a été approuvée comme norme générale le 16 juin 2014. Elle est basée sur le SCPAN Canada 2012 version 1.1.

Transition des types d'actifs vers le SCPAN Canada 2012

Comme c'est le cas pour toutes les dépenses d'investissement, les actifs sont groupés en classes distinctes afin que l'on puisse agréger les données sur les dépenses. Depuis 1965, une classification particulière à un programme est utilisée à titre de système de classification pour les dépenses d'immobilisations en construction non résidentielle. Les changements survenus dans l'économie exigent la mise à jour des systèmes de classification de façon périodique. Le programme des dépenses en immobilisations utilisera le SCPAN, élaboré par le Canada, les États-Unis et le Mexique. Le SCPAN a également été adopté par la plupart des programmes de Statistique Canada qui comportent un volet relatif aux produits.

La conversion au SCPAN apportera plusieurs avantages :

  1. La plupart des programmes de Statistique Canada comportant un volet relatif aux produits adopteront le SCPAN, ce qui assurera la cohérence et l'uniformité des données de l'organisme.
  2. Certains produits fabriqués au Canada à l'heure actuelle n'existaient pas dans les années 1960, lorsque le système de classification a été défini. La conversion vers un nouveau système de classification permettra de classer les produits avec plus de précision.
  3. Les programmes statistiques des États-Unis et du Mexique pourraient également diffuser des données fondées sur le SCPAN. Si tel est le cas, la conversion facilitera les comparaisons internationales des données sur les produits.

Variante du SCPAN portant sur les dépenses d'immobilisations en construction non résidentielle

Les données sur les dépenses d'immobilisations fournissent des indications utiles quant à l'état du marché dans l'économie en général et dans ses divers secteurs. Voyant que ces dépenses représentent une partie importante et relativement variable des dépenses nationales brutes, l'envergure et la teneur du programme d'investissements donnent une bonne idée de la demande à laquelle les producteurs canadiens ont dû satisfaire au cours de la période en cause. De plus, l'importance relative des immobilisations projetées, au total et dans chaque secteur, permet de savoir ce que prévoient les dirigeants d'entreprise en ce qui concerne la demande future par rapport à la capacité de production actuelle. Les données recueillies sont utilisées par le Système de comptabilité nationale du Canada, particulièrement pour mesurer le produit intérieur brut (PIB) et la balance des paiements. Les gouvernements et les organismes fédéraux et provinciaux, les associations professionnelles, les universités et les organismes internationaux utilisent ces renseignements pour formuler leurs politiques et comme mesure de l'activité régionale.

La variante du SCPAN portant sur les dépenses d'immobilisations en construction non résidentielle comprend toutes les catégories du SCPAN 622 Immeubles non résidentiels et du SCPAN 623 Infrastructure (sauf immobilière), la plupart des catégories du SCPAN 671 Services de soutien à l'extraction minière, pétrolière et gazière, et les catégories concernant les services d'assainissement du SCPAN 782 Services de gestion de l'eau, des eaux usées et des déchets.

Cette variante du SCPAN ajoute deux niveaux (section et division) à la structure de classification de base; le niveau de la division se situe principalement au niveau à cinq chiffres (classe). La variante est aussi regroupée aux niveaux à six chiffres (sous-classe) et à sept chiffres (détail), dans une mesure beaucoup moindre. La variante n'utilise pas de catégories du niveau à trois chiffres (groupe). Pour permettre l'existence d'un système de variantes du SCPAN, on utilise un système de codage alphanumérique. La variante portant sur les dépenses d'immobilisations en construction non résidentielle possède ses propres codes aux niveaux de la section et de la division. Par exemple, on utilise une lettre et deux chiffres pour les douze codes de section (soit X11 à X91).

Structure hiérarchique

La structure de la variante du SCPAN 2012 portant sur les dépenses d'immobilisations en construction non résidentielle est hiérarchique. Elle comprend cinq niveaux.

niveau 1 : section (codes à trois caractères alphanumériques)
niveau 2 : division (codes à quatre ou cinq caractères alphanumériques)
niveau 3 : classe (codes types à cinq chiffres, et codes à six caractères alphanumériques)
niveau 4 : sous-classe (codes types à six chiffres, et codes à sept caractères alphanumériques)
niveau 5 : détail (codes types à sept chiffres)

Variante du SCPAN Canada 2012 version 1.1 - Renseignements généraux

Statut

Les variantes du Système de classification des produits de l'Amérique du Nord (SCPAN) Canada 2012 relatives à l'Indice des prix des produits industriels (IPPI) et à l'Indice des prix des matières brutes (IPMB) ont été approuvées comme normes générales le 27 mai 2013. Elles sont basées sur le SCPAN Canada 2012 version 1.1.

Transition des Groupes principaux de produits (GPP) vers le SCPAN Canada 2012

Comme c'est le cas pour tous les indices, les prix sont groupés en classes distinctes afin que l'on puisse agréger les données sur les prix. Depuis les années 1980, les Groupes principaux de produits (GPP) sont utilisés à titre de système de classification des produits pour l'IPPI. Les changements survenus dans l'économie exigent la mise à jour des systèmes de classification de façon périodique. L'IPPI et l'IPMB utiliseront le SCPAN, élaboré par le Canada, les États-Unis et le Mexique. Le SCPAN a également été adopté par la plupart des programmes de Statistique Canada qui comportent un volet relatif aux produits.

La conversion au SCPAN apportera plusieurs avantages :

  1. La plupart des programmes de Statistique Canada comportant un volet relatif aux produits adopteront le SCPAN, ce qui assurera la cohérence et l'uniformité des données de l'organisme.
  2. Certains produits fabriqués au Canada à l'heure actuelle n'existaient pas dans les années 1980, lorsque les GPP ont été définis. La conversion vers un nouveau système de classification permettra de classer les produits avec plus de précision.
  3. Les programmes statistiques des États-Unis et du Mexique pourraient également diffuser des données fondées sur le SCPAN. Si tel est le cas, la conversion facilitera les comparaisons internationales des données sur les produits.

Variantes du SCPAN relatives à l'IPPI et à l'IPMB

L'un des objectifs du niveau à six chiffres (sous-classe) du SCPAN Canada 2012 est d'appuyer les programmes de l'IPPI et de l'IPMB. Ce niveau renferme 1 411 sous-classes, dont 665 sont comprises dans l'IPPI et 90 dans l'IPMB.

L'IPPI sert à mesurer les variations des prix des principaux produits vendus par les fabricants au Canada. Les prix recueillis sont ceux des biens vendus au départ de l'usine. La variante relative à l'IPPI est utile pour les études analytiques portant sur la formation des prix et les comparaisons historiques. On s'en sert également pour calculer le produit intérieur brut (PIB) réel par industrie.

L'IPMB sert à mesurer les variations des prix des matières brutes achetées par les fabricants canadiens en vue d'un traitement ultérieur. Il est produit et publié conjointement avec l'IPPI, car il satisfait le même intérêt et les mêmes besoins. Tout comme la variante relative à l'IPPI, la variante relative à l'IPMB est utile pour les études analytiques portant sur la formation des prix et les comparaisons historiques. On s'en sert également pour calculer le PIB réel par industrie.

Dans les variantes relatives à l'IPPI et à l'IPMB, le SCPAN est regroupé principalement au niveau à trois chiffres (groupe) et, dans une moindre mesure, au niveau à cinq chiffres (classe). Pour permettre l'existence d'un système de variantes du SCPAN, on utilise un système de codage alphanumérique. Chaque variante possède ses propres codes au niveau de la section et/ou du groupe. Par exemple, dans le cas de l'IPPI, on utilise une lettre et deux chiffres pour les 21 codes de section (soit P11 à P92).

Structure hiérarchique

Les structures des variantes du SCPAN 2012 pour l'IPPI et l'IPMB sont hiérarchiques. Elles comprennent cinq niveaux.

niveau 1 : section (codes à trois caractères alphanumériques)
niveau 2 : groupe (codes types à trois chiffres, et codes à quatre caractères alphanumériques)
niveau 3 : classe (codes types à cinq chiffres, et codes à six caractères alphanumériques)
niveau 4 : sous-classe (codes types à six chiffres)
niveau 5 : détail (codes types à sept chiffres)