Section 6 : Utilisations des données

  1. Utilisation des fichiers de microdonnées
  2. Logiciels d'analyse statistique
  3. Utilisation des logiciels
  4. Fichiers de données géospatiales
  5. Produits pour aider l'appariement des données aux fichiers géographiques

Utilisation des fichiers de microdonnées

Les fichiers de microdonnées peuvent être utilisés avec les métadonnées qui les décrivent. À partir des fichiers de métadonnées, des fichiers de système sont créés et permettent à l'utilisateur de procéder à des extractions à partir du fichier de données et de donner une signification aux résultats. Les étapes nécessaires ou utiles pour combiner les microdonnées aux métadonnées sont présentées ci-après. La terminologie qui suit vous aidera à comprendre les étapes utilisées lors de la création d'un fichier de microdonnées.

Terminologie

  • Fichier de commandes : Le fichier de commandes, aussi appelé description de l'ensemble de données, fichier de configuration ou fichier de création, sert à définir un fichier de microdonnées. Il est écrit dans le langage du logiciel d'analyse statistique (p. ex., SPSS, SAS). Le fichier de commandes comprend habituellement le nom du fichier de microdonnées, la position des variables (position des colonnes et des décimales), les noms des variables, les étiquettes de variables et la position des valeurs manquantes.
  • Fichier de système : Lorsque le logiciel d'analyse statistique exécute le fichier de commandes sur le fichier de données brutes, un fichier de système est créé et peut être enregistré dans le format particulier du logiciel d'analyse statistique que vous utilisez (p. ex. SPSS, SAS).

Obtention d'un fichier prêt à être utilisé

Les étapes suivantes vous fournissent un bon aperçu du processus à suivre pour obtenir des fichiers de microdonnées prêts à être utilisés :

  1. Localiser et télécharger le fichier de données (FMGD ou fichier synthétique).
  2. Télécharger les métadonnées qui accompagnent le fichier de données, ce qui peut inclure un fichier de commandes pour le logiciel statistique que vous désirez utiliser. Si un fichier de commandes est inclus, vous aurez à le modifier, afin d'indiquer le fichier de données brutes dans lequel vous l'avez téléchargé (après quoi vous devrez enregistrer le fichier de commandes révisé). Passez à l'étape 4.
  3. Si le fichier de commandes ne fait pas partie de la collection de l'IDD, il doit être créé au moyen du cliché d'enregistrement, du dictionnaire de données, du guide de l'utilisateur, etc. du fichier. Même si ces ressources vous fourniront la position des champs et des étiquettes de variables, vous devrez entrer le texte de programmation pour exécuter le programme (p. ex. l'endroit où trouver le fichier de données, l'endroit où l'enregistrer, la formulation propre au logiciel statistique pour reconnaître les champs et les étiquettes de variables). *Un bon truc pour un usager moins expérimenté est d'utiliser un fichier de commandes déjà existant (soit d'un cycle précédent de la même enquête ou d'une autre enquête) et de l'adapter à ses besoins en substituant les éléments clés. Une autre suggestion consiste à poser une question dans la dlilist pour vérifier si quelqu'un de la communauté de l'IDD n'a pas déjà créé le fichier.
  4. Une fois que le fichier de commandes a été exécuté sans que des erreurs se produisent, vous venez de créer votre fichier de système. Enregistrez le fichier de système dans le même répertoire que le fichier de données brutes et le fichier de commandes, en vous assurant de lui donner un nom de fichier différent pour ne pas écraser le fichier de données brutes ou le fichier de commandes. Vous pouvez commencer à exécuter le calcul des fréquences ou à procéder aux totalisations croisées. C'est une très bonne idée de comparer les fréquences de votre fichier de système avec celles publiées par Statistique Canada. Si vous trouvez des différences, vous pourriez avoir fait une erreur dans votre programmation.

La présentation de Rachad Antonius, « Un pas de plus avec SPSS », fournit les réponses aux questions les plus fréquemment posées par les personnes-ressources de l'IDD.


Logiciels d'analyse statistique

Un logiciel d'analyse statistique est nécessaire pour rendre les fichiers de microdonnées utilisables. Il est employé pour combiner les microdonnées et les métadonnées (sous la forme d'un fichier de commandes), afin de créer un fichier de système qui sera utilisé lors de l'analyse.

À propos des logiciels d'analyse statistique

Un logiciel d'analyse statistique est un système complet pour analyser les données. Il peut recevoir les données d'à peu près tous les types de fichiers et les utiliser pour produire des rapports sous forme de tableaux, de graphiques, de courbes de distribution et de tendances, de statistiques descriptives et d'analyses statistiques complexes.

Différents types de logiciels d'analyse statistique

Il existe plusieurs logiciels d'analyse statistique sur le marché. Les trois plus populaires sont SPSS (Statistical Package for the Social Sciences), SAS (Statistical Analysis System) et STATA. Ces trois progiciels statistiques d'usage général fonctionnent par commandes et sont disponibles pour les systèmes d'exploitation Windows, Macintosh et UNIX.

Michelle Edwards, de l'Université de Guelph, a créé « SPSS, STATA, and SAS : Flavours of Statistical Software », un excellent tutoriel qui présente les différences entre ces trois logiciels d'analyse statistique.

Conversion à d'autres formats

Si un chercheur désire utiliser les données avec un logiciel différent du fichier de système disponible, des options existent.

Stat/Transfer est un programme intéressant pour effectuer la conversion d'un logiciel d'analyse statistique à un autre. Il permet, par exemple, à un fichier SPSS d'être lu par SAS et vice-versa. C'est un outil peu coûteux et très convivial.

Si le fichier de système que vous avez en main est conservé en format SPSS et que vous travaillez avec la version 14 ou plus de SPSS, vous pouvez enregistrer directement votre fichier SPSS dans un autre format statistique (SAS, Stata) en utilisant la commande SAVE AS du menu FICHIER.


Utilisation des logiciels

Beyond 20/20

Beyond 20/20 Browser est un programme gratuit fonctionnant sous Windows utilisé pour visualiser les tableaux et extraits dans Beyond 20/20, un logiciel de visionnement de données utilisé à Statistique Canada pour organiser, gérer et diffuser les données socioéconomiques.

Grâce aux fonctions de pivotement et d'emboîtement du logiciel, il est facile de passer d'une dimension à une autre et de présenter plus d'une dimension dans les rangées et colonnes. De plus, la présentation dynamique des données du logiciel Beyond 20/20 permet aux utilisateurs d'intégrer et de manipuler rapidement et facilement l'information provenant de leurs propres sources de données. Le logiciel permet également aux utilisateurs d'afficher des données dans des perspectives différentes, d'effectuer des calculs à partir des données, de créer des graphiques simples et d'enregistrer des données dans des formats pouvant être utilisés dans d'autres programmes (ainsi que pour d'autres opérations). Beyond 20/20 permet notamment d'enregistrer des données extraites en format dbase (.dbf), ce qui constitue la meilleure option à utiliser avec ArcGIS. À ce sujet, veuillez vous reporter à la section Utilisation d'un logiciel géospatial, ci-dessous. Pour obtenir de plus amples renseignements sur l'utilisation de Beyond 20/20, voir la présentation sur Beyond 20/20 de Richard Boily et Siobhan Hanratty, au Camp d'entraînement de l'IDD de 2011.

Exportation de tableaux PDF dans Excel

De nombreux fichiers PDF contiennent des tableaux qui ne peuvent être manipulés dans ce format. Ces tableaux peuvent cependant être exportés dans un tableur Excel. Pour convertir des tableaux de statistiques en format Excel, il faut la version complète d'Adobe ou d'un logiciel spécialisé comme PDF2Excel. Il existe également certaines solutions de source ouverte. Nota : Cette procédure ne fonctionnera pas si le document PDF a été enregistré à l'origine dans le format image.

Importation de tableaux Excel dans SPSS

Pour importer des données d'Excel à SPSS, assurez-vous que le tableau Excel soit formaté de la façon suivante :

  • Le tableau doit avoir, depuis le début du fichier, les noms de variables sur une ligne seule et chacun des noms de variables doit débuter par une lettre.
  • Les données devraient commencer dans la première colonne de la seconde ligne du fichier Excel.

Pour ouvrir un fichier Excel dans SPSS, sélectionner Fichier/Ouvrir/Données ou Fichier/Lire données texte à partir du menu de la fenêtre Éditeur de données dans SPSS. Sélectionnez le format de votre fichier dans le menu déroulant à côté de « Fichiers de type : ». Sélectionnez le fichier Excel dans votre répertoire de dossiers. Une boîte de dialogue s'ouvrira. Comme les variables sont au début du fichier Excel, laisser l'option Lire le nom des variables à partir de la première ligne de données cochée. Ensuite, sélectionner la feuille de calcul appropriée dans le menu déroulant. Vous pouvez ignorer les autres options et sélectionner OK. Vous devriez maintenant voir les données dans l'Éditeur de données. Assurez-vous que toutes les variables et tous les enregistrements ont été lus correctement. Enfin, enregistrez votre fichier en format SPSS en choisissant l'option Enregistrer dans le menu Fichier.

Exportation d'un fichier SPSS dans Excel

Pour exporter un fichier SPSS dans Excel, sélectionner Fichier/Enregistrer sous à partir du menu de la fenêtre de l'Éditeur de données de SPSS. Modifier le type de fichier, sélectionner Excel 97 à Excel 2010 (*.xlsx) et assurez-vous que vous avez bien coché Inscrire le nom des variables dans la feuille de calcul. Si vous désirez Enregistrer les étiquettes de valeurs qui ont été définies à la place de valeurs de données, cochez cette option. Certaines informations sur les variables comme les valeurs manquantes et les étiquettes ne seront pas incluses dans le fichier exporté dans Excel. Ensuite, sélectionnez le répertoire dans lequel vous enregistrerez votre fichier. Dans Excel, les noms de variables seront sur la première ligne en haut du fichier, alors que les données débuteront dans la première colonne de la seconde ligne.

GéoSuite

Les personnes qui utilisent GéoSuite peuvent trouver des données sur les chiffres de population et des logements pour toutes les régions géographiques types pour une année de recensement donnée, déterminer la correspondance des aires de diffusion entre l'année actuelle du recensement et les années antérieures et explorer les liens entre les régions géographiques/unités géographiques. Par exemple, vous pouvez utiliser GéoSuite pour dresser la liste de toutes les subdivisions de recensement à l'intérieur d'une région de recensement ou d'une agglomération de recensement ou dresser la liste de toutes les SDR entourant une RMR/AR et déterminer dans quelle mesure elles sont influencées par la RMR/l'AR. Cette ressource est idéale pour comprendre les rapports hiérarchiques entre des unités géographiques connexes. Depuis 2016, GéoSuite Web est maintenant offert en ligne. L'application contient la plupart des fonctionnalités de GéoSuite, version téléchargeable (MS-Access).

Fichier de conversion des codes postauxMO

Le Fichier de conversion des codes postauxMO (FCCP) est un fichier de données numériques permettant la correspondance entre les six caractères d'un code postal et les unités géographiques pour lesquelles des données du recensement et des statistiques sont produites. Le FCCP peut aussi être utilisé pour coupler les données comportant un identificateur de code postal et les caractéristiques du recensement à n'importe quel niveau géographique normalisé (p. ex., aire de diffusion ou secteur de dénombrement, secteur de recensement). Le FCCP peut être utilisé pour créer des fichiers pour n'importe quelle période depuis la mise en œuvre des codes postaux, les données identifiées avec d'anciens codes postaux pouvant être fusionnées à la classification géographique en vigueur.Pour obtenir plus d'information sur l'utilisation des fichiers FCCP ou FCCP+, veuillez vous reporter à la présentation de la Division de l'analyse de la santé, intitulée Indicateur de lien unique (ILU) du FCCP c. FCCP+, dans le dépôt de formation de l'IDD. Une autre présentation intéressante est celle de Vince Gray, intitulée Au-delà de la mise en correspondance du code postal avec la géographie de recensement.


Données géospatiales

Différence entre les cartes et les données géospatiales

Cartes statiques

Des cartes statiques sont publiées pour chaque année de recensement. À partir de 2011, les cartes statiques du recensement sont disponibles uniquement sous forme électronique en PDF. Deux produits cartographiques sont habituellement publiés : les cartes de référence et les cartes thématiques. Les cartes de référence affichent l'emplacement des régions géographiques pour lesquelles des données du recensement sont totalisées et diffusées. Les cartes thématiques illustrent la répartition spatiale des données relatives à un thème ou plus pour les régions géographiques normalisées. Ces cartes sont développées pour être imprimées, contrairement aux données géospatiales qui sont utilisées pour créer ses propres cartes à l'aide d'un système d'information géographique (SIG), comme ESRI ArcGIS ou QGIS.

Ces cartes peuvent être téléchargées gratuitement à partir du site Web du recensement pour une année donnée, sous Géographie : Cartes de référence et Cartes thématiques.

Cartes interactives

La section Cartes et géographie du site Web de Statistique Canada comprend aussi des liens avec une section pour les Cartes interactives. Cette section comporte un lien avec des cartes montrant différents endroits et lieux, limites du recensement et autres, tendances et distribution, sur la base d'une interaction entre l'utilisateur et la carte (y compris des applications de cartographie et des produits de données comportant des applications de cartographie).

Données géospatiales

Les données géospatiales définissent une ou plusieurs zones géographiques et leurs attributs en utilisant des points, des lignes, des polygones ou des pixels. À partir d'un logiciel de système d'information géographique (SIG), comme les programmes propriétaires ArcInfo ou MapInfo ou des programmes de source ouverte comme Quantum GIS, des statistiques peuvent être combinées à des données géospatiales au moyen d'une clé commune, en vue de créer des cartes thématiques. Les fichiers de données géospatiales sont couplés aux statistiques du recensement à l'aide d'un numéro d'identification commun, habituellement l'identifiant unique (ID) de chaque unité géographique.

Produits de référence de Statistique Canada

Les pages du Recensement de Statistique Canada comprennent deux grandes sections de référence qui aident les chercheurs à se familiariser avec les complexités de la géographie de Statistique Canada : Produits de référence, y compris avec le lien avec le Dictionnaire du recensement, et Documents de référence de la section de la Géographie, y compris des liens avec le Glossaire illustré et le Catalogue de la géographie

Produits géographiques

Fichiers numériques des limites

Les Fichiers numériques des limites (FNL) montrent les limites officielles utilisées pour la collecte du recensement et, par conséquent, se prolongent souvent en ligne droite dans les étendues d'eau. Contrairement aux FNL, les Fichiers des limites cartographiques (FLC) sont modifiés pour suivre les côtes et les rives qui forment le périmètre de la masse continentale du Canada, y compris les principales îles.

Les fichiers des limites sont publiés en ArcGIS, Geography Markup Language et MapInfo. Les fichiers des limites sont disponibles comme fichiers forme (.shp) depuis 2006 et en format échange (e00) auparavant. Si on utilise un logiciel ESRI, les fichiers en format échange doivent être reformatés pour être utilisés en ArcGIS, au moyen d'outils intégrés dans ArcCatalog, tandis que les fichiers forme peuvent être utilisés directement en ArcGIS.

En plus des fichiers accessibles sur le site Web de Statistique Canada, les personnes-ressources de l'IDD peuvent télécharger les fichiers des limites pour les cycles précédents du recensement, en remontant jusqu'à 1971, à partir du site de TEF et le SDW de l'IDD.

Nota : Les fichiers exécutables plus anciens que vous téléchargerez du site FTP doivent être exécutés au moyen d'un système d'exploitation plus ancien. Dans le cas des fichiers spatiaux antérieurs à 2001, vous devrez peut-être exécuter une version plus ancienne de Windows ou utiliser Windows XP Mode et Windows Virtual PC sur votre ordinateur Windows 7 (particulièrement si vous exécutez une version 74 bits de Windows 7).

Fichiers du réseau routier/Fichiers des limites des d'îlot

Les fichiers du réseau routier (FRR) comprennent le réseau routier national, les frontières des provinces/territoires et d'autres caractéristiques comme l'hydrographie, de l'information sur les attributs (par exemple, les noms de rues et les tranches d'adresses incluant les adresses véritables). La couche du réseau routier inclut les codes géographiques pour identifier les îlots, les subdivisions de recensement et les régions métropolitaines de recensement/agglomérations de recensement (comme les attributs de polygones). La seule façon d'avoir accès aux côtés d'îlot est par le FRR.


Produits pour aider l'appariement des données aux fichiers géographiques

De nombreux produits géographiques, comme les fichiers des limites, s'ouvrent uniquement au moyen de logiciels particuliers. Le Système d'information géographique (SIG) est utilisé pour lire les données géospatiales, comme les shapefiles (.shp). Si vous n'avez pas accès à ce type de logiciel, vous pouvez télécharger un logiciel qui peut lire ces fichiers. Aussi, il est possible de convertir ces fichiers en d'autres formats afin de pouvoir les ouvrir à l'aide d'un autre logiciel. Il se peut que ces logiciels ne soient pas compatibles avec votre ordinateur.

ArcInfo

Barbara Znamirowski, de l'Université Trent, Nancy Lemay, de l'Université d'Ottawa, et Jenny Marvin, de l'Université Guelph sont les auteures de « Using Statistics Canada Geospatial Data with ArcGIS 9x (ArcInfo) » (en anglais). Le but de cette présentation est d'offrir une formation pratique à l'utilisation des fichiers géographiques de Statistique Canada avec le logiciel standard dans le domaine : ArcGIS 9x de Environmental Systems Research Institute, Inc.(ESRI). On présente successivement aux lecteurs les principales caractéristiques de ArcGIS 9x, les concepts géographiques et les principes essentiels pour la compréhension et l'utilisation efficace d'un logiciel de système d'information géographique (SIG). Un exercice vient compléter la présentation.

Peter Peller, de l'Université de Calgary, et Daniel Brendle-Moczuk, de l'Université de Victoria, sont les auteurs de « Back to the Basics: The Fundamentals of Working With Statistics Canada Boundary Files ». Dans le matériel de cette séance, il est question des connaissances et des compétences de base que doivent posséder les personnes-ressources de l'IDD pour travailler avec les fichiers des limites de recensement, comme les différences entre les fichiers numériques des limites et les fichiers des limites cartographiques, les projections, la sélection des caractéristiques, la création de nouvelles couches, les découpages et les divisions et les regroupements spatiaux.

Autre

Natalie O'Toole et Peter Peller présentent l'utilisation du produit PSPP et Quantum GIS pour extraire des données de l'IDD dans leurs présentations « Using Free, Open-Source Tools to Extract and Map DLI Data (en anglais). »