Section 6 : Traitement des données

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Section suivante | Section précédente

Saisie des données

Depuis 1994, les intervieweurs saisissent directement les réponses aux questions de l'enquête au moment de l'interview. Ils utilisent à cette fin un ordinateur de bureau ou un ordinateur portatif qui contient une version automatisée du questionnaire. L'emploi d'un questionnaire automatisé réduit les délais et les coûts de traitement associés à la saisie des données, aux erreurs de transcription et à la transmission des données. On soumet les données des réponses à un cryptage pour en préserver le caractère confidentiel, puis on les transmet électroniquement au bureau régional concerné de Statistique Canada. Les données sont par la suite transmises au bureau central à Ottawa, au moyen d'une ligne protégée, pour y être traitées.

Vérification et imputation

Une partie de la vérification se fait au moment de l'interview. Lorsque les renseignements introduits sont hors-limite (trop élevées ou trop faibles) des valeurs attendues, ou encore qu'ils entrent en contradiction avec des renseignements introduits auparavant, l'intervieweur voit apparaître à l'écran de l'ordinateur des messages lui demandant de modifier les renseignements. L'intervieweur a toutefois la possibilité de passer outre les contrôles et de sauter des questions si le répondant ne connaît pas la réponse ou refuse de répondre. Pour cette raison, on soumet les données des réponses à d'autres processus de vérification et d'imputation après réception au bureau central.

Les étapes de la vérification et de l'imputation qui font partie du traitement consistent à relever les données incohérentes ou manquantes et à apporter les modifications nécessaires. Comme la valeur réelle de chaque inscription sur le questionnaire n'est pas connue, la seule façon de discerner les erreurs consiste à chercher les incohérences évidentes (par exemple, un répondant de 15 ans dont le dernier emploi remonte à 1940). Si une valeur est suspecte mais raisonnable, elle sera incluse dans les statistiques mensuelles. Il faut donc insister sur l'importance du contrôle de la qualité et former adéquatement les intervieweurs pour s’assurer que les erreurs soient le moins nombreuses possible et ne se produisent pas de façon systématique.

Au cours de l’étape de la vérification du traitement, on peut constater que tous les éléments du questionnaire des particuliers (personnes) au sein du ménage sont manquants. C’est ce qu’on appelle la non-réponse complète (ou totale). Il y a non-réponse partielle lorsque seulement certains éléments du questionnaire sont manquants. L’imputation et l’ajustement de la pondération pour la non-réponse sont les méthodes utilisées pour régler les cas de non-réponse complète. L’imputation est la méthode utilisée pour résoudre les cas de non-réponse partielle. Les méthodes d’imputation utilisées dans le cadre de l’EPA comprennent l’imputation par report, l’imputation déterministe et l’imputation par enregistrement donneur (hot-deck). La méthode d’ajustement pour la non-réponse est examinée plus bas dans la sous-section intitulée Pondération.

Lorsque l’on décèle des erreurs ou des omissions, on remplace les valeurs erronées ou manquantes par l’imputation de valeurs logiquement cohérentes. C’est ce qu’on appelle l’imputation déterministe (l’imputation par substitution). Ces changements sont effectués automatiquement au moyen du système de vérification et d'imputation ou par des experts du domaine. Ils sont fondés sur des critères préétablis et peuvent faire appel à la logique interne du questionnaire, à la consultation des données des mois précédents (si elles sont disponibles) ou à l'utilisation d'enregistrements semblables pour l'imputation d'une ou de plusieurs valeurs.

Certains cas d’éléments manquants sont résolus en reportant les données du mois précédent, si elles sont disponibles et si la situation s’y prête. D’autres cas d’éléments manquants peuvent nécessiter l’utilisation de l’imputation par enregistrement donneur (hot-deck), qui comprend la copie des données d’une autre personne (c.-à-d. un « donneur ») ayant des caractéristiques semblables. Dans tous les cas, les changements apportés par suite de la vérification et de l’imputation sont enregistrés et ces renseignements sont utilisés pour évaluer divers aspects des résultats de l'enquête. Les relevés d'erreurs servent aussi à mettre en garde les intervieweurs contre les erreurs commises dans le passé afin d'éviter que celles-ci ne se reproduisent.

Codage de l'industrie et de la profession

Dans le cadre de ce processus, la description de l'emploi faite par le répondant dans le questionnaire permet l'attribution des codes de l'industrie et de la profession. Au cours de la première étape, on tente de coder chaque enregistrement au moyen de procédés informatisés. En cas d'échec, le codage se fait manuellement. Dans les deux cas, les codes attribués sont fondés sur les classifications décrites dans les manuels du Système de classification des industries de l'Amérique du Nord (SCIAN 2012) et de la Classification nationale des professions (CNP-S 2011).

Création de variables dérivées

Un certain nombre de variables du fichier de microdonnées sont calculées à partir des combinaisons de réponses au questionnaire effectuées en fonction de règles de classification. Par exemple, la situation d'activité fait l'objet de calculs fondés sur des combinaisons particulières de réponses à certaines questions de l'enquête concernant l'activité rémunérée, la situation d'emploi, la recherche d'emploi, la disponibilité, etc.

Pondération

Pour qu'il soit possible de totaliser les estimations aux niveaux d'agrégation national, provincial et infraprovincial, on pondère les données de l'échantillon.

Le plan d’échantillonnage détermine un certain nombre de facteurs de pondération devant servir au calcul des poids individuels. La principale composante est la probabilité de sélection inverse, aussi appelée « poids de base ». Par exemple, dans un secteur où 2 % des ménages sont inclus dans l'échantillon, chaque ménage se voit attribuer un poids de base de 50 (soit 1 ÷ 0,02). Le poids de base est ensuite ajusté pour tenir compte de tout sous-échantillonnage susceptible d'être observé du fait de l'expansion que pourrait avoir connu le secteur. Il est par la suite ajusté en fonction de la non-réponse et des erreurs de couverture.

Dans le cadre de l'EPA, une partie de la non-réponse de l'enquête est compensée au moyen de l’imputation : méthodes du report, de remplacement ou d’imputation par donneur (comme il est indiqué plus haut dans la sous-section intitulée Vérification et imputation). La non-réponse résiduelle est prise en compte par correction des poids attribués aux ménages répondants du même secteur. Cette manière de procéder repose sur l'hypothèse selon laquelle les caractéristiques des ménages répondants ne diffèrent pas de façon marquée de celles des ménages non répondants.

Dans la mesure où cette hypothèse s'avère juste, la non-réponse ne constitue pas une source de biais dans les estimations de l’EPA. Les poids obtenus après ajustement en fonction de la non-réponse portent le nom de sous-poids. Les poids font l'objet d'une correction finale qui sert à tenir compte des erreurs de couverture. On corrige les sous-poids afin que les estimations démographiques fondées sur les résultats de l'enquête soient conformes aux totaux de contrôle.

On utilise deux ensembles de totaux de contrôle et donc deux ensembles de poids dans les totalisations relatives à l’EPA. Premièrement, pour la plupart des tableaux, les poids sont étalonnés en fonction de totaux de population standard (âge, sexe, géographie, etc.). En ce qui concerne le deuxième ensemble de poids, on a procédé à des corrections supplémentaires pour veiller à ce que la population autochtone soit couverte correctement selon les projections du recensement. En raison de cette correction supplémentaire, les estimations de l’EPA relatives à la population totale présentées dans les tableaux portant sur les Autochtones ne correspondront pas exactement à celles figurant dans les autres tableaux.

Désaisonnalisation

La majorité des estimations relatives au marché du travail connaissent des variations saisonnières, c'est-à-dire des fluctuations qui se répètent d'année en année et qui sont attribuables au climat et à des événements périodiques tels que les périodes de vacances et les jours fériés. La désaisonnalisation sert à éliminer ces variations saisonnières dans plus de 3 000 séries de données de l'EPA, cela afin de faciliter l'analyse des fluctuations à court terme d'indicateurs importants, par exemple ceux qui ont trait à l'emploi et au chômage selon l'âge et le sexe, à l'emploi selon l'industrie ainsi qu'à l'emploi selon la catégorie de travailleurs (employés du secteur public, ceux du secteur privé ou travailleurs autonomes). Bon nombre de ces indicateurs font l'objet d'une désaisonnalisation aux échelles nationale et provinciale. Les principales estimations relatives à la population active sont également désaisonnalisées selon les régions métropolitaines de recensement (RMR). On les publie sous forme de moyennes mobiles de trois mois afin d'atténuer les fluctuations irrégulières attribuables à la faible taille des échantillons.

Procédures utilisées pour la désaisonnalisation

La méthode utilisée pour la désaisonnalisation est X-12-ARIMA, mise en oeuvre en SAS (version 9.2) Proc X12.

Pour calculer les estimations désaisonnalisées globales de l'emploi et du chômage au Canada, on fait la somme des estimations désaisonnalisées relatives aux grands groupes d'âge-sexe (les hommes de 15 à 24 ans, de 25 à 54 ans et de 55 ans et plus; les femmes de 15 à 24 ans, de 25 à 54 ans et de 55 ans et plus). L'estimation globale ainsi obtenue sert de repère pour les autres séries désaisonnalisées. Par exemple, les estimations de l'emploi selon l'industrie et la catégorie de travailleurs font l'objet de désaisonnalisations distinctes, puis sont proportionnellement augmentées ou diminuées de façon que leurs sommes correspondent à l'estimation repère globale. Cette procédure est connue sous le nom de calage. Depuis janvier 2010, le programme interne SAS Proc TSRaking de Statistique Canada sert à cette fin.

Les estimations globales de l'emploi et du chômage à l’échelle des provinces sont elles aussi calculées en faisant la somme des estimations désaisonnalisées relatives aux grands groupes d'âge-sexe (hommes de 15 à 24 ans et de 25 ans et plus; femmes de 15 à 24 ans et de 25 ans et plus). Toutefois, avant de faire le cumul, on corrige chaque estimation relative à un groupe d'âge-sexe en fonction de l'estimation nationale correspondante. De même, on corrige, toujours par la méthode de calage, les estimations de l'emploi selon l'industrie, par rapport au total de l'emploi à l’échelle provinciale.

Pour calculer les estimations désaisonnalisées de la population active relatives à un groupe particulier, on additionne les estimations désaisonnalisées de l'emploi et du chômage pour le groupe en question. De même, on détermine les taux désaisonnalisés (de chômage, par exemple) en divisant le numérateur désaisonnalisé par le dénominateur désaisonnalisé. Dans le cas du taux d'activité et du taux d'emploi, seul le numérateur est soumis à la désaisonnalisation.

Correction pour tenir compte de l’effet lié à la semaine de référence

La semaine de référence, du fait de sa définition (habituellement la semaine où tombe le 15 du mois), correspond à des dates différentes selon les années. Ces différences peuvent influer sur les variations, d'un mois à l'autre, des principales estimations liées au marché du travail. Par exemple, le nombre d'étudiants qui terminent leurs examens et arrivent sur le marché du travail avant la fin de la semaine de référence pourra être plus élevé les années où le 15^e jour de juin tombe près du début de la semaine de référence que les années où il tombe près de la fin de la semaine de référence. Les effets liés à la semaine de référence sont éliminés des séries afin de faciliter l'interprétation de la tendance sous-jacente. Ces corrections viennent compenser les effets attribuables aux semaines de référence qui surviennent plus tôt ou plus tard.

Ces effets sont estimés par la méthode de désaisonnalisation X-12-ARIMA, à partir d'un modèle de régression avec résidus ARIMA.

Correction pour tenir compte des effets des congés sur les heures effectivement travaillées

On constate en outre que les heures effectivement travaillées sont particulièrement influencées par la variabilité des dates de la semaine de référence, qui fait que certains congés fixes (Action de grâce, jour du Souvenir) ou mobiles (Pâques) tombent à l'intérieur de la semaine de référence certaines années, mais à l'extérieur de celle-ci les autres années. De même, des fluctuations peuvent aussi se produire en juillet, selon le moment où tombe la semaine de référence par rapport à la période habituelle des vacances, qui bat son plein le plus souvent dans la deuxième moitié du mois. Cette variabilité pourrait être source de fluctuations très importantes des estimations d’heures effectivement travaillées par semaine et elle est donc éliminée des séries avant le processus de désaisonnalisation.

En janvier 2010, une méthode utilisée pour les statistiques du travail du Système de comptabilité nationale a été adoptée. Des corrections a priori permanentes sont maintenant produites en additionnant les heures perdues en raison des congés déclarés par les répondants dans l'Enquête sur la population active. Les séries historiques ont été révisées au moyen de cette nouvelle méthode. Les congés qui peuvent se retrouver dans la semaine de référence et qui sont corrigés (en additionnant les heures perdues) comprennent le jour de la Famille (pour certaines provinces), la semaine de relâche de mars (pour certaines provinces), le Vendredi saint et le lundi de Pâques, les vacances de la construction en juillet au Québec, l'Action de grâce et le jour du Souvenir.

Étant donné que les heures perdues à cause des vacances ne sont pas déclarées pour les travailleurs autonomes, un modèle est utilisé pour estimer et éliminer les fluctuations systématiques attribuables aux vacances pendant les semaines de référence. Ce modèle est basé sur une régression spéciale en série chronologique d’une manière semblable à la correction des effets de calendrier effectuée pour tenir compte du moment où se situe la semaine de référence.

Depuis janvier 2015, afin de mieux tenir compte des heures réelles des travailleurs autonomes, on calcule la série désaisonnalisée des heures totales effectivement travaillées en additionnant les trois catégories désaisonnalisées de travailleurs (employés du secteur public, employées du secteur privé et travailleurs autonomes). La série provinciale est légèrement modifiée pour correspondre à ce total désaisonnalisé amélioré des heures réelles. On a révisé toutes les séries des heures réelles en fonction de cette nouvelle méthodologie, en remontant jusqu’au début des séries.

Comme les effets des congés sur les heures effectivement travaillées varient considérablement d'une industrie à l'autre, en fonction de l'observation des congés et des pratiques en ce qui a trait aux vacances d'été, les facteurs de correction a priori sont calculés et appliqués séparément pour chaque grande industrie.

Révisions annuelles courantes aux fins de désaisonnalisation

Chaque année, l’Enquête sur la population active révise ses estimations des trois années précédentes, en utilisant les facteurs saisonniers les plus récents.

La désaisonnalisation exige des données tirées des valeurs passées, actuelles et futures. À mesure que de nouvelles données deviennent disponibles, diverses composantes de séries chronologiques peuvent être mieux estimées, ce qui donne lieu à des estimations désaisonnalisées révisées et plus précises.

On revoie également chaque année les modèles et les options de désaisonnalisation de chaque série. S’il convient de le faire, on utilise des options mises à jour pour produire les estimations désaisonnalisées révisées (et obtenir les estimations désaisonnalisées chaque mois durant l’année à venir).

Autres révisions et remaniements

Tous les cinq ans, les estimations démographiques sont recalculées ou repondérées en fonction des derniers chiffres de population du recensement. Depuis janvier 2015, les estimations de l’EPA ont été ajustées pour tenir compte des chiffres de population du recensement de 2011, et aussi pour tenir compte du sous-dénombrement net, les révisions remontant à 2001. En général, l’introduction des derniers systèmes de classification pour les industries, les professions et la géographie, ainsi que d’autres changements, se produisent à ce stade-ci. Pour plus d’information, voir Révisions apportées à l'Enquête sur la population active (EPA) en 2015.

L’échantillon de l’EPA subit un remaniement tous les 10 ans pour tenir compte des nouvelles caractéristiques démographiques et des nouvelles définitions des limites géographiques. Le dernier remaniement définit de nouvelles strates en fonction du Recensement de 2011. Pour plus d’information, voir Révisions apportées à l'Enquête sur la population active (EPA) en 2015.

Le remaniement du questionnaire, de la collecte des données, ainsi que des systèmes de traitement et de diffusion se produit environ tous les 20 ans. Le prochain remaniement de ce genre est prévu pour 2017-2018. Les principaux objectifs de ce remaniement sont les suivants : 1) passer à une plateforme intégrée de collecte des données capable de soutenir les modes d’interview sur place, téléphonique et par auto-déclaration du répondant; 2) moderniser les systèmes informatiques et les processus utilisés pour vérifier, coder et traiter les données; 3) faire correspondre les produits de l’enquête au Nouveau modèle de diffusion de Statistique Canada.