Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Section 6 : Traitement des données

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Saisie des données

Depuis 1994, les intervieweurs saisissent directement les réponses aux questions de l’enquête au moment de l’interview. Ils utilisent à cette fin un ordinateur de bureau ou portatif où est chargée une version automatisée du questionnaire. L’emploi d’un questionnaire automatisé réduit les délais et coûts de traitement associés à la saisie des données, aux erreurs de transcription et à la transmission des données. On soumet les données des réponses à un cryptage pour en préserver le caractère confidentiel, puis on les transmet par modem au bureau régional concerné de Statistique Canada. Les données sont par la suite transmises à Ottawa, au moyen d’une ligne protégée, pour y être traitées. Avant que ne soit mis en place le mécanisme des interviews assistées par ordinateur (IAO), les intervieweurs inscrivaient les renseignements sur des questionnaires papier, lesquels étaient envoyés au bureau régional en vue de la saisie des données, après quoi les données étaient transmises à Ottawa.

Vérification

Une partie du contrôle se fait au moment de l’interview. Lorsque les renseignements introduits sont hors-limite (trop faibles ou trop élevées), ou encore qu’ils entrent en contradiction avec des renseignements introduits auparavant, l’intervieweur voit apparaître à l’écran de l’ordinateur des messages lui demandant de modifier les renseignements. L’intervieweur a toutefois la possibilité de passer outre les contrôles et de sauter des questions si l’enquêté ne connaît pas la réponse ou refuse de répondre. Pour cette raison, on soumet les données des réponses à d’autres processus de vérification et d’imputation après réception au bureau central.

Les étapes de la vérification et de l’imputation qui font partie du traitement consistent à relever les données incohérentes ou manquantes et à apporter les modifications nécessaires. Comme la valeur réelle de chaque inscription sur le questionnaire n’est pas connue, la seule façon de discerner les erreurs consiste à chercher les incohérences évidentes (par exemple, un enquêté de 15 ans dont le dernier emploi remonte à 1940). Si une valeur est suspecte mais raisonnable, elle sera incluse dans les statistiques mensuelles. Il faut donc insister sur l’importance du contrôle de la qualité et former adéquatement les intervieweurs pour assurer que les erreurs soient le moins nombreuses possible et ne se produisent pas de façon systématique.

On remplace les valeurs erronées ou manquantes qui ont été décelées par des valeurs logiquement cohérentes. Ces changements sont effectués automatiquement au moyen du système de vérification et d’imputation ou par des experts du domaine. Ils sont fondés sur des critères préétablis et peuvent faire appel à la logique interne du questionnaire, à la consultation des données des mois précédents (si elles sont disponibles) ou à l’utilisation d’enregistrements semblables pour l’imputation d’une ou de plusieurs valeurs. Dans tous les cas, les changements apportés par suite du contrôle sont enregistrés et ces renseignements sont utilisés pour évaluer divers aspects des résultats de l’enquête. Les relevés d’erreurs servent aussi à mettre en garde les intervieweurs contre les erreurs commises dans le passé afin d’éviter que celles-ci ne se reproduisent.

Codage de la branche d’activité et de la profession

Dans le cadre de ce processus, la description de l’emploi faite par l’enquêté dans le questionnaire permet l’attribution des codes de la branche d’activité et de la profession. Au cours de la première étape, on tente de coder chaque enregistrement au moyen de procédés informatisés. En cas d’échec, le codage se fait manuellement. Dans les deux cas, les codes attribués sont fondés sur les classifications décrites dans les guides le Système de classification des industries de l’Amérique du Nord (SCIAN 2002) et la Classification nationale des professions - statistiques (CNP-S 2001).

Création de variables calculées

Un certain nombre de variables du fichier de microdonnées est calculé à partir des réponses au questionnaire en fonction de règles de classification. Par exemple, la situation vis-à-vis de l’activité fait l’objet de calculs fondés sur des combinaisons particulières de réponses à certaines questions de l’enquête concernant l’activité rémunérée, la situation vis-à-vis de l’emploi, la recherche d’emploi, la disponibilité, etc.

Pondération

Pour qu’il soit possible de totaliser les estimations aux niveaux d’agrégation national, provincial et infraprovincial, on pondère les données de l’échantillon.

Le plan de sondage détermine un certain nombre de facteurs de pondération devant servir au calcul des poids individuels. La principale composante est la probabilité de sélection inverse, aussi appelée « poids de base ». Par exemple, dans un secteur où 2 % des ménages sont inclus dans l’échantillon, chaque ménage se voit attribuer un poids de base de 50 (soit 1 ÷ 0,02). Le poids de base est ensuite corrigé pour tenir compte de tout sous-échantillonnage susceptible d’être observé du fait de l’expansion que pourrait avoir connu le secteur. Il est par la suite corrigé en fonction de la non-réponse et des erreurs de couverture.

Dans le cadre de l’EPA, une partie de la non-réponse de l’enquête est compensée au moyen des données du mois précédent, si de telles données sont disponibles et appropriées. La non-réponse résiduelle est prise en compte par correction des poids attribués aux ménages répondants du même secteur. Cette manière de procéder repose sur l’hypothèse selon laquelle les caractéristiques des ménages répondants ne diffèrent pas de façon marquée de celles des ménages non répondants. Dans la mesure où cette hypothèse s’avère juste, la non-réponse ne constitue pas une source de biais dans les estimations. Les poids obtenus après ajustement en fonction de la non-réponse portent le nom de sous-poids. Les poids font l’objet d’une correction finale qui sert à tenir compte des erreurs de couverture. On compare les sous-poids à des estimations démographiques calculées indépendamment, et on les corrige afin que les estimations démographiques fondées sur les résultats de l’enquête soient conformes aux estimations repères. On obtient ainsi les poids définitifs qui sont employés dans les calculs liés à l’EPA.

Désaisonnalisation : procédures applicables dans le cadre de l’EPA

La majorité des estimations relatives au marché du travail connaissent des variations saisonnières, c’est-à-dire des fluctuations qui se répètent d’année en année et qui sont attribuables au climat et à des événements périodiques tels que les périodes de vacances et les jours fériés. La désaisonnalisation sert à éliminer ces variations saisonnières dans plus de 3 000 séries de données de l’EPA, cela afin de faciliter l’analyse des fluctuations à court terme d’indicateurs importants, par exemple ceux qui ont trait à l’emploi et au chômage selon l’âge et le sexe, à l’emploi selon la branche d’activité ainsi qu’à l’emploi selon la catégorie de travailleurs (employés du secteur public, ceux du secteur privé ou travailleur indépendant). Bon nombre de ces indicateurs font l’objet d’une désaisonnalisation aux niveaux national et provincial. Les principales estimations relatives à la population active sont également désaisonnalisées selon les régions métropolitaines de recensement (RMR). On les publie sous forme de moyennes mobiles de trois mois afin d’atténuer les fluctuations irrégulières attribuables à la faible taille des échantillons.

Procédures

À partir de janvier 2010, X-12-ARIMA, implémenté en SAS (version 9.2) Proc X12, servira à la désaisonnalisation, en remplacement de X-11-ARIMA utilisé depuis 1980. En janvier 2010, toutes les estimations désaisonnalisées ont fait l’objet d’une révision historique au moyen du programme X-12-ARIMA.

Pour calculer les estimations désaisonnalisées globales de l’emploi et du chômage au Canada, on fait la somme des estimations désaisonnalisées relatives aux grands groupes d’âge-sexe (les hommes de 15 à 24 ans, de 25 à 54 ans et de 55 ans et plus; les femmes de 15 à 24 ans, de 25 à 54 ans et de 55 ans et plus). L’estimation globale ainsi obtenue sert de repère pour les autres séries désaisonnalisées. Par exemple, les estimations de l’emploi selon la branche d’activité et la catégorie de travailleurs font l’objet de désaisonnalisations distinctes, puis sont proportionnellement augmentées ou diminuées de façon que leur somme corresponde à l’estimation repère globale. Cette procédure est connue sous le nom de réconciliation. À partir de janvier 2010, le programme interne SAS Proc TSRaking de Statistique Canada servira à cette fin.

Les estimations globales de l’emploi et du chômage au niveau des provinces sont elles aussi calculées en faisant la somme des estimations désaisonnalisées relatives aux grands groupes d’âge-sexe (hommes de 15 à 24 ans et de 25 ans et plus; femmes de 15 à 24 ans et de 25 ans et plus). Toutefois, avant de faire le cumul, on corrige chaque estimation relative à un groupe d’âge-sexe en fonction de l’estimation nationale correspondante, suivant la méthode précitée. De même, on corrige, toujours par la méthode itérative du quotient, les estimations de l’emploi selon la branche d’activité, par rapport au total des emplois au niveau provincial.

Pour calculer les estimations désaisonnalisées de la population active relatives à un groupe particulier, on additionne les estimations désaisonnalisées de l’emploi et du chômage pour le groupe en question. De même, on détermine les taux désaisonnalisés (de chômage, par exemple) en divisant le numérateur désaisonnalisé par le dénominateur désaisonnalisé. Dans le cas du taux d’activité et du taux d’emploi, seul le numérateur est soumis à la désaisonnalisation.

Correction pour tenir compte de l’effet lié à la semaine de référence

La semaine de référence, du fait de sa définition (habituellement la semaine où tombe le 15 du mois), correspond à des dates différentes selon les années. Ces différences peuvent influer sur les variations, d’un mois à l’autre, des principales estimations liées au marché du travail. Par exemple, le nombre d’étudiants qui terminent leurs examens et arrivent sur le marché du travail avant la fin de la semaine de référence pourra être plus élevé les années où le 15e jour de juin tombe près du début de la semaine de référence que les années où il tombe près de la fin de la semaine. Afin de supprimer les effets liés à la semaine de référence et de faciliter l’interprétation de la tendance sous-jacente, les séries repères et leurs composantes font l’objet de corrections à priori. Ces corrections éliminent les effets attribuables aux situations où le 15 du mois tombe relativement tôt ou relativement tard dans la semaine de référence.

À partir de 2010, ces effets seront estimés au moyen du programme de désaisonnalisation X-12-ARIMA, à partir d’un modèle de régression au moyen des éléments résiduels d’ARIMA.

Correction pour tenir compte des effets des congés sur les heures effectivement travaillées

On constate en outre que les heures effectivement travaillées sont particulièrement influencées par la variabilité des dates de la semaine de référence, qui fait que certains congés fixes (Action de grâce, Jour du Souvenir) ou mobiles (Pâques) tombent à l’intérieur de la semaine de référence certaines années, mais à l’extérieur de celle-ci les autres années. De même, des fluctuations peuvent aussi se produire en juillet, tout dépendant du moment où tombe la semaine de référence par rapport à la période habituelle des vacances, qui bat son plein le plus souvent dans la deuxième moitié de juillet. Ces fluctuations peuvent être source de distorsions très importantes des mouvements d’un mois à l’autre des séries désaisonnalisées, ce qui complique considérablement l’analyse des tendances.

En janvier 2010, une méthode utilisée par les statistiques du travail du Système de comptabilité nationale a été adoptée. Des corrections à priori permanentes sont maintenant produites en additionnant les heures perdues en raison des congés déclarés par les répondants dans l’Enquête sur la population active. Les séries historiques ont été révisées au moyen de cette nouvelle méthode. Les congés qui peuvent se retrouver dans une semaine de référence et qui sont corrigés au moyen des données antérieures (en additionnant les heures perdues) comprennent le jour de la Famille, la semaine de relâche de mars, le Vendredi saint et le lundi de Pâques, les vacances de la construction en juillet au Québec, l’Action de grâce et le Jour du souvenir.

Comme les effets des congés sur les heures effectivement travaillées varient considérablement d’une branche d’activité à l’autre en fonction de l’observation des congés et des pratiques en ce qui a trait aux vacances d’été, les facteurs de correction à priori sont calculés et appliqués séparément pour chaque grande branche d’activité.

Suivant | Précédent