Construction personnalisée des données de durée : un exemple de dérivation des variables de l'assurance-chômage à l'aide de SPSS

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Par Kailing Shen1

Résumé
Introduction
Organigramme de la modélisation des périodes d'AC à partir de l'EDTR
Procédures générales de manipulation des données liées à la durée
Conclusion

Résumé

Composé au départ pour la recherche de l'auteur sur l'assurance-chômage (AC), cet article résume une série de procédures qui permettent une construction personnalisée de données de durée, à l'aide du logiciel SPSS et de l'Enquête sur la dynamique du travail et du revenu (EDTR). Ces procédures peuvent servir à fusionner, déduire ou faire correspondre plusieurs ensembles de données liés à la durée.

1. Introduction

L'Enquête sur la dynamique du travail et du revenu (EDTR) constitue lune des sources de données d'une enquête canadienne par panel les plus importantes dans le cas des études sur le marché de l'emploi pour lesquelles les répercussions de la politique sur l'assurance-chômage (AC) sont demeurées l'un des enjeux fondamentaux. Mais l'utilisation de l'EDTR pour les études sur l'AC présente un problème important lié aux données – la dérivation des périodes d'AC2 et des variables  d'AC.3

Le présent document fournit le plan des procédures de modélisation que jai élaborées en utilisant l'EDTR pour les études portant sur l'AC. Il présente aussi une série générale de procédures pour la modélisation personnalisée de la durée. Les exemples donnés sont étroitement liés aux études portant sur l'AC et le marché de l'emploi , mais on s'attend à ce que la logique sous-jacente soit également utile pour d'autres domaines.
 
Dans la section 2, j'ai d'abord élaboré un organigramme du processus général de dérivation des périodes d'AC. Ensuite, la section 3 présente une série de procédures de programmation pour la manipulation des données liées à la durée. Enfin, la section 4 conclut en traitant de la possibilité d'appliquer les techniques évoquées dans le présent document en utilisant des langages informatiques autres que SPSS.

2. Organigramme de la modélisation des périodes d'AC à partir de l'EDTR

Certaines explications s'imposent ici :

En premier lieu, l'application SLIDret est fournie par Statistique Canada pour extraire les données de l'EDTR, qui est organisée comme une base de données relationnelle. Chaque requête dextraction de l'EDTR doit préciser si elle est effectuée en termes de personne, d'emploi-personne ou d'absence du travail-personne, etc. Puisque nous utilisons tous ces types de données, plusieurs requêtes SLIDret sont nécessaires. De plus, il existe un nombre limite de variables pouvant être incluses dans une interrogation. Il est souvent plus facile d'obtenir plusieurs petites requêtes qu'une grande requête.4

En deuxième lieu, toutes les périodes dont il est question plus haut sont définies en termes de calendrier, de date de début et de date de fin. Le terme « fusionner » signifie regrouper la série de dates du calendrier visées par plusieurs périodes, tandis que « déduire » signifie supprimer une série de dates d'une autre série de dates (si elles se chevauchent).

En troisième lieu, plusieurs (mais pas la totalité) des caractéristiques institutionnelles du programme d'assurance-chômage du Canada sont considérées. En particulier, les périodes non admissibles à la réception de prestations d'AC sont exclues des fenêtres d'observation (FO), et la liaison de périodes de travail rémunérées séparées par moins de 15 jours vise à satisfaire la période dattente de deux semaines de toute période initiale de versement de prestations d'AC.

En dernier lieu, l'EDTR comporte une variable de région d'AC, mais elle est définie uniformément en vertu des règlements de l'AC de juin 1996. Depuis 1993, trois ensembles de limites distinctes sont en vigueur : juillet 1994, juin 1996 et juillet 2000. Par conséquent, j'utilise ici des données de code postal pour appuyer les régions d'AC applicables à chaque point temporel.

Dans l'ensemble, l'obtention de variables d'AC est étroitement liée à la création de fenêtres d'observation et de périodes d'AC admissibles, soit des périodes de travail rémunéré. Une fois que les périodes sont constituées, il est facile de calculer les variables de traitement hebdomadaire, par l'AC, de chaque travailleur en faisant correspondre ces périodes avec les taux de chômage aux fins de l'AC en cours.

3. Procédures générales de manipulation des données liées à la durée

Plusieurs étapes décrites à la section 2 exigent la manipulation des données liées à la durée, comme la fusion, la déduction et la mise en correspondance (c'est-à-dire créer une correspondance entre deux ensembles logiquement indépendants ou dépendants de données liées à la durée, comme les fenêtres d'observation et les périodes de travail rémunéré, ainsi que les périodes de travail d'emploi rémunéré et les périodes de travail rémunéré). Ces types d'opérations devraient permettre aux chercheurs d'utiliser pleinement le potentiel des microdonnées d'enquêtes par panel grâce à la création de périodes personnalisées. Malheureusement, il nexiste pas beaucoup de documentation sur ce domaine. Voici une partie des procédures de programmation connexes que j'ai élaborées en utilisant le logiciel SPSS.

Fusion des périodes sans chevauchement

Supposons que chaque dossier dans le fichier a.sav comporte 3 champs : personid, startdate et enddate. Nous savons avec certitude que pour chaque personid, il n'existe pas de chevauchement des périodes visées par différents dossiers. Nous voulons fusionner les périodes comprises dans chaque personid, de manière à ce que deux périodes, A et B, soient fusionnées seulement si le jour suivant la date de fin de la période A correspond à la date de début de la période B. Cela pourrait se faire de la façon suivante :

Exemple 1

/*==première étape : restructurer l'ensemble de données dentrée==*/.
get file='a.sav'.
varstocases /make date from startdate enddate /index=datef.
compute datef=(3-2*datefsf).
execute.

/* ici chaque dossier comporte 4 champs :*/.
/* personid date datef (1 s'il s'agit de la date de début; –1 s'il s'agit de la date de fin)*/.
/*==deuxième étape : calculer l'avance et le retard de date==*/.
sort cases by personid date datef.
split file separate by personid.
create /d_lag=lag(date 1) /d_lead=lead(date 1).
split file off.

/*==troisième étape : sélectionner un sous-ensemble de dates==*/.
compute fs=1.
if(date= date.yrday(xdate.year(d_lag),xdate.jday(d_lag)+1))&(datef=1) fs=0.
if(date= date.yrday(xdate.year(d_lead),xdate.jday(d_lead)-1))&(datef=-1) fs=0.
select if(fs=1).
execute.

/*==quatrième étape : générer une id de période pour l'ensemble de données de sortie ==*/.
split file separate by personid.
date O 1 2.
split file off.
compute spellid=cycle_.
compute dateindex=obs_
execute.

/*==cinquième étape : restructurer l'ensemble de données de sortie==*/.
casestovars /id=personid spellid/index= dateindex.
rename variables date.1=strdate date.2=enddate.
save outfile='merged_a.sav' /keep=personid spellid strdate enddate.

Fusion des périodes avec chevauchements

Dune manière générale, les étapes 2 et 3 pourraient être modifiées pour que les périodes susceptibles de se chevaucher soient fusionnées. Pour ce faire, il faut calculer le nombre de périodes actives à chaque date critique.

La figure 1 illustre cette procédure. Les traits forts représentent les périodes fusionnées, et les traits fins, les périodes initiales. Chaque période initiale est transformée en une paire dindicateurs signés. Ensuite, les périodes fusionnées sont constituées à partir de ces points temporels, où les sommes cumulatives d'indicateurs produisent des 1 et des 0.

Figure 1 Chronologie des périodes. Une nouvelle fenêtre s'ouvrira.

Figure 1 Chronologie des périodes

Exemple 2

/*==première étape : restructurer l'ensemble de données dentrée==*/.
/*==deuxième étape : calculer l'avance et le retard de date==*/.
sort cases by personid date datef.
aggregate outfile='temp.sav'/break=personid date  /sumf=sum(datef).
get file='temp.sav'.
split file separate by personid.
create /csumf=csum(sumf).
create /cf_lag=lag(csumf 1) /cf_lead=lead(csumf 1).
split file off.

/* csumf est le nombre de périodes actives à chaque date*/.
/* cf_lag est le nombre de périodes actives de la date précédente*/.
/* cf_lead est le nombre de périodes actives de la date suivante*/.
/*==troisième étape : sélectionner un sous-ensemble de dates==*/.
compute fs=1.
if(csumf>0&cf_lag>0) fs=0.
if(csumf=0&(missing(cf_lag)|(cf_lag=0))) fs=0.
if(csumf<0&cf_lead<=0) fs=0.
select if(fs=1).
execute.

/*==quatrième étape : générer une id de période pour l'ensemble de données de sortie ==*/.
/*==cinquième étape : restructurer l'ensemble de données de sortie==*/.

Déduction d'un type de période d'un autre type

Une déduction se produit lorsqu'on veut créer des périodes de travail d'emploi à partir de périodes d'emploi et de périodes d'absence du travail. Pour ce faire, on prend le début/la fin des périodes d'absence du travail comme fin/début d'une période de travail d'emploi.5 L'exemple suivant démontre comment déduire les périodes de b.sav de a.sav.

Exemple 3

/*==première étape : restructurer les ensembles de données dentrée==*/.
get file='a.sav'.
compute flaga=1
add files /file=* /file='b.sav'.
if(missing(flaga)) flaga=0.
execute.
varstocases /make date from startdate enddate /index=datef.
compute datef=(3-2*datefsf).
If(flaga=0) datef=-datef.
execute.

/*==deuxième étape : générer une id de période pour l'ensemble de données de sortie ==*/.
split file separate by personid.
date O 1 2.
split file off.
compute spellid=cycle_.
compute dateindex=obs_
execute.

/*==troisième étape : restructurer l'ensemble de données de sortie==*/.
casestovars /id=personid spellid/index= dateindex.
rename variables date.1=strdate date.2=enddate.
save outfile='deduct_b from a.sav' /keep=personid spellid strdate enddate.

Correspondance de deux types de période

Cette opération peut être nécessaire s'il faut déterminer les emplois que les travailleurs ont occupés pour chaque période d'emploi, ou quelles périodes initiales correspondent à chaque période fusionnée à la figure 1. L'exemple suivant démontre comment faire correspondre les périodes en b.sav avec celles de a.sav.

Exemple 4

/*==première étape : restructurer les ensembles de données dentrée==*/.
get file='a.sav'.
compute flaga=1
execute.
varstocases /make startdate from startdate enddate /index=datef.
add files /file=* /file='b.sav'.
if(missing(flaga)) flaga=0.
If(flaga=1)  datef=(3-2*datefsf)*spellid.
If(flaga=0) datef=0.
execute.

/*==deuxième étape : trier les données fusionnées et générer lid de liaison==*/.
sort cases by personid(a) date(a) datef(d).
split file separate by personid.
create /cspellid=csum(datef).
split file off.

/*==troisième étape : sélectionner les dossiers appropriés et enregistrer==*/.
select if(flaga=0).
compute spellid= cspellid.
execute.
save outfile='match_b to a.sav' /keep=personid spellid strdate enddate.

4. Conclusion

Le présent article présente les grandes lignes de la modélisation des variables d'AC à l'aide des données de l'EDTR. Il présente aussi une série de procédures de manipulation des données liées à la durée à l'aide du logiciel SPSS. En particulier, la capacité de SPSS de restructurer un ensemble de données pour calculer les valeurs davance et de retard est fondamentale ici. Par conséquent, on compte sur la découverte de techniques similaires pour mettre en œuvre les idées présentées dans cet article dans d'autres langages informatiques, comme SAS ou STATA.


Notes

  1. Je remercie Darren Lauzon de ses commentaires et suggestions utiles.
  2. Malheureusement, le vecteur hebdomadaire d'information sur le statut de la population active, qu'on peut facilement obtenir avec l'EDTR, n'est pas utile pour la dérivation des périodes d'AC. La raison est la suivante : l'AC se rapporte exclusivement aux emplois rémunérés, tandis que la définition d'un emploi de l'EDTR comprend les emplois rémunérés ainsi que le travail autonome et d'autres formes d'emplois non rémunérés.
  3. Les dérivations des périodes d'AC et des variables d'AC sont étroitement liées, puisque les variables d'AC sont toujours définies comme : à la semaine X d'une certaine période d'emploi/de chômage aux fins de l'AC. De plus, la précision des variables d'AC est étroitement liée à celle des périodes d'AC dérivées.
  4. Ceci peut constituer un problème grave dans le cas des variables mensuelles. Par exemple, il y aura 72 variables (6 ans * 12 mois) pour l'indicateur de scolarité. J'ai créé une interrogation distincte uniquement pour cette variable afin de tenir compte de la limite de SLIDret.
  5. La technique démontrée ici sapplique uniquement aux cas les plus simples et n'est valide que si : 1) chaque personne n'a qu'une période en a.sav; 2) pour chaque personne, les périodes en b.sav sont comprises dans sa période principale en a.sav. Dans le cas contraire, la procédure doit être modifiée par l'application des techniques correspondantes démontrées plus bas.