4 Fichier de données et échantillons utilisés pour l'estimation

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

L'ensemble de données utilisé pour l'étude est le fichier de la banque de Données administratives longitudinales (DAL) de Statistique Canada. Il s'agit d'un échantillon à 10 % représentatif des Canadiens qui produisent une déclaration de revenus tiré des fichiers de données fiscales T1 de l'Agence du revenu du Canada contenant plus de 1,5 million d'enregistrements par année. La mesure des gains utilisée dans la présente étude est le revenu annuel total provenant des salaires et traitements (d'où les « gains ») inscrit surla déclaration de revenus des particuliers.

Les échantillons utilisés pour l'estimation incluent tous les travailleurs rémunérés de 20 à 64 ans qui n'étaient pas étudiants à temps plein durant l'exercice, qui ont reçu au moins 1 000 $ (en dollars constants de 1997) de revenu salarial, dont les gains excédaient tout revenu net (déclaré) tiré d'un travail autonome, et qui ont déclaré pendant au moins deux ans des gains supérieurs au minimum (tel qu'il vient d'être défini) enregistrés dans le fichier de la DAL. Ces omissions visent à approximer le concept de « tous les travailleurs rémunérés » appliqué par Statistique Canada, tout en excluant les travailleurs dont la participation au marché du travail n'est que limitée 3 . La plupart des exclusions concernent les travailleurs de plus de 64 ans, les travailleurs autonomes (dont les gains provenant du marché du travail étaient, pour la plupart, très faibles) et les travailleurs dont la participation au marché du travail n'est pas continuelle. Des renseignements supplémentaires sur le fichier de données, y compris la couverture de la banque DAL, son degré de représentativité de la population générale, le nombre d'enregistrements dans le fichier DAL complet et les effets des critères particuliers d'exclusion de l'échantillon figurent dans l'annexe de Beach, Finnie et Gray (2001).

La période couverte par l'étude s'étend de 1982 à 2000. Afin de refléter de manière continue les variations entre périodes d'observation des composantes de la variance survenues au cours de cet intervalle, nous devons envisager un compromis entre la longueur de la période sur laquelle les composantes de la variance sont calculées (c.-à-d. max( Ti ) dans l'exposé de la section 3) et la fréquence des observations que nous produisons à partir de ces intervalles. Le nombre de degrés de liberté dont nous disposons pour déceler les écarts par rapport à la moyenne est d'autant plus élevé et la moyenne représente d'autant mieux les gains de long terme que la période d'observation pour le calcul est longue, mais le nombre de valeurs dont nous disposons pour produire les graphiques des séries chronologiques et pour exécuter les analyses par régression est d'autant plus faible que la fréquence des observations indépendantes sur l'intervalle entier est faible. Nous choisissons une longueur de période d'observation de cinq ans, que nous considérons suffisamment longue pour faire la distinction entre l'inégalité « permanente » ou de long terme et l'instabilité « transitoire » ou de court terme des gains, mais assez courte pour produire un nombre suffisant de points chronologiques pour permettre une analyse statistique raisonnable des effets des variables macroéconomiques. Comme nous souhaitons produire des estimations ponctuelles sur une base annuelle, nous utilisons des périodes d'observation chevauchantes plutôt que disjointes.

Nous subdivisons l'intervalle d'estimation complet de 19 années en 15 périodes d'échantillonnage successives contiguës d'une même durée de 5 ans, chacune correspondant à un échantillon fixé et équilibré de travailleurs dont les gains sont positifs pendant 5 années consécutives. Par exemple, l'échantillon initial est constitué de tous les individus ayant déclaré des gains positifs pour chacune des années 1982 à 1986. Le deuxième échantillon est constitué de tous les individus qui ont déclaré des gains positifs pour chacune des années de 1983 à 1987, et le quinzième et dernier échantillon est constitué de tous les individus qui ont déclaré des gains positifs pour les années 1986 à 2000. Pour chacun de ces échantillons sur cinq ans, nous avons calculé les trois mesures de variance (au moyen des équations (1) à (3) de la section précédente, d'où les indicateurs de l'axe horizontal (8286, 8387, ..., 9600) des figures 1 à 3. Par construction, toute paire d'échantillons adjacents auront en commun quatre années de données, toute paire d'échantillons qui commencent avec deux années d'écart auront en commun trois années de données et toute paire d'échantillons qui commencent avec cinq années d'écart ou plus n'auront aucune observation en commun 4 . Les statistiques produites à l'aide de ce processus de génération de données reposant sur des échantillons successifs, qui donne 15 observations annuelles, sont analogues à un calcul de moyenne mobile sur cinq années consécutives. Malgré les corrélations manifestement fortes qui existent entre des statistiques calculées à partir d'échantillons tirés avec un ou deux ans d'écart (les valeurs calculées ne sont entièrement indépendantes que dans le cas d'un écart de cinq ans ou plus entre les dates de début de l'échantillon), nous arrivons à dégager des points de renversement distincts au cours de l'intervalle global allant de 1982 à 2000.

Les échantillons de travailleurs utilisés pour l'estimation dans la présente étude sont également ventilés selon l'âge et le sexe. Les quatre groupes d'âge sont « Débutants » (20 à 24 ans), « Jeunes » (25 à 34 ans), « Force de l'âge » (35 à 54 ans) et « Âge avancé » (55 à 64 ans) pour les femmes ainsi que les hommes. Cela nous permet d'examiner les profils de variabilité des gains au cours de diverses phases du cycle de vie des travailleurs. L'ensemble complet de tailles des 120 échantillons (4 groupes d'âge pour chaque sexe sur 15 cohortes) figure au tableau A1 en annexe. Les échantillons varient de 31 500 à 489 000 points de données et reflètent les changements démographiques et les tendances de la participation au marché du travail survenus au cours de la période de référence. En particulier, durant la période, le nombre de jeunes travailleurs a diminué et le nombre de femmes sur le marché du travail a augmenté. Ces profils reflètent aussi les transitions des travailleurs d'un groupe d'âge à l'autre au cours de la période d'échantillonnage pertinente. Par exemple, les personnes du groupe des « Débutants » entrent dans le groupe des « Jeunes » à mesure qu'elles vieillissent et la même dynamique se manifeste tout au long de l'échelle des âges.

Pour les besoins de l'analyse graphique ainsi que de l'analyse par régression, nous commençons par estimer les profils des gains ajustés en fonction du cycle de vie en nous fondant sur les régressions du logarithme des gains. Comme nous l'avons mentionné plus haut, la variable dépendante est yit, c'est-à-dire le logarithme des gains d'un individu durant une année particulière, et les variables indépendantes correspondent à une quartique de l'âge pour chacun des échantillons d'hommes et de femmes utilisés pour l'estimation. Dans ces équations (du logarithme) des gains, les quatre groupes d'âge sont regroupés pour les hommes, d'une part et pour les femmes, d'autre part. Les régressions sont estimées séparément pour chaque période d'estimation. Nous obtenons ainsi 30 régressions (du logarithme) des gains (une régression pour les hommes et une régression pour les femmes pour chacun des 15 échantillons de période). Les résultats de ces équations de régression des gains, qui sont présentés au tableau A2 en annexe, indiquent qu'un effet fortement positif (négatif) et statistiquement significatif est associé à l'âge (âge au carré), constatation en harmonie avec l'ensemble de la littérature sur les gains.

3 . Lors de la production du fichier de la banque de Données administratives longitudinales, des procédures spéciales sont appliquées pour traiter les individus qui ont changé leur NAS (numéro d'assurance sociale que nous utilisons comme identificateur), ceux qui possèdent plusieurs NAS et d'autres cas non standard (voir Finnie, 1999), qui représentent environ 4 % du fichier chaque année. Les étudiants à temps plein sont identifiés d'après les réponses concernant les frais d'études et le crédit d'impôt pour études sur la déclaration T-1.

4 . Il convient de souligner qu'aucune paire d'échantillons ne sera composée d'exactement les mêmes individus. À mesure que l'on passe d'un échantillon à un autre au fil du temps, des nouveaux individus entrent dans l'échantillon quand ils satisfont aux critères d'échantillonnage globaux et certains individus quittent l'échantillon quand ils ne satisfont plus à ces critères.