Un aperçu de la méthodologie d’échantillonnage du Programme intégré de la statistique des entreprises

José Gaudet et John Stardom,
Division des méthodes d'enquête auprès des entreprises, Statistique Canada

Introduction

L'initiative de l'Architecture opérationnelle du Bureau (AOB) de Statistique Canada met en œuvre des mesures destinées à réduire les coûts de fonctionnement et à améliorer l'assurance de la qualité et l'exécution de nouveaux programmes statistiques. L'élaboration proposée du Programme intégré de la statistique des entreprises (PISE) représente pour les programmes de la statistique des entreprises de Statistique Canada un moyen d'atteindre ces objectifs. Le PISE vise à transformer la plateforme existante de l'Enquête unifiée auprès des entreprises (EUE) en un modèle généralisé conforme à l'AOB en vue de produire des statistiques sur les entreprises. Ce modèle englobera toutes les étapes d'une enquête, de la base de sondage à la diffusion des données, en passant par l'échantillonnage. L'objectif consistait initialement à appliquer le modèle du PISE à tous les programmes liés aux entreprises, sauf le programme des prix et celui du commerce international. La proposition concernant le PISE repose sur six piliers qui donneront lieu aux gains d'efficacité escomptés, à savoir :

la pleine utilisation du Registre des entreprises (RE) comme base de sondage pour toutes les enquêtes auprès des entreprises;
le recours à la collecte électronique des données comme mode principal de collecte;
l'adoption d'une stratégie commune pour la vérification automatisée et manuelle;
l'avancement de la date de clôture de la collecte active;
l'utilisation des données fiscales pour l'estimation des données financières;
l'amélioration de la gouvernance dans tous les secteurs qui participent à la production de données statistiques, en particulier le renforcement de la gestion du changement.

Les fondements du PISE sont décrits en détail dans un document de la Division de la statistique des entreprises (DSE, 2009). Selon ce document, le PISE doit être suffisamment unifié, harmonisé et flexible pour :

intégrer de nouvelles enquêtes;
réaliser des enquêtes axées sur l'industrie ainsi que des enquêtes axées sur les activités;
avoir le choix entre l'entreprise, l'établissement et l'emplacement comme unité d'échantillonnage.

Le présent document résume la méthodologie d'échantillonnage adoptée pour le PISE. Il contient une description détaillée des étapes principales de l'échantillonnage et une discussion de la méthodologie mise en œuvre.

Échantillonnage à deux phases

Dans le cas de certaines enquêtes qui seront intégrées dans le PISE, il existe des situations où l'information disponible dans le RE n'est pas à jour ou ne suffit pas aux besoins de l'enquête. Par exemple, il arrive que la classification selon l'industrie qui figure dans le RE ne soit pas systématiquement à jour pour toutes les unités visées par l'enquête ou que des renseignements supplémentaires, tels que les biens ou services produits par les entreprises, soient nécessaires pour rendre le processus d'échantillonnage plus efficace.

Afin de faire face à ces situations, le PISE offre aux programmes d'enquête la possibilité d'utiliser une stratégie d'échantillonnage à deux phases. Les enquêtes qui optent pour l'échantillonnage à deux phases sont encouragées à se joindre à la première phase principale, qu'on appelle l'Enquête sur l'activité économique, les dépenses et les produits (EAEDP). Certaines enquêtes pour lesquelles un plan d'échantillonnage à deux phases ne convient pas auront la possibilité d'utiliser une stratégie d'échantillonnage à une seule phase. Les objectifs de toute enquête de deuxième phase doivent être connus afin de s'assurer que l'échantillon de première phase (dont dépendent les enquêtes de deuxième phase) sera suffisamment grand pour satisfaire aux exigences de ces enquêtes. La taille de l'échantillon de première phase est aussi assez importante pour des raisons de coordination négative à la deuxième phase.

Base de sondage

En ce qui concerne l'information contenue dans la base de sondage, l'une des hypothèses fondamentales du PISE soutient que toute l'information nécessaire provenant du RE ou de données d'enquête est accessible et à jour au moment de l'échantillonnage de première phase. Aucune mise à jour de l'information contenue dans la base de sondage n'est permise durant le processus d'échantillonnage.

Utilisation d'information supplémentaire

Pour créer la base de sondage d'une enquête, le recours à l'information provenant des cycles d'enquête antérieurs ou celle provenant de la première phase de l'enquête peut s'avérer utile. Cela s'applique, par exemple, aux enquêtes de deuxième phase qui utilisent l'EAEDP en tant que première phase. Au moment de la création de la base de sondage pour ces enquêtes de deuxième phase, les unités d'échantillonnage qui doivent être incluses seront celles sélectionnées dans l'échantillon de l'EAEDP.

En outre, il pourrait être nécessaire d'avoir accès aux fichiers des échantillons d'autres enquêtes pour gérer la coordination des échantillons entre les enquêtes et ainsi contrôler le fardeau de réponse. Il pourrait également être utile d'avoir accès aux fichiers des échantillons provenant d'éditions antérieures d'une même enquête pour gérer le renouvellement de l'échantillon entre les éditions de cette enquête. De surcroît, pour toutes les enquêtes de deuxième phase, de l'information provenant de l'enquête de première phase sera nécessaire en vue de définir la base de sondage.

Hiérarchie et taille des unités

Dans le RE, la structure des entreprises comprend quatre niveaux d'entité statistique, à savoir l'entreprise, la compagnie, l'établissement et l'emplacement. Pour chaque enquête, il faut définir le niveau auquel les proportions de la taille totale qui provient de l'unité (contributions) seront considérées au moment de l'échantillonnage (niveau de l'entité d'exploitation ciblée), ainsi que le niveau de l'unité qui sera sélectionnée au moment de l'échantillonnage (niveau de l'unité d'échantillonnage) et auquel sera effectuée l'estimation.

Entités d'exploitation ciblées et unités d'échantillonnage

Les niveaux de l'entité d'exploitation ciblée et de l'unité d'échantillonnage sont indiqués dans les métadonnées et peuvent correspondre à n'importe quel niveau d'entité statistique dans le RE. La seule contrainte est que le niveau de l'unité d'échantillonnage ne peut pas être inférieur dans la hiérarchie au niveau de l'entité d'exploitation ciblée.

Mesures de taille des entités d'exploitation ciblées pour l'échantillonnage

Pour les entités d'exploitation ciblées, la mesure de taille par défaut est fondée sur le revenu. D'autres concepts de taille que le revenu peuvent aussi être utilisés et provenir directement du RE ou être dérivés en se fondant sur des variables présentes dans le RE. L'utilisateur pourrait également mettre en place une fonction de taille fondée sur le revenu différente de la fonction par défaut. Il est également possible d'utiliser une combinaison de différents concepts de taille, comme le revenu et l'actif, le revenu et la capacité, ou le nombre de bovins et le nombre de porcs pour les enquêtes agricoles (voir la section « Utilisation de concepts de taille multiples » du présent document).

Cellules d'échantillonnage

Pour chaque enquête, le niveau de stratification de base, ou cellule, est habituellement défini par le domaine ayant le niveau de détail le plus fin pour lequel des estimations sont requises. L'objectif est de s'assurer de pouvoir produire des estimations de bonne qualité en tenant compte de cette information à l'étape de la stratification.

La cellule comprend habituellement des dimensions relatives à l'industrie et à la géographie (où la dimension géographique correspond ordinairement à la province). Le niveau d'industrie varie selon l'enquête. Des dimensions supplémentaires peuvent être prises en considération, comme le pays de contrôle ou le statut à but lucratif ou à but non lucratif de l'entité.

Les entités d'exploitation ciblées sont classées naturellement dans des cellules en fonction de l'information de classification disponible dans le RE pour l'entité en question.

Facteurs d'importance

Une fois que la mesure de taille est établie pour toutes les entités d'exploitation ciblées, on peut déterminer un facteur d'importance pour chaque cellule d'échantillonnage j. La principale application de ces facteurs d'importance consiste à mieux contrôler la répartition de l'échantillon entre les cellules et à mettre l'accent sur la production de données de haute qualité dans les cellules importantes. La présente section est axée sur la définition de l'importance des cellules grâce à la construction de facteurs d'importance; les détails de la répartition de l'échantillon sont exposés dans une section ultérieure.

L'un des choix du facteur d'importance (ωj) pour la cellule d'échantillonnage j sous de simples conditions est ωj= tˆ1/2xj . Autrement dit, le facteur d'importance équivaut à la racine carrée de la taille totale estimée à l'intérieur de la cellule, ce qui est décrit dans Bankier (1988). Dans le cas du PISE, un niveau de qualité semblable est requis aux niveaux de l'industrie et de la province en vue de mieux répartir les impôts au niveau du Canada entre les provinces. Afin de tenir compte des multiples dimensions des domaines (c. à d. provinces et industrie), les facteurs d'importance doivent être définis d'une façon différente.

Le facteur d'importance ωj est fondé sur le produit de l'importance donnée à chacune de ses dimensions. Autrement dit, on définit des dimensions primaire, secondaire, tertiaire, etc., et chaque dimension sera conditionnelle aux dimensions qui précèdent dans la hiérarchie. Dans le cas du PISE, la géographie est la dimension primaire. Si les cellules d'échantillonnage étaient fondées uniquement sur la géographie et non sur la classification selon l'industrie, le facteur d'importance de la cellule j serait

ω = ω j = ⎛ ⎝ ⎜ t x j / \sum j = 1 J t x j ⎞ ⎠ ⎟ p (1)

Ici, le numérateur est le montant total des revenus dans la province j et le dénominateur est le montant total des revenus sur l'ensemble des provinces (à l'échelle nationale). L'exposant p est utilisé pour insister sur le rôle des facteurs d'importance ωj parmi l'ensemble des domaines. Une explication de l'interaction entre les facteurs d'importance et la fonction objective utilisée pour la répartition est donnée à la section sur la répartition de l'échantillon du présent document.

Pour le PISE, la géographie n'est pas la seule dimension d'intérêt; la classification selon l'industrie est également importante. Si nous ajoutons la classification selon l'industrie comme dimension secondaire, nous obtenons

ω j 1 = ⎛ ⎝ ⎜ t x j 1 / \sum j 1 = 1 J 1 t x j 1 ⎞ ⎠ ⎟ p 1, ω j 2 = ⎛ ⎝ ⎜ t x j 1 j 2 / \sum j 2 = 1 J 2 t x j 1 j 2 ⎞ ⎠ ⎟ p 2 et ω j = ω j 1 \times ω j 2 (2)

L'indice j1 indique que la première composante, ωj1 est le facteur primaire. Ce facteur est construit par rapport à une certaine province j1 comme il est décrit plus haut à la présente section. La composante secondaire, ωj2, est conditionnelle à la première. Autrement dit, le numérateur est le montant total des revenus dans l'industrie j2 dans la province j1, et le dénominateur est le montant total des revenus sur toutes les industries, mais à l'intérieur de la province j1. Une cellule d'échantillonnage comprenant un plus grand nombre de dimensions possède un plus grand nombre de composantes, toutes conditionnelles à la géographie et à l'industrie, comme il est décrit ici.

Stratification par cellule

L'un des principaux aspects du plan d'échantillonnage du PISE est la volonté qu'il soit centré sur l'entreprise. C'est à dire que, dans le cadre d'une enquête particulière du PISE, il est important d'échantillonner toutes les entités d'exploitation ciblées admissibles à l'intérieur d'une entreprise ou de n'en échantillonner aucune. En veillant à ce que toutes les entités d'exploitation ciblées associées à une entreprise soient regroupées dans une seule unité d'échantillonnage, il est à la fois plus facile de coordonner les échantillons entre les enquêtes et de tirer des échantillons centrés sur l'entreprise sans devoir faire appel à l'approche de l'échantillonnage en réseau de l'EUE, laquelle est un processus qui complique considérablement l'estimation. Dans le cas des entreprises simples ne comptant qu'un seul établissement, il existe une relation de type un à un entre l'unité d'échantillonnage de l'entreprise et une cellule d'échantillonnage. Cependant, pour les entreprises complexes, cette relation est de type un à plusieurs et, par conséquent, il n'est pas simple de définir à quelle cellule d'échantillonnage chaque unité d'échantillonnage doit être affectée.

Dans les enquêtes auprès des entreprises, pour lesquelles la distribution des revenus entre les unités de la population a tendance à être fortement asymétrique (les revenus étant une quantité corrélée à de nombreuses estimations clés), la sélection des grandes unités dans l'échantillon avec une plus grande probabilité augmente à la fois la qualité des estimations et l'efficacité de l'échantillon. En gardant cela à l'esprit, le choix de la cellule d'échantillonnage à laquelle l'unité d'échantillonnage d'une entreprise complexe doit être affectée par stratification est considéré comme une fonction de la proportion des revenus dans chaque cellule d'échantillonnage qui peut être attribuée à l'entreprise, ainsi que des facteurs d'importance des cellules d'échantillonnage.

Pour le PISE, la mesure de taille de l'unité d'échantillonnage iest définie comme étant

z i = \sum j ω 2 j t 2 x j x 2 j i - - - - - - - -  ⎷   (3)

où

ωj représente le facteur d'importance de la cellule d'échantillonnage (du domaine) j;
xji est la part de la taille totale de la cellule d'échantillonnage j correspondant à la totalité des entités d'exploitation ciblées dans l'unité d'échantillonnage i;
txj représente la taille totale de la cellule d'échantillonnage j.

Le terme

(ω j t x j x j i) (4)

est appelé contribution de l'unité d'échantillonnage i à la cellule d'échantillonnage j. La cellule d'échantillonnage j pour laquelle la contribution de l'unité d'échantillonnage i dans (4) est un maximum est la cellule à laquelle l'unité d'échantillonnage doit être affectée lors de la stratification.

La fonction appliquée à la contribution (4) fait en sorte que la taille totale de l'unité d'échantillonnage i soit dictée principalement par sa plus grande contribution à une cellule, mais aussi qu'un poids additionnel soit ajouté en raison des autres contributions de l'unité. Notons que cette fonction convertit les tailles des entités d'exploitation ciblées (exprimées en dollars) en une valeur décimale sans unité qu'il est difficile d'interpréter.

Étant donné que la portée et le champ d'observation des enquêtes du PISE varient d'une phase d'échantillonnage à l'autre, il est nécessaire de réévaluer la stratification des unités d'échantillonnage complexes à chaque phase d'échantillonnage pour s'assurer que les grandes unités soient traitées de la façon la plus avantageuse possible.

Utilisation de concepts de taille multiples

Certains programmes d'enquête requièrent l'utilisation de plus d'un concept pour définir la taille des unités dans leur population. Ainsi, pour l'Enquête annuelle sur les centrales d'énergie électrique, on utilise les revenus ainsi que la capacité électrique comme mesures de taille, tandis que pour l'Enquête sur le bétail, on utilise les nombres de bovins, de moutons et de porcs. Afin de réussir à intégrer ces programmes dans le PISE, il est nécessaire de permettre l'utilisation de multiples concepts de taille pour déterminer la taille globale d'une unité.

Le système d'échantillonnage courant n'est pas suffisamment souple pour permettre de multiples passages à travers les processus d'échantillonnage. En outre, la mise en correspondance d'une mesure de taille multivariée avec une mesure de taille unique pour les besoins de la stratification et de l'échantillonnage pose certaines difficultés. Pour contourner ces problèmes, on a été décidé de considérer chaque concept de taille comme un autre niveau de la stratification en cellules. Le processus global proprement dit ne sera pas perturbé car, par défaut, les sous-routines décrites plus loin dans le présent document (telles que la définition du seuil de tirage nul et la stratification par taille) sont exécutées dans une cellule d'échantillonnage à la fois.

Par exemple, considérons une entité d'exploitation ciblée de la classe SCIAN 111111 et province P qui élève des bovins et des porcs. Cette entité serait représentée par une entité placée dans la cellule 111111×P×Bovins avec une taille fondée sur le nombre de bovins uniquement et une deuxième entité serait placée dans la cellule 111111×P×Porcs avec une taille fondée sur le nombre de porcs. Les mesures de taille sont normalisées afin d'éviter des différences d'échelle entre les différents concepts. Les contributions d'appartenance aux cellules de chaque entité d'exploitation (ainsi que celles d'autres entités d'exploitation ciblées dans l'unité d'échantillonnage, s'il y a lieu) sont calculées pour déterminer la cellule d'échantillonnage à laquelle l'unité d'échantillonnage doit être affectée. Les deux avantages de cette classification sont que les unités d'échantillonnage sont classées conformément à leur combinaison industrie/géographie dominante et que, comme une composante de concept de taille différente est associée à chaque cellule, les unités d'échantillonnage sont classées conformément à leur concept de taille dominant. La standardisation et la normalisation des tailles permettent d'utiliser une mesure de taille unique durant le processus d'échantillonnage.

Toutes les étapes suivantes du processus d'échantillonnage décrites ci-après se poursuivent comme dans le cas univarié. Il faut toutefois veiller à restructurer les fichiers des échantillons finaux afin d'éviter le double compte des entités d'exploitation (une pour chaque mesure de taille). Les mesures de taille supplémentaires peuvent figurer dans chaque enregistrement, mais le cas échéant, elles apparaissent comme différentes variables de taille qui ont été utilisées dans le processus.

Tirage nul

L'algorithme de Royce-Maranda décrit dans Royce et Maranda (1998) est la méthode utilisée par le PISE pour réduire le fardeau de réponse des petites unités en les excluant de l'échantillon. Cette méthode est intégrée dans le nouveau Système généralisé d'échantillonnage (G-Éch) de Statistique Canada. L'utilisateur doit fournir une liste contenant les seuils d'exclusion et G-Éch détermine le seuil d'exclusion approprié pour chaque cellule.

La première étape du processus consiste à déterminer quelles entités d'exploitation ciblées doivent faire l'objet d'un tirage nul. Pour cela, dans chaque cellule, les entités d'exploitation ciblées sont triées par ordre décroissant de revenus. Un seuil est choisi de façon à garder au moins 90 % des revenus dans chaque cellule, à moins que le seuil minimal élimine plus de 10 % des revenus de la cellule. Le niveau d'exclusion peut être contrôlé, mais on suppose qu'il est de 10 % pour toutes les enquêtes du PISE.

Une fois déterminé le statut de chaque entité d'exploitation ciblée de la population, le statut de l'unité d'échantillonnage dans son ensemble doit être évalué. Puisque les unités d'échantillonnage peuvent être constituées d'un mélange d'entités d'exploitation ciblées à tirage nul et d'entités admissibles, une règle est requise pour décider ce qu'il convient de faire dans de tels cas. Afin de maintenir le taux d'exclusion inférieur au niveau cible de 10 %, la régle consiste à n'exclure l'unité d'échantillonnage que si toutes les entités d'exploitation ciblées qui lui appartiennent sont à tirage nul en fonction de l'évaluation précédente.

L'évaluation du tirage nul n'est pas refaite au moment du traitement d'une enquête de deuxième phase. Les entités d'exploitation ciblées gardent leur statut de tirage nul établi à la première phase et le statut de l'unité d'échantillonnage est déterminé de la même façon qu'il est décrit au paragraphe précédent. Si une unité d'échantillonnage devient à tirage nul à la deuxième phase, elle doit subir un traitement spécial. Aucune de ces unités ne recevra un questionnaire et les données financières seront obtenues au moyen des données fiscales, tandis que les données sur leurs caractéristiques seront fixées à zéro ou imputées.

Unités à tirage obligatoire

Étant donné le caractère asymétrique de la distribution des revenus dans les enquêtes économiques, il est essentiel que certaines unités influentes qui ne peuvent pas être représentées par d'autres unités de la population soient échantillonnées. De la sorte, il est certain que les données sur ces unités influentes seront incluses dans les estimations finales. Mises à part les estimations fondées sur les revenus, certaines petites unités sont tout aussi cruciales pour les estimations des caractéristiques. Dans les deux cas, un mécanisme permet d'échantillonner des unités particulières avec certitude. Les unités spécifiées sont placées dans une strate à tirage obligatoire dont toutes les unités sont sélectionnées dans l'échantillon.

Il existe d'autres situations où il est avantageux de placer les unités dans une strate à tirage obligatoire, par exemple pour effectuer un recensement dans une cellule ou une enquête, pour produire une estimation pour une cellule contenant un très petit nombre d'unités, ou pour indiquer qu'une unité est une valeur aberrante importante. En tout, une entité d'exploitation ciblée peut devenir une entité à tirage obligatoire de huit façons tout au long du processus d'échantillonnage du PISE :

les spécialistes du domaine spécifient une unité directement;
des critères de tirage obligatoire établis dans les métadonnées identifient l'unité (le critère par défaut vise les unités d'échantillonnage qui contribuent à au moins six cellules d'échantillonnage uniques);
l'unité appartient à une unité d'échantillonnage dans laquelle une autre unité a été identifiée par l'une des deux méthodes susmentionnées;
l'unité est un membre d'une cellule d'échantillonnage contenant moins de dix unités d'échantillonnage au-delà du seuil d'exclusion (voir la section sur les petites cellules);
l'unité est un membre d'une strate comptant cinq unités d'échantillonnage ou moins;
l'unité est une unité d'échantillonnage qui représente une grande valeur aberrante dans sa cellule d'échantillonnage;
l'unité est dans une enquête par recensement;
l'unité est dans un classement recoupé sur la base de sondage qui contient un total d'une ou deux unités et est donc critique à l'estimation.

Notons que, tel qu'illustré dans le troisième cas ci-haut, toutes les entités d'exploitation ciblées dans une unité d'échantillonnage dans laquelle une des entités d'exploitation ciblées est définie comme une valeur aberrante seront également marquées comme des unités à tirage obligatoire.

Unités spéciales

Certaines classes d'unités peuvent se trouver dans le champ d'observation de certaines enquêtes du PISE, mais ne pas devoir passer par chacune des étapes du processus d'échantillonnage. Ces « unités spéciales » sont soumises à des traitements spéciaux pour éviter qu'elles gênent le processus d'échantillonnage qui est appliqué aux autres unités.

Stratification par taille

Après avoir défini les ensembles d'unités à tirage nul, à tirage obligatoire et spéciales dans chaque cellule, les unités restantes forment l'ensemble d'unités admissibles à partir desquelles l'échantillon sera sélectionné. Cependant, si l'on tire l'échantillon dans chaque cellule telle quelle, les distributions asymétriques des revenus font en sorte qu'un nombre relativement grand d'unités devront être échantillonnées pour viser un niveau raisonnable de qualité dans chaque cellule. Afin d'accroître l'efficacité de l'échantillon, on commence par stratifier par taille les unités comprises dans les strates à tirage partiel afin de regrouper les unités de taille similaire. La sélection de l'échantillon dans chaque cellule est ensuite effectuée strate par strate.

La méthode classique de stratification utilisée pour l'EUE était celle de Lavallée-Hidiroglou (Lavallée et Hidiroglou, 1988). L'un des avantages de cette méthode de stratification est que la répartition de l'échantillon est effectuée simultanément. Cependant, une entrée nécessaire pour appliquer cette méthode est la connaissance a priori des niveaux cibles de qualité, et les données de sortie consistent en un ensemble de bornes de strate et de tailles d'échantillon de strate qui minimise la taille d'échantillon globale. Dans le PISE, les niveaux de qualité cibles ne sont pas des données d'entrée connues. C'est la taille d'échantillon cible qui est utilisée comme entrée et le niveau de qualité cible devient une sortie. Par conséquent, d'autres méthodes sont nécessaires pour la stratification par taille et la répartition de l'échantillon.

La méthode géométrique de stratification (Gunning et Horgan, 2004) est une méthode très simple qui ne nécessite que la distribution des valeurs de taille et le nombre souhaité de strates pour fonctionner. Les bornes de strate sont déterminées avec l'intention d'égaliser le coefficient de variation (CV) de la taille dans chaque strate. Autrement dit, si dans la strate hSyh=∑Nhi=1Yhi−Y−hNh−−−−−−−−−−−√ est l'écart-type de y, Y−h=1Nh∑Nhi=1Yhi est la valeur moyenne de y et CVh=Syh/Y−h est le CV de y alors les K bornes de strate sont choisies de façon que

S y 1 Y - 1 = S y 2 Y - 2 = S y 3 Y - 3 = \dots = S y K Y - K

La formule utilisée dans la méthode géométrique pour établir les bornes de strate est

B o r n e k j = t a i l l e m i n \times (t a i l l e m a x t a i l l e m i n) (k K) (5)

où

taille min et taille max sont les tailles minimale et maximale des unités d'échantillonnage, respectivement, dans la cellule j;
K est le nombre total de bornes qu'il faut calculer dans la cellule j;
k est l'indice de la borne (1,..., K).

Li (2012) a montré que la méthode géométrique était sensible aux petites ainsi qu'aux grandes valeurs aberrantes. Des valeurs extrêmes à l'une ou à l'autre extrémité de la distribution pourraient avoir des effets considérables sur les valeurs des bornes de strate. Par conséquent, on a élaboré une fonctionnalité de détection des valeurs aberrantes qui est exécutée avant la procédure de stratification. Des grandes et des petites valeurs aberrantes ont été décelées au moyen de la méthode de l'écart-sigma. Hellec (2013) a déterminé que la valeur du paramètre écart-sigma global λ doit être fixée à 60. Ce paramètre est appliqué sans distinction à toutes les cellules d'échantillonnage après l'élimination des unités déterminées préalablement comme étant à tirage obligatoire. Après l'exécution du processus de détection des valeurs aberrantes dans chaque cellule, les valeurs aberrantes des deux types sont écartées et la distribution restante est utilisée pour calculer les bornes de strate. Une fois que les bornes de strate sont calculées, les petites valeurs aberrantes sont replacées dans les strates des petites unités dans leurs cellules respectives, tandis que les grandes valeurs aberrantes sont affectées à la strate à tirage obligatoire.

Dans la plupart des cas, la valeur de K dans (5) est fixée à 3 afin de subdiviser chaque cellule en trois strates de taille contenant les petites, les moyennes et les grandes unités, respectivement. De nouveau, contrairement à la méthodologie appliquée pour l'EUE, la méthode géométrique ne repose pas sur l'hypothèse que la strate des grandes unités sera une strate à tirage obligatoire (fraction d'échantillonnage de 100 %). Chaque strate d'échantillonnage est plutôt traitée comme une strate à tirage partiel dans laquelle la fraction d'échantillonnage peut prendre toute valeur supérieure à 0 % (y compris éventuellement 100 %), à condition que les contraintes d'échantillonnage soient respectées. L'algorithme d'optimisation exécuté durant la répartition de l'échantillon dicte quelles strates à tirage partiel justifient l'application d'une fraction d'échantillonnage de 100 % (en fonction de la variabilité des tailles des unités d'échantillonnage).

Petites cellules

Statistique Canada a pour mandat de produire des estimations pour tous les classements recoupés des provinces et des variantes de la classification selon l'industrie qui sont définis comme des domaines d'estimation pour le PISE. Cependant, certaines cellules d'échantillonnage utilisées pour représenter ces domaines peuvent contenir très peu d'unités. Afin de produire des estimations raisonnables dans une cellule, il est nécessaire que celle ci contienne un nombre minimal d'unités répondantes. La subdivision de certaines cellules en trois strates de taille, l'échantillonnage de moins de 100 % des unités dans ces strates, puis l'existence de cas de non-réponse peuvent aboutir à des scénarios où il est impossible de produire des estimations de qualité raisonnable. Par conséquent, il a fallu élaborer des stratégies taillées sur mesure pour répartir les échantillons dans les cellules particulièrement petites. À la présente section, la discussion concernant les tailles des cellules s'appuie sur le nombre d'unités d'échantillonnage admissibles pour l'échantillonnage après la suppression des unités à tirage obligatoire.

Les entités d'exploitation ciblées dont la stratification se fait naturellement dans des cellules d'échantillonnage ne contenant qu'une ou deux unités d'échantillonnage seront toutes considérées comme des unités à tirage obligatoire. Faire partie d'un domaine d'estimation aussi petit a un effet négatif sur les résultats de la méthodologie de répartition de l'échantillon et, par conséquent, il est préférable de simplement exclure ces unités du processus en les considérant comme des unités à tirage obligatoire.

Dans les cellules contenant moins de 10 unités d'échantillonnage, toutes les unités doivent également être considérées comme étant à tirage obligatoire. Pour les enquêtes où les données peuvent être remplacées par des données fiscales, la collecte des données se fera pour les cellules importantes. Une cellule est jugée importante si son facteur d'importance est supérieur au 50e centile de l'ensemble des cellules dans la même province ou industrie. Pour les cellules moins importantes, aucune collecte ne sera effectuée et les données fiscales seront utilisées pour la partie financière du questionnaire. Dans ces cas, les données pour la partie des caractéristiques seront fixées à zéro ou imputées. Pour les enquêtes où le remplacement par des données fiscales ne peut pas avoir lieu, la collecte sera effectuée auprès de toutes les unités.

Dans les cellules contenant de 10 à 29 unités d'échantillonnage, le nombre de strates de taille sera réduit de 3 à 2 (méthode géométrique appliquée avec K= 2). La sélection de l'échantillon dans les cellules d'échantillonnage de ces deux strates se fera comme dans les cellules d'échantillonnage stratifiées ordinairement.

Répartition de l'échantillon

Dans le cadre du PISE, une entreprise peut faire partie de plusieurs industries et/ou provinces. Si nous considérons les contributions d'une entreprise à ces diverses cellules d'échantillonnage comme des valeurs variables, nous devons utiliser un plan de répartition multivarié pour répartir l'échantillon entre les strates de population. Nous utiliserons une méthode de répartition de puissance afin d'obtenir des estimations de bonne qualité au niveau de l'industrie ainsi que de la province. La méthode est décrite dans Bankier (1998), ainsi que dans Särndal, Swensson et Wretman (2003).

La répartition de puissance multivariée peut être configurée de deux façons. On peut chercher à :

soit minimiser une fonction de coût sous des contraintes de précision pour chaque domaine et variable;
soit minimiser une fonction de précision pour les domaines sous une contrainte de coût fixe.

Comme il est mentionné à la section sur la stratification par taille, les données d'entrée pour l'enquête seront les quantités de ressources disponibles plutôt que les cibles de qualité connues. Par conséquent, l'option 2 susmentionnée est l'approche adoptée. La fonction à minimiser est :

min π h \sum j = 1 J (ω j C V (t ˆ x j)) 2 (6)

où πh, ωj et tˆxj représentent la fraction d'échantillonnage dans la strate h, le facteur d'importance du domaine j et l'estimateur du total de la variable xj dans la population. La quantité CV(tˆxj) représente le CV de l'estimateur. Les seules quantités qui sont ajustées afin de minimiser la fonction sont les πh qui sont présentes dans CV(tˆxj)2.

Pour la première phase du PISE, les domaines j correspondent approximativement aux cellules d'échantillonnage. Comme il est mentionné à la section sur les facteurs d'importance, ωj est défini conditionnellement de manière que ωj=(ωj1)(ωj2) avec la dimension j2 conditionnelle à j1. Cela nous permet d'exprimer (6) comme il suit :

min π h \sum j 1 = 1 J 1 ω 2 j 1 \sum j 1 = 1 J 2 ω 2 j 2 (C V (t ˆ x j 1 j 2)) 2 (7)

Dans les définitions de ωj1 et ωj2, les puissances p1 et p2 servent à contrôler les différences de qualité cible pour les domaines j1 et j2 . L'indicateur de qualité que les puissances contrôlent diffère de celui décrit dans Bankier (1988). Dans cet article, la qualité est exprimée en fonction du CV, tandis que pour l'échantillonnage du PISE, elle est plutôt représentée par une somme des carrés des CV comme dans (7). En remplaçant ωj1 par substitution, nous pouvons exprimer (7) sous la forme

min π h \sum j 1 = 1 J 1 ⎡ ⎣ ⎢ ⎢ ⎛ ⎝ ⎜ t x j 1 / \sum j 1 = 1 J 1 t x j 1 ⎞ ⎠ ⎟ 2 p 1 \sum j 2 = 1 J 2 ω j j 2 (C V (t ˆ x j 1 j 2)) 2 ⎤ ⎦ ⎥ ⎥ (8)

Considérons la puissance p1. Si p1 est fixée à 0, alors le même niveau de qualité est ciblé pour chaque domaine j1. Si, par contre, elle est fixée à 1, les cibles de qualité seront plus élevées pour les domaines j1 ayant de plus grandes valeurs de txj1 (les domaines « plus importants »).

Afin de s'assurer que les estimations pour toutes les cellules soient de qualité raisonnable, on peut établir une contrainte sur le coefficient de variation (CV) maximum permis. Il convient de souligner que les CV calculés à l'interne au moyen de G-Éch qui sont comparés à ces contraintes de qualité sont des CV conditionnels qui peuvent être passablement plus élevés que les CV effectifs calculés une fois que l'échantillon est réellement sélectionné.

En outre, pour s'assurer de sélectionner un nombre suffisant d'unités dans chaque strate et d'éviter l'effet négatif des unités ayant un poids très grand qui changent de strate entre l'échantillonnage et l'estimation, des contraintes peuvent être appliquées à l'étape de la répartition de l'échantillon. Les contraintes qui ont été mises en œuvre convertissent une borne supérieure sur les poids définie par l'utilisateur en un nombre minimal d'unités à affecter à chaque type de strate.

La mise en œuvre de l'un ou l'autre de ces types de contraintes écarte la solution de G-Éch de l'optimalité. Par conséquent, la répartition de l'échantillon sera d'abord exécutée sans utiliser les contraintes de CV ou de poids maximaux. Les CV et les poids seront ensuite évalués et, si des problèmes sont décelés, la répartition sera de nouveau exécutée en appliquant les contraintes. La seule exception concerne l'EAEDP (enquête de première phase), dans laquelle des contraintes de poids maximaux sont généralement établies à des niveaux fixes pour chacune des strates de taille possibles. Ces contraintes sont relâchées pour certains groupes d'industries (correspondant aux enquêtes de deuxième phase) pour lesquels la composition de la population empêche la convergence du programme de répartition de l'échantillon pour les valeurs par défaut des poids maximaux. Notons que ces contraintes peuvent être ajustées par l'utilisateur.

Une probabilité d'échantillonnage πh=1 est appliquée à toutes les unités affectées à la strate à tirage obligatoire. Ces probabilités sont entrées dans le module de sélection de l'échantillon pour s'assurer du tirage de toutes les unités présentes dans cette strate (recensement).

Sélection et coordination de l'échantillon

Dans le PISE, la méthode d'échantillonnage implicite est l'échantillonnage de Bernoulli. Cette méthode a été choisie parce qu'en plus de simplifier le calcul de la variance, elle simplifie la coordination des échantillons et permet leur combinaison. Dans certains cas, cependant, la sélection de Bernoulli peut produire un échantillon insuffisant dans une strate particulière. Pour atténuer ce risque, un échantillon aléatoire simple (EAS) est utilisé à la place de l'échantillon de Bernoulli quand le nombre d'unités sélectionnées devient inférieur au seuil spécifié de 2.

Grâce à l'utilisation de G-Éch, le PISE permettra la coordination des échantillons entre les éditions d'une enquête donnée, ainsi qu'entre les enquêtes du PISE. Comme il s'agit de la seule méthode de coordination des échantillons disponible dans G-Éch à l'heure actuelle, un échantillonnage séquentiel sera utilisé pour gérer la coordination des échantillons. Cette méthode comprend l'utilisation de nombres aléatoires permanents (NAP) pour sélectionner les échantillons. En choisissant différents points de départ, la méthode permet de procéder à différents types de coordination des échantillons.

En dernière analyse, il sera nécessaire de mettre en œuvre un certain renouvellement de l'échantillon. La stratégie envisagée à l'heure actuelle pour atteindre cet objectif consiste à décaler de la quantité souhaitée le début de la fenêtre d'échantillonnage pour la sélection de l'échantillon de l'EAEDP et à sélectionner les échantillons des enquêtes de deuxième phase de façon que le chevauchement soit maximum avec ceux des éditions précédentes. Cela donnera la quantité prévue de renouvellement à la deuxième phase comme il est montré dans Paulus (2014).

Traitement des unités disparues

Dans le cas du tirage d'un échantillon pour le deuxième cycle ou les cycles suivants d'une enquête répétée pour laquelle le chevauchement entre les cycles est contrôlé, il est possible que le taux d'unités disparues en dehors de la partie échantillonnée de la population soit sous-estimé comparativement au taux dans la partie échantillonnée (parce que la disparition d'un certain nombre d'unités n'est connue que grâce à des commentaires recueillis durant l'enquête). Afin de réduire les chances que cet échantillonnage répété aboutisse à une estimation biaisée, il est nécessaire de manipuler la base de sondage pour stabiliser les poids entre les éditions de l'enquête (ce qui équivaut à s'assurer que les taux de disparition d'unités soient constants dans les deux parties de la population pour les divers cycles). Cela pourrait nécessiter de réintroduire dans la base de sondage des unités échantillonnées antérieurement que l'on sait être disparues (en ne faisant toutefois jamais cela pour des unités dont la disparition a été confirmée par une source indépendante) ou à sélectionner des unités dans la partie non échantillonnée de la population et à les traiter comme des unités disparues. Notons qu'on entend ici par « disparition » tout type de changement subi par une unité faisant qu'elle se trouve dans le champ d'observation de l'enquête pendant un cycle, mais hors de ce champ au cycle suivant (y compris des changements de code du SCIAN, des changements de statut de l'entreprise ou des modifications des caractéristiques de la population). Les changements de code du SCIAN à la suite desquels l'unité demeure dans le champ d'observation de l'enquête ne sont pas considérés comme des disparitions d'unité.

Si la manipulation de la base de sondage nécessite la réintroduction dans celle-ci d'unités que l'on sait disparues, ces unités disparues pourront être échantillonnées comme n'importe quelle autre unité et pourront par conséquent posséder un poids, mais un questionnaire ne leur sera envoyé en aucune circonstance.

Bibliographie

Baillargeon, S., Rivest, L.-P. et Ferland, M. (2007). Stratification en enquêtes entreprises : une revue et quelques avancées. Recueil du Groupe des méthodes d'enquête, Société statistique du Canada.

Bankier, M. D. (1988). Power allocations: Determining Sample Sizes for Subnational Areas. The American Statistician.

Demnati, A. et Turmelle, C. (2011). Proposed Sampling and Estimation Methodology. Document interne de Statistique Canada.

DSE. (2009). « Integrated Business Statistics Program - Blueprint ». Document interne de Statistique Canada.

Gaudet, J. (2014). Contact Strategy for the RY2014 Business Activity, Expenditures and Output (BAEO) Survey. Document interne de Statistique Canada.

Gunning, P. et Horgan, J. M. (2004). Un nouvel algorithme pour la construction de bornes de stratification dans les populations asymétriques. Techniques d'enquête, 30, p. 177-185.

Hellec, S. (2013). Diagnostic et contribution à la méthodologie d'échantillonnage du PISE. Document interne de Statistique Canada.

Lavallée, P. et Hidiroglou, M. A. (1988). Sur la stratification de populations asymétriques. Techniques d'enquête, 14, p. 33-43.

Li, Y. (2012). Detection and treatment of outliers in the creation of the IBSP sampling frame. Document interne de Statistique Canada.

Paulus, P. (2014). Rotation et coordination des échantillons dans le cadre du Programme intégré de la statistique des entreprises. Document interne de Statistique Canada.

Royce, D. et Maranda, F. (1998). Groupe de travail sur l'acquisition des données auprès des entreprises. Document interne de Statistique Canada.

Särndal, C.-E., Swensson, B. et Wretman, J. (2003). Model Assisted Survey Sampling.

Sélection de la langue

Recherche et menus

Recherche