Qualité des données

Énoncé de qualité sur le couplage Agriculture–Enquête nationale auprès des ménages

L'un des avantages importants de mener le Recensement de l'agriculture en même temps que le Recensement de la population et l'Enquête nationale auprès des ménages, c'est qu'il est possible de coupler les renseignements provenant de ces sources au moyen d'un processus d'appariement automatisé pour créer la base de données du couplage Agriculture–Enquête nationale auprès des ménages. Cette base de données contient l'ensemble des variables du Recensement de l'agriculture et la plupart des variables (comme le revenu, la scolarité et la profession) qui figurent dans le questionnaire de l'Enquête nationale auprès des ménages. La base de données du couplage Agriculture–Enquête nationale auprès des ménages permet la totalisation croisée des caractéristiques socio-économiques des exploitants agricoles et de leurs familles (par exemple, l'âge, la scolarité et le revenu des exploitants) avec les caractéristiques agricoles des exploitations (par exemple, la superficie des terres, le nombre d'animaux et les pratiques agricoles).

La base de données du couplage Agriculture–Enquête nationale auprès des ménages de 2011 s'inscrit dans la lignée des bases de données du couplage Agriculture–Population créées au départ pour les recensements de 1971, et aussi accessibles pour les recensements de 1981, 1986, 1991, 1996, 2001 et 2006. La base de données de 2011 cible les exploitants agricoles et leurs familles tels qu'ils figurent dans le Recensement de l'agriculture de 2011, sauf les exploitants vivant dans les trois territoires du Canada ou en logement collectif.

Comme la base de données du couplage Agriculture–Enquête nationale auprès des ménages est un regroupement de renseignements provenant de deux sources de données, les utilisateurs sont encouragés à consulter la documentation de référence de l'Enquête nationale auprès des ménages et du Recensement de l'agriculture pour en savoir davantage sur les méthodes de collecte, de traitement et de diffusion des données utilisées.

Nouveautés pour 2011

La base de données du couplage Agriculture–Enquête nationale auprès des ménages est un regroupement de renseignements provenant de deux sources de données. Jusqu'en 2006, les renseignements sur la population étaient extraits du formulaire long du Recensement de la population, un questionnaire obligatoire distribué à 20 % des ménages canadiens. En 2011, ces données ont pour source l'Enquête nationale auprès des ménages à participation volontaire, distribuée à environ 33 % des ménages canadiens.

La population que couvre la base de données du couplage Agriculture–Enquête nationale auprès des ménages et les estimations qui en découlent ont aussi changé en 2011, de deux façons. D'une part, la définition de la population agricole a changé. Dans les années antérieures à 2011, seuls les exploitants et leurs familles qui avaient habité sur la ferme à un moment ou à un autre au cours des 12 mois précédents étaient inclus dans la population agricole. En 2011, cette restriction a été supprimée. Les exploitants et leurs familles qui n'habitent pas sur une ferme sont aussi inclus. Par ailleurs, les résidents des logements collectifs n'étaient pas admissibles à répondre à l'Enquête nationale auprès des ménages, si bien qu'ils ne sont pas représentés dans la base de données du couplage Agriculture–Enquête nationale auprès des ménages.

Les utilisateurs doivent être au courant de ces changements lorsqu'ils comparent des résultats entre la base de données du couplage Agriculture–Enquête nationale auprès des ménages de 2011 et les bases de donnés du couplage Agriculture–Population précédentes.

Sources d'erreur

Dans une enquête-échantillon comme l'Enquête nationale auprès des ménages, il peut y avoir deux types d'erreurs : les erreurs d'échantillonnage et les erreurs non dues à l'échantillonnage. Dans un recensement, il n'existe que des erreurs non dues à l'échantillonnage.

Il y a erreur d'échantillonnage lorsqu'on estime une caractéristique de la population en mesurant seulement une partie de la population plutôt que la population entière. Cette erreur peut être contrôlée par la taille de l'échantillon, le plan d'échantillonnage et la méthode d'estimation.

Les erreurs non dues à l'échantillonnage sont des erreurs qui n'ont pas de lien avec l'échantillonnage. Il peut s'agir d'erreurs de la base dont l'échantillon est extrait, de l'imprécision des outils de collecte, de la non-réponse à l'enquête et d'erreurs de saisie, d'édition, de codage ou d'autres étapes du traitement des données. Au cours des phases de la planification, des mesures ont été mises en place pour réduire l'erreur non due à l'échantillonnage : essais du questionnaire, formation des intervieweurs, contrôle qualitatif de la saisie et du codage des données, etc.

Taux de réponse

L'Enquête nationale auprès des ménages était une enquête à participation volontaire, contrairement au questionnaire long du Recensement de la population utilisé dans les bases de données précédentes, dont la participation était obligatoire. Par conséquent, on remarque une importante différence du taux de réponse en 2011 par rapport aux années précédentes. En 2006, le taux de réponse au formulaire long du Recensement avait atteint environ 97 %. Le tableau ci–dessous présente le taux de réponse pondéré pour l'Enquête nationale auprès des ménages et le sous–ensemble de la population admissible à la base de données du couplage Agriculture–Enquête nationale auprès des ménages de 2011.

Tableau 1 Taux de réponse pondéré pour l'Enquête nationale auprès des ménages et la population admissible à la base de données du couplage Agriculture–Enquête nationale auprès des ménages, Canada et provinces
Provinces Taux de réponse pondéré de l'Enquête nationale auprès des ménages Taux de réponse pondéré au Recensement de l'agriculture et à l'Enquête nationale auprès des ménages
%
Canada 77,2 71,4
Terre-Neuve-et-Labrador 72,5 78,7
Île-du-Prince-Édouard 70,0 70,0
Nouvelle-Écosse 74,8 75,1
Nouveau-Brunswick 74,2 74,5
Québec 80,7 80,4
Ontario 76,3 73,8
Manitoba 76,3 63,9
Saskatchewan 73,1 65,9
Alberta 75,4 67,3
Colombie-Britannique 77,1 74,8

Nota : Le taux de réponse à l'Enquête nationale auprès des ménages du Canada comprend les répondants des trois territoires du Canada, contrairement au taux de réponse du Recensement de l'agriculture et de l'Enquête nationale auprès des ménages.

On observe un biais de non-réponse lorsque les non-répondants d'une enquête sont différents de ses répondants. Dans ce cas, plus la non-réponse à une enquête est élevée, plus le risque de biais de non-réponse est grand. La qualité des estimations peut être réduite si un biais du genre est observé.

Processus d'appariement automatisé

Les fondements du processus d'appariement automatisé Agriculture et Enquête nationale auprès des ménages sont simples. Un exploitant agricole remplit un questionnaire du Recensement de l'agriculture et un questionnaire du Recensement de la population. L'exploitant peut aussi être choisi pour remplir un questionnaire de l'Enquête nationale auprès des ménages, distribué à environ un ménage sur trois. Le couplage des données du Recensement de l'agriculture et du Recensement de la population se fait au moyen des renseignements identiques dans les deux questionnaires, comme le nom, le sexe, la date de naissance et l'adresse. À l'aide du lien qui existe déjà entre le Recensement de la population et l'Enquête nationale auprès des ménages, il est possible de former la base de données du couplage Agriculture–Enquête nationale auprès des ménages. Les recensements de l'agriculture de 1991 à 2011 permettaient aux répondants de déclarer un maximum de trois exploitants par ferme, et tous les exploitants agricoles ont été inclus dans le processus d'appariement. Grâce à ces renseignements supplémentaires, il est possible d'analyser la relation entre les membres de la famille qui habitent dans le même ménage et qui exploitent la même ferme. De plus, il est possible d'inclure dans l'analyse les exploitants de différents ménages qui exploitent la même ferme.

Échantillonnage et pondération

Comme seul un échantillon des ménages canadiens ont été choisis pour répondre à l'Enquête nationale auprès des ménages, des poids ont été attribués aux enregistrements de la base de données du couplage Agriculture–Enquête nationale auprès des ménages pour représenter l'ensemble de la population agricole. Les poids ont été calculés de façon indépendante dans chaque province. Un poids initial a été généré pour la plupart des enregistrements1 en fonction du nombre de ménages vivant dans la province et du nombre qui ont répondu à l'Enquête nationale auprès des ménages. Des caractéristiques appelées « contraintes » ont ensuite été déterminées. Il s'agit de caractéristiques démographiques et agricoles de première importance pour les utilisateurs de données qui ont fait l'objet d'un dénombrement complet soit au Recensement de la population, soit au Recensement de l'agriculture. Pour chaque province, une méthode appelée « régression ridge » a fait en sorte que, dans la plupart des provinces, les estimations de la base de données Agriculture–Enquête nationale auprès des ménages sont très près des chiffres de population connus dans le cas de la plupart de ces contraintes. Le nombre de contraintes variait de 38 à 50 selon la province. À l'échelon national, on a observé, pour l'ensemble des contraintes, des écarts de moins de 1,0 % entre les estimations tirées de l'échantillon et les chiffres de population, et 92 % des contraintes présentaient un écart inférieur à 0,5 %. Des valeurs similaires ont été observées à l'échelon provincial, sauf à Terre-Neuve-et-Labrador. En raison du faible nombre d'enregistrements Ag–ENM dans cette province, il n'a pas été possible de respecter les contraintes dans la même mesure que dans les autres provinces.

La base de données du couplage Agriculture–Enquête nationale auprès des ménages contient des données agricoles (exploitations agricoles et exploitants agricoles) et des données démographiques (personne, ménage, famille de recensement et famille économique). Des poids ont été calculés au niveau des personnes, des ménages, des familles de recensement et des familles économiques.

Peu importe la région géographique, les totaux ou totaux partiels pondérés de la population, des ménages, des familles ou des exploitations agricoles peuvent différer des estimations semblables présentées dans les parutions précédentes renfermant des données du Recensement de l'agriculture. Ce phénomène s'explique par le fait que, dans le cadre du Recensement de l'agriculture, on a recueilli des données auprès de toutes les exploitations agricoles, tandis que les estimations de la base de données du couplage Agriculture–Enquête nationale auprès des ménages proviennent d'un échantillon. Les écarts concernant les variables utilisées pour définir les contraintes dans les calculs de poids effectués à l'aide de la régression ridge sont décrits précédemment. Les écarts relatifs aux variables hautement corrélées avec au moins une des variables utilisées pour définir une contrainte seront semblables à l'écart observé pour cette contrainte. Quant aux autres variables, les écarts dépendent de la relation avec la variable utilisée pour définir une contrainte et pourraient être importants s'il n'existe aucune relation.

Suppression de données

Les résultats de la base de données du couplage Agriculture–Enquête nationale auprès des ménages peuvent être supprimés pour deux raisons : (1) protéger la confidentialité des données des répondants individuels et (2) limiter la diffusion des données de piètre qualité (puisqu'on parlera par la suite de qualité des données). Les méthodes utilisées sont semblables à celles employées dans le cas des bases de données du couplage Agriculture–Population précédentes, mais on a ajouté deux règles (une pour la confidentialité et l'autre pour la qualité des données).

La confidentialité est contrôlée par deux règles. L'arrondissement aléatoire transforme les estimations des chiffres en chiffres arrondis de façon aléatoire en base 5. Selon cette technique, les chiffres de chaque tableau, y compris les totaux, sont arrondis de façon aléatoire à la hausse ou à la baisse jusqu'au prochain multiple de 5. Bien qu'elle protège contre la divulgation, cette procédure n'ajoute pas d'erreur significative aux données. L'algorithme d'arrondissement aléatoire s'appuie sur une valeur de départ aléatoire pour générer la formule d'arrondissement pour les tableaux. Selon ces routines, la méthode utilisée comme base de la formule peut faire en sorte que les mêmes chiffres du même tableau soient arrondis à la hausse dans une exécution et à la baisse dans l'exécution suivante.

Certaines variables, comme celles qui se rapportent au revenu, peuvent présenter des réponses très variables et un plus grand risque de révéler des renseignements au sujet d'un répondant individuel lorsque certaines statistiques, comme les moyennes, sont calculées. Pour cette raison, on ne produit que les médianes pour ces variables, et non les moyennes.

La qualité des données est contrôlée par l'utilisation du taux global de non-réponse, un indicateur de la qualité des données qui combine la non-réponse complète et la non-réponse partielle à l'enquête. Un taux global de non-réponse faible indique un risque moindre de biais de non-réponse, c'est‑à-dire un moins grand risque d'imprécision. Les régions géographiques présentant un taux global de non-réponse supérieur ou égal à 50 % sont supprimées. Il s'agit du même seuil que celui qu'on utilise pour la publication des données de l'Enquête nationale auprès des ménages. Dans le cas de la base de données du couplage Agriculture–Enquête nationale auprès des ménages, toutes les provinces présentent un taux global de non-réponse inférieur au seuil de 50 %.

Tableau 2 Taux global de non-réponse concernant la base de données du couplage Agriculture–Enquête nationale auprès des ménages, Canada et provinces
Provinces Taux global de non-réponse (%)
Canada 36,9
Terre-Neuve-et-Labrador 35,7
Île-du-Prince-Édouard 38,1
Nouvelle-Écosse 33,9
Nouveau-Brunswick 34,4
Québec 28,0
Ontario 35,1
Manitoba 42,8
Saskatchewan 41,3
Alberta 41,1
Colombie-Britannique 36,6

Note:

  1. Un petit nombre d'enregistrements des bases de données du couplage Agriculture–Population ont reçu automatiquement un poids de 1 et n'ont pas été pondérés selon la démarche décrite ici. Il s'agit des ménages associés aux exploitations présentant des caractéristiques particulières.
 
 
Date de modification :