Inférence et fondements

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (15)

Tout (15) (0 à 10 de 15 résultats)

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200200003
    Description :

    Les enquêtes non probabilistes jouent un rôle croissant dans la recherche par enquête. L’étude de Wu rassemble de façon compétente les nombreux outils disponibles lorsqu’on suppose que la non-réponse est conditionnellement indépendante de la variable étudiée. Dans le présent exposé, j’étudie la façon d’intégrer les idées de Wu dans un cadre plus large qui englobe le cas dans lequel la non-réponse dépend de la variable étudiée, un cas qui est particulièrement dangereux dans les sondages non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202000100001
    Description :

    Depuis plusieurs décennies, les agences nationales de statistique dans le monde utilisent des enquêtes probabilistes comme outil privilégié pour répondre à des besoins d’informations au sujet d’une population d’intérêt. Au cours des dernières années, on a observé un vent de changement et on considère de plus en plus d’autres sources de données. Cette tendance peut être expliquée par cinq facteurs principaux : le déclin des taux de réponse dans les enquêtes probabilistes, les coûts de collecte élevés, l’accroissement du fardeau sur les répondants, le désir d’avoir accès à des statistiques en « temps réel » et la prolifération des sources de données non probabilistes. Certaines personnes en sont même venues à croire que les enquêtes probabilistes pourraient graduellement disparaître. Dans cet article, nous passons en revue quelques approches qui permettent de réduire, voire éliminer, l’utilisation d’enquêtes probabilistes tout en conservant un cadre d’inférence statistique valide. Toutes les approches que nous considérons utilisent des données d’une source non probabiliste accompagnées, dans la plupart des cas, de données d’une enquête probabiliste. Certaines d’entre elles reposent sur la validité d’hypothèses de modèle ce qui contraste avec les approches fondées sur le plan de sondage probabiliste. Ces dernières sont généralement moins efficaces mais, en contrepartie, elles ne sont pas affectées par le risque de biais découlant d’une mauvaise spécification d’un modèle.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201800254956
    Description :

    En Italie, l’Institut statistique national (ISTAT) mène tous les trimestres l’enquête sur la population active (EPA) et en tire des estimations de la situation d’activité de la population à différents niveaux géographiques. Il estime en particulier le nombre de salariés et de chômeurs en s’appuyant sur cette enquête pour les zones locales de marché du travail (ZLMT). En tant que ZLMT, on compte 611 grappes infrarégionales de municipalités. Ce sont là des domaines non planifiés pour lesquels les estimations directes sont entachées de trop grandes erreurs d’échantillonnage, d’où la nécessité de recourir aux méthodes d’estimation sur petits domaines (EPD). Nous exposerons ici une nouvelle méthode EPD à niveaux de zones avec un modèle latent ou caché de Markov (MLM) comme modèle de couplage. Dans de tels modèles, la caractéristique d’intérêt et son évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre. Ainsi, les zones en question sont à même de changer leur état latent dans le temps. Nous appliquons le modèle proposé aux données trimestrielles de l’EPA de 2004 à 2014 et l’ajustons dans un cadre bayésien hiérarchique au moyen d’un échantillonneur de Gibbs à augmentation de données. Nous comparons nos estimations à celles du modèle classique de Fay-Herriot, à un modèle EPD à niveaux de zones et en séries chronologiques et enfin aux données du recensement de la population de 2011.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 11-522-X201700014713
    Description :

    Le terme mégadonnées peut signifier différentes choses pour différentes personnes. Pour certaines, il s’agit d’ensembles de données que nos systèmes classiques de traitement et d’analyse ne peuvent plus traiter. Pour d’autres, cela veut simplement dire tirer parti des ensembles de données existants de toutes tailles et trouver des façons de les fusionner, avec comme objectif de produire de nouveaux éléments de connaissance. La première perspective présente un certain nombre de défis importants pour les études traditionnelles de marché, recherches sur l’opinion et recherches sociales. Dans l’un ou l’autre cas, il existe des répercussions pour l’avenir des enquêtes, qu’on commence à peine à explorer.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201300014252
    Description :

    Même si l’estimation de caractéristiques de populations finies à partir d’échantillons probabilistes a obtenu beaucoup de succès pour les grands échantillons, des inférences à partir d’échantillons non probabilistes sont également possibles. Les échantillons non probabilistes ont été critiqués en raison du biais d’auto-sélection et de l’absence de méthodes pour estimer la précision des estimations. L’accès plus vaste à Internet et la capacité de procéder à des collectes de données très peu coûteuses en ligne ont ravivé l’intérêt pour ce sujet. Nous passons en revue des stratégies d’échantillonnage non probabiliste et nous résumons certains des enjeux clés. Nous proposons ensuite des conditions à respecter pour que l’échantillonnage non probabiliste puisse constituer une approche raisonnable. Nous concluons par des idées de recherches futures.

    Date de diffusion : 2014-10-31

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201300014259
    Description :

    Dans l’optique de réduire le fardeau de réponse des exploitants agricoles, Statistique Canada étudie d’autres approches que les enquêtes par téléphone pour produire des estimations des grandes cultures. Une option consiste à publier des estimations de la superficie récoltée et du rendement en septembre, comme cela se fait actuellement, mais de les calculer au moyen de modèles fondés sur des données par satellite et des données météorologiques, ainsi que les données de l’enquête téléphonique de juillet. Toutefois, avant d’adopter une telle approche, on doit trouver une méthode pour produire des estimations comportant un niveau d’exactitude suffisant. Des recherches sont en cours pour examiner différentes possibilités. Les résultats de la recherche initiale et les enjeux à prendre en compte sont abordés dans ce document.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201300611796
    Géographie : Canada
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 11-522-X20020016743
    Description :

    On s'intéresse beaucoup à l'utilisation de données provenant d'enquêtes longitudinales pour comprendre les processus qui surviennent au cours de la vie, comme la scolarité, l'emploi, la fécondité, la santé et le mariage. L'analyse des données sur la durée des épisodes que vivent les personnes dans certains états (par exemple, l'emploi, le mariage) est un des outils principaux de l'étude de ces processus. Cet article porte sur les méthodes d'analyse des données sur la durée qui tiennent compte de caractéristiques importantes des enquêtes longitudinales, à savoir l'utilisation de plans d'échantillonnage complexes dans des populations hétérogènes, l'absence ou l'inexactitude des renseignements sur le moment où ont lieu les événements et la possibilité qu'il existe des mécanismes de retrait de l'enquête ou de censure des données qui ne peuvent être ignorés. On considère des méthodes paramétriques et non paramétriques d'estimation et de vérification des modèles. On propose de nouvelles méthodes, ainsi que des méthodes existantes qu'on applique à l'analyse des données sur la durée provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2004-09-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (13)

Analyses (13) (0 à 10 de 13 résultats)

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200200003
    Description :

    Les enquêtes non probabilistes jouent un rôle croissant dans la recherche par enquête. L’étude de Wu rassemble de façon compétente les nombreux outils disponibles lorsqu’on suppose que la non-réponse est conditionnellement indépendante de la variable étudiée. Dans le présent exposé, j’étudie la façon d’intégrer les idées de Wu dans un cadre plus large qui englobe le cas dans lequel la non-réponse dépend de la variable étudiée, un cas qui est particulièrement dangereux dans les sondages non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202000100001
    Description :

    Depuis plusieurs décennies, les agences nationales de statistique dans le monde utilisent des enquêtes probabilistes comme outil privilégié pour répondre à des besoins d’informations au sujet d’une population d’intérêt. Au cours des dernières années, on a observé un vent de changement et on considère de plus en plus d’autres sources de données. Cette tendance peut être expliquée par cinq facteurs principaux : le déclin des taux de réponse dans les enquêtes probabilistes, les coûts de collecte élevés, l’accroissement du fardeau sur les répondants, le désir d’avoir accès à des statistiques en « temps réel » et la prolifération des sources de données non probabilistes. Certaines personnes en sont même venues à croire que les enquêtes probabilistes pourraient graduellement disparaître. Dans cet article, nous passons en revue quelques approches qui permettent de réduire, voire éliminer, l’utilisation d’enquêtes probabilistes tout en conservant un cadre d’inférence statistique valide. Toutes les approches que nous considérons utilisent des données d’une source non probabiliste accompagnées, dans la plupart des cas, de données d’une enquête probabiliste. Certaines d’entre elles reposent sur la validité d’hypothèses de modèle ce qui contraste avec les approches fondées sur le plan de sondage probabiliste. Ces dernières sont généralement moins efficaces mais, en contrepartie, elles ne sont pas affectées par le risque de biais découlant d’une mauvaise spécification d’un modèle.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201800254956
    Description :

    En Italie, l’Institut statistique national (ISTAT) mène tous les trimestres l’enquête sur la population active (EPA) et en tire des estimations de la situation d’activité de la population à différents niveaux géographiques. Il estime en particulier le nombre de salariés et de chômeurs en s’appuyant sur cette enquête pour les zones locales de marché du travail (ZLMT). En tant que ZLMT, on compte 611 grappes infrarégionales de municipalités. Ce sont là des domaines non planifiés pour lesquels les estimations directes sont entachées de trop grandes erreurs d’échantillonnage, d’où la nécessité de recourir aux méthodes d’estimation sur petits domaines (EPD). Nous exposerons ici une nouvelle méthode EPD à niveaux de zones avec un modèle latent ou caché de Markov (MLM) comme modèle de couplage. Dans de tels modèles, la caractéristique d’intérêt et son évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre. Ainsi, les zones en question sont à même de changer leur état latent dans le temps. Nous appliquons le modèle proposé aux données trimestrielles de l’EPA de 2004 à 2014 et l’ajustons dans un cadre bayésien hiérarchique au moyen d’un échantillonneur de Gibbs à augmentation de données. Nous comparons nos estimations à celles du modèle classique de Fay-Herriot, à un modèle EPD à niveaux de zones et en séries chronologiques et enfin aux données du recensement de la population de 2011.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 11-522-X201700014713
    Description :

    Le terme mégadonnées peut signifier différentes choses pour différentes personnes. Pour certaines, il s’agit d’ensembles de données que nos systèmes classiques de traitement et d’analyse ne peuvent plus traiter. Pour d’autres, cela veut simplement dire tirer parti des ensembles de données existants de toutes tailles et trouver des façons de les fusionner, avec comme objectif de produire de nouveaux éléments de connaissance. La première perspective présente un certain nombre de défis importants pour les études traditionnelles de marché, recherches sur l’opinion et recherches sociales. Dans l’un ou l’autre cas, il existe des répercussions pour l’avenir des enquêtes, qu’on commence à peine à explorer.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201300014252
    Description :

    Même si l’estimation de caractéristiques de populations finies à partir d’échantillons probabilistes a obtenu beaucoup de succès pour les grands échantillons, des inférences à partir d’échantillons non probabilistes sont également possibles. Les échantillons non probabilistes ont été critiqués en raison du biais d’auto-sélection et de l’absence de méthodes pour estimer la précision des estimations. L’accès plus vaste à Internet et la capacité de procéder à des collectes de données très peu coûteuses en ligne ont ravivé l’intérêt pour ce sujet. Nous passons en revue des stratégies d’échantillonnage non probabiliste et nous résumons certains des enjeux clés. Nous proposons ensuite des conditions à respecter pour que l’échantillonnage non probabiliste puisse constituer une approche raisonnable. Nous concluons par des idées de recherches futures.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201300611796
    Géographie : Canada
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 11-522-X20020016743
    Description :

    On s'intéresse beaucoup à l'utilisation de données provenant d'enquêtes longitudinales pour comprendre les processus qui surviennent au cours de la vie, comme la scolarité, l'emploi, la fécondité, la santé et le mariage. L'analyse des données sur la durée des épisodes que vivent les personnes dans certains états (par exemple, l'emploi, le mariage) est un des outils principaux de l'étude de ces processus. Cet article porte sur les méthodes d'analyse des données sur la durée qui tiennent compte de caractéristiques importantes des enquêtes longitudinales, à savoir l'utilisation de plans d'échantillonnage complexes dans des populations hétérogènes, l'absence ou l'inexactitude des renseignements sur le moment où ont lieu les événements et la possibilité qu'il existe des mécanismes de retrait de l'enquête ou de censure des données qui ne peuvent être ignorés. On considère des méthodes paramétriques et non paramétriques d'estimation et de vérification des modèles. On propose de nouvelles méthodes, ainsi que des méthodes existantes qu'on applique à l'analyse des données sur la durée provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016745
    Description :

    L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.

    Date de diffusion : 2004-09-13
Références (2)

Références (2) ((2 résultats))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201300014259
    Description :

    Dans l’optique de réduire le fardeau de réponse des exploitants agricoles, Statistique Canada étudie d’autres approches que les enquêtes par téléphone pour produire des estimations des grandes cultures. Une option consiste à publier des estimations de la superficie récoltée et du rendement en septembre, comme cela se fait actuellement, mais de les calculer au moyen de modèles fondés sur des données par satellite et des données météorologiques, ainsi que les données de l’enquête téléphonique de juillet. Toutefois, avant d’adopter une telle approche, on doit trouver une méthode pour produire des estimations comportant un niveau d’exactitude suffisant. Des recherches sont en cours pour examiner différentes possibilités. Les résultats de la recherche initiale et les enjeux à prendre en compte sont abordés dans ce document.

    Date de diffusion : 2014-10-31

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015642
    Description :

    La Base de données longitudinale sur l'immigration (BDIM) établit un lien entre les dossiers administratifs de l'immigration et de l'impôt en une source exhaustive de données sur le comportement sur le marché du travail de la population des immigrants ayant obtenu le droit d'établissement au Canada. Elle porte sur la période de 1980 à 1995 et sera mise à jour en 1999 pour l'année d'imposition 1996. Statistique Canada gère la base de données pour le compte d'un consortium fédéral-provincial dirigé par Citoyenneté et Immigration Canada. Le présent document examine les enjeux du développement d'une base de données longitudinale combinant des dossiers administratifs, à l'appui de la recherche et de l'analyse en matière de politiques. L'accent est plus particulièrement mis sur les questions de méthodologie, de concepts, d'analyse et de protection des renseignements personnels découlant de la création et du développement continu de cette base de données. Le présent document aborde en outre brièvement les résultats des recherches, qui illustrent les liens en matière de résultats des politiques que la BDIM permet aux décideurs d'examiner.

    Date de diffusion : 2000-03-02
Date de modification :