Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (76)

Tout (76) (0 à 10 de 76 résultats)

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200013
    Description : Jean-Claude Deville compte parmi les plus éminents chercheurs dans la théorie et la pratique des sondages. Ses travaux sur l’échantillonnage équilibré, l’échantillonnage indirect et le calage en particulier sont reconnus au niveau international et largement utilisés en statistique officielle. Il est également pionnier dans le domaine de l’analyse statistique des données fonctionnelles. Le présent article nous donne l’occasion de reconnaître l’immense travail qu’il a accompli, et de lui rendre hommage. Dans la première partie, nous évoquons brièvement la contribution de Jean-Claude à l’analyse statistique en composantes principales fonctionnelles. Nous détaillons également certaines extensions récentes de ses travaux au croisement des domaines de l’analyse statistique des données fonctionnelles et de la théorie des sondages. Dans la seconde partie, nous présentons une extension de son travail dans le domaine de l’échantillonnage indirect. Ces résultats de recherche sont motivés par des applications concrètes et illustrent l’influence de Jean-Claude sur notre travail de chercheuses.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100003
    Description :

    L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200010
    Description :

    Être un statisticien soucieux de calage, c’est appliquer des procédures qui s’inspirent des principes directeurs de l’approche de Neyman en matière d’inférence fréquentiste qui domine actuellement la pensée statistique. Être un statisticien rempli de sagesse devant un ensemble de données, c’est faire appel à certains modes de réflexion bayésiens et fiduciaux pour modérer le simple calage de Neyman. Dans cet article, nous expliquons le mariage des idées à l’aide du concept de calage conditionnel qui tire parti des idées plus récentes en simulation qui sont issues du calcul bayésien approximatif.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100002
    Description :

    La non-réponse partielle se produit fréquemment dans les enquêtes-échantillons. On utilise couramment l’imputation hot deck pour remplacer les valeurs des items manquants dans des groupes homogènes appelés classes d’imputation. Nous proposons une procédure d’imputation hot deck fractionnaire et une vraisemblance empirique associée pour l’inférence sur la moyenne de population d’une fonction d’une variable d’intérêt présentant des données manquantes selon un échantillonnage avec probabilité proportionnelle à la taille avec fractions d’échantillonnage négligeables. Nous calculons les distributions limites de l’estimateur du maximum de vraisemblance empirique et du rapport de vraisemblance empirique, et nous proposons deux procédures bootstrap asymptotiques valides afin de construire des intervalles de confiance pour la moyenne de population. Les études par simulations montrent que les procédures bootstrap proposées donnent de meilleurs résultats que les procédures bootstrap habituelles, qui se révèlent asymptotiquement incorrectes quand le nombre de tirages aléatoires de l’imputation fractionnaire est fixe. De plus, la procédure bootstrap proposée, fondée sur le rapport de vraisemblance empirique, semble donner des résultats significativement meilleurs que la méthode fondée sur la distribution limite de l’estimateur du maximum de vraisemblance empirique en cas de grande variation des probabilités d’inclusion ou d’échantillon de petite taille.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800254956
    Description :

    En Italie, l’Institut statistique national (ISTAT) mène tous les trimestres l’enquête sur la population active (EPA) et en tire des estimations de la situation d’activité de la population à différents niveaux géographiques. Il estime en particulier le nombre de salariés et de chômeurs en s’appuyant sur cette enquête pour les zones locales de marché du travail (ZLMT). En tant que ZLMT, on compte 611 grappes infrarégionales de municipalités. Ce sont là des domaines non planifiés pour lesquels les estimations directes sont entachées de trop grandes erreurs d’échantillonnage, d’où la nécessité de recourir aux méthodes d’estimation sur petits domaines (EPD). Nous exposerons ici une nouvelle méthode EPD à niveaux de zones avec un modèle latent ou caché de Markov (MLM) comme modèle de couplage. Dans de tels modèles, la caractéristique d’intérêt et son évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre. Ainsi, les zones en question sont à même de changer leur état latent dans le temps. Nous appliquons le modèle proposé aux données trimestrielles de l’EPA de 2004 à 2014 et l’ajustons dans un cadre bayésien hiérarchique au moyen d’un échantillonneur de Gibbs à augmentation de données. Nous comparons nos estimations à celles du modèle classique de Fay-Herriot, à un modèle EPD à niveaux de zones et en séries chronologiques et enfin aux données du recensement de la population de 2011.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254958
    Description :

    Les domaines (ou sous-populations) pour lesquels les échantillons sont de petite taille sont appelés petits domaines. Les estimateurs directs classiques ne sont pas suffisamment précis pour ces petits domaines, en raison de la petite taille des échantillons. Or, la demande de statistiques fiables pour les petits domaines a augmenté considérablement. On utilise à l’heure actuelle des estimateurs indirects des moyennes ou des totaux de petits domaines basés sur un modèle pour résoudre les difficultés que pose l’estimation directe. Ces estimateurs reposent sur des modèles de liaison qui empruntent de l’information aux divers domaines pour accroître l’efficacité. En particulier, beaucoup d’attention a été accordée dans la littérature aux meilleurs estimateurs empiriques ou estimateurs EB (pour Empirical Best) sous des modèles de régression linéaires au niveau du domaine et au niveau de l’unité contenant des effets aléatoires de petit domaine. L’erreur quadratique moyenne (EQM) des estimateurs EB sous le modèle sert fréquemment à mesurer la variabilité des estimateurs. Les estimateurs par linéarisation, ainsi que les estimateurs jackknife et bootstrap de l’EQM sous le modèle sont d’usage très répandu. Toutefois, les organismes statistiques nationaux s’intéressent souvent à l’estimation de l’EQM des estimateurs EB sous le plan de sondage, pour cadrer avec les estimateurs classiques de l’EQM sous le plan associés aux estimateurs directs pour les grands domaines dont les tailles d’échantillon sont adéquates. Les estimateurs de l’EQM sous le plan des estimateurs EB peuvent être obtenus pour les modèles au niveau du domaine, mais ils ont tendance à être instables quand la taille de l’échantillon du domaine est petite. Des estimateurs composites de l’EQM, obtenus en prenant une somme pondérée de l’estimateur de l’EQM sous le plan et de l’estimateur de l’EQM sous le modèle, sont proposés dans le présent article. Les propriétés des estimateurs de l’EQM sous le modèle au niveau du domaine sont étudiées en examinant le biais, la racine carrée de l’erreur quadratique moyenne relative et le taux de couverture des intervalles de confiance sous le plan de sondage. Le cas d’un modèle au niveau de l’unité est également examiné sous échantillonnage aléatoire simple dans chaque domaine. Les résultats d’une étude en simulation montrent que les estimateurs composites proposés de l’EQM offrent un bon compromis pour l’estimation de l’EQM sous le plan.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 11-626-X2017077
    Description :

    Le 13 avril 2017, le gouvernement du Canada a déposé le projet de loi de légalisation de la consommation récréative du cannabis pour les adultes. Cette décision aura une incidence directe sur le système statistique du Canada. Cet article d’Aperçus économiques vise à fournir des estimations expérimentales du volume de la consommation de cannabis, en se fondant sur des renseignements existants relatifs à la prévalence de la consommation de cannabis. Cet article présente les estimations expérimentales du nombre de tonnes de cannabis consommé par tranche d’âge au cours de la période allant de 1960 à 2015. Ces estimations expérimentales se fondent sur des données d’enquête de plusieurs sources, de techniques statistiques permettant de coupler les sources au cours du temps, et d’hypothèses relatives au comportement de consommation. Elles pourront faire l’objet de révisions à mesure que des sources de données améliorées ou supplémentaires deviennent disponibles.

    Date de diffusion : 2017-12-18

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (73)

Analyses (73) (0 à 10 de 73 résultats)

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200013
    Description : Jean-Claude Deville compte parmi les plus éminents chercheurs dans la théorie et la pratique des sondages. Ses travaux sur l’échantillonnage équilibré, l’échantillonnage indirect et le calage en particulier sont reconnus au niveau international et largement utilisés en statistique officielle. Il est également pionnier dans le domaine de l’analyse statistique des données fonctionnelles. Le présent article nous donne l’occasion de reconnaître l’immense travail qu’il a accompli, et de lui rendre hommage. Dans la première partie, nous évoquons brièvement la contribution de Jean-Claude à l’analyse statistique en composantes principales fonctionnelles. Nous détaillons également certaines extensions récentes de ses travaux au croisement des domaines de l’analyse statistique des données fonctionnelles et de la théorie des sondages. Dans la seconde partie, nous présentons une extension de son travail dans le domaine de l’échantillonnage indirect. Ces résultats de recherche sont motivés par des applications concrètes et illustrent l’influence de Jean-Claude sur notre travail de chercheuses.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100003
    Description :

    L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200010
    Description :

    Être un statisticien soucieux de calage, c’est appliquer des procédures qui s’inspirent des principes directeurs de l’approche de Neyman en matière d’inférence fréquentiste qui domine actuellement la pensée statistique. Être un statisticien rempli de sagesse devant un ensemble de données, c’est faire appel à certains modes de réflexion bayésiens et fiduciaux pour modérer le simple calage de Neyman. Dans cet article, nous expliquons le mariage des idées à l’aide du concept de calage conditionnel qui tire parti des idées plus récentes en simulation qui sont issues du calcul bayésien approximatif.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100002
    Description :

    La non-réponse partielle se produit fréquemment dans les enquêtes-échantillons. On utilise couramment l’imputation hot deck pour remplacer les valeurs des items manquants dans des groupes homogènes appelés classes d’imputation. Nous proposons une procédure d’imputation hot deck fractionnaire et une vraisemblance empirique associée pour l’inférence sur la moyenne de population d’une fonction d’une variable d’intérêt présentant des données manquantes selon un échantillonnage avec probabilité proportionnelle à la taille avec fractions d’échantillonnage négligeables. Nous calculons les distributions limites de l’estimateur du maximum de vraisemblance empirique et du rapport de vraisemblance empirique, et nous proposons deux procédures bootstrap asymptotiques valides afin de construire des intervalles de confiance pour la moyenne de population. Les études par simulations montrent que les procédures bootstrap proposées donnent de meilleurs résultats que les procédures bootstrap habituelles, qui se révèlent asymptotiquement incorrectes quand le nombre de tirages aléatoires de l’imputation fractionnaire est fixe. De plus, la procédure bootstrap proposée, fondée sur le rapport de vraisemblance empirique, semble donner des résultats significativement meilleurs que la méthode fondée sur la distribution limite de l’estimateur du maximum de vraisemblance empirique en cas de grande variation des probabilités d’inclusion ou d’échantillon de petite taille.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800254956
    Description :

    En Italie, l’Institut statistique national (ISTAT) mène tous les trimestres l’enquête sur la population active (EPA) et en tire des estimations de la situation d’activité de la population à différents niveaux géographiques. Il estime en particulier le nombre de salariés et de chômeurs en s’appuyant sur cette enquête pour les zones locales de marché du travail (ZLMT). En tant que ZLMT, on compte 611 grappes infrarégionales de municipalités. Ce sont là des domaines non planifiés pour lesquels les estimations directes sont entachées de trop grandes erreurs d’échantillonnage, d’où la nécessité de recourir aux méthodes d’estimation sur petits domaines (EPD). Nous exposerons ici une nouvelle méthode EPD à niveaux de zones avec un modèle latent ou caché de Markov (MLM) comme modèle de couplage. Dans de tels modèles, la caractéristique d’intérêt et son évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre. Ainsi, les zones en question sont à même de changer leur état latent dans le temps. Nous appliquons le modèle proposé aux données trimestrielles de l’EPA de 2004 à 2014 et l’ajustons dans un cadre bayésien hiérarchique au moyen d’un échantillonneur de Gibbs à augmentation de données. Nous comparons nos estimations à celles du modèle classique de Fay-Herriot, à un modèle EPD à niveaux de zones et en séries chronologiques et enfin aux données du recensement de la population de 2011.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254958
    Description :

    Les domaines (ou sous-populations) pour lesquels les échantillons sont de petite taille sont appelés petits domaines. Les estimateurs directs classiques ne sont pas suffisamment précis pour ces petits domaines, en raison de la petite taille des échantillons. Or, la demande de statistiques fiables pour les petits domaines a augmenté considérablement. On utilise à l’heure actuelle des estimateurs indirects des moyennes ou des totaux de petits domaines basés sur un modèle pour résoudre les difficultés que pose l’estimation directe. Ces estimateurs reposent sur des modèles de liaison qui empruntent de l’information aux divers domaines pour accroître l’efficacité. En particulier, beaucoup d’attention a été accordée dans la littérature aux meilleurs estimateurs empiriques ou estimateurs EB (pour Empirical Best) sous des modèles de régression linéaires au niveau du domaine et au niveau de l’unité contenant des effets aléatoires de petit domaine. L’erreur quadratique moyenne (EQM) des estimateurs EB sous le modèle sert fréquemment à mesurer la variabilité des estimateurs. Les estimateurs par linéarisation, ainsi que les estimateurs jackknife et bootstrap de l’EQM sous le modèle sont d’usage très répandu. Toutefois, les organismes statistiques nationaux s’intéressent souvent à l’estimation de l’EQM des estimateurs EB sous le plan de sondage, pour cadrer avec les estimateurs classiques de l’EQM sous le plan associés aux estimateurs directs pour les grands domaines dont les tailles d’échantillon sont adéquates. Les estimateurs de l’EQM sous le plan des estimateurs EB peuvent être obtenus pour les modèles au niveau du domaine, mais ils ont tendance à être instables quand la taille de l’échantillon du domaine est petite. Des estimateurs composites de l’EQM, obtenus en prenant une somme pondérée de l’estimateur de l’EQM sous le plan et de l’estimateur de l’EQM sous le modèle, sont proposés dans le présent article. Les propriétés des estimateurs de l’EQM sous le modèle au niveau du domaine sont étudiées en examinant le biais, la racine carrée de l’erreur quadratique moyenne relative et le taux de couverture des intervalles de confiance sous le plan de sondage. Le cas d’un modèle au niveau de l’unité est également examiné sous échantillonnage aléatoire simple dans chaque domaine. Les résultats d’une étude en simulation montrent que les estimateurs composites proposés de l’EQM offrent un bon compromis pour l’estimation de l’EQM sous le plan.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 11-626-X2017077
    Description :

    Le 13 avril 2017, le gouvernement du Canada a déposé le projet de loi de légalisation de la consommation récréative du cannabis pour les adultes. Cette décision aura une incidence directe sur le système statistique du Canada. Cet article d’Aperçus économiques vise à fournir des estimations expérimentales du volume de la consommation de cannabis, en se fondant sur des renseignements existants relatifs à la prévalence de la consommation de cannabis. Cet article présente les estimations expérimentales du nombre de tonnes de cannabis consommé par tranche d’âge au cours de la période allant de 1960 à 2015. Ces estimations expérimentales se fondent sur des données d’enquête de plusieurs sources, de techniques statistiques permettant de coupler les sources au cours du temps, et d’hypothèses relatives au comportement de consommation. Elles pourront faire l’objet de révisions à mesure que des sources de données améliorées ou supplémentaires deviennent disponibles.

    Date de diffusion : 2017-12-18

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20
Références (3)

Références (3) ((3 résultats))

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2005002
    Description :

    Le présent document fournit un aperçu des différences entre l'ancienne et la nouvelle méthodologie de pondération, ainsi que des effets du nouveau système de pondération sur les estimations.

    Date de diffusion : 2005-06-30

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015026
    Description :

    Le but de la présente étude est d'utiliser les données de panel de la Current Population Survey (CPS) pour examiner les effets de la non-réponse des unités. Étant donné que la plupart des non-répondants à la CPS sont des répondants durant au moins un mois de présence dans l'échantillon, on peut se servir des données relatives aux autres mois pour comparer les caractéristiques des personnes qui participent entièrement au panel avec les caractéristiques des non-répondants, ainsi que pour évaluer les méthodes de correction pour tenir compte de la non-réponse. Dans la présente communication, nous présentons des analyses fondées sur les données de panel de la CPS pour illustrer les effets de la non-réponse des unités. Après avoir apporté les corrections nécessaires pour tenir compte de l'absence de réponse, nous effectuons également des comparaisons visantà évaluer l'incidence de ces corrections. En outre, nous analysons la signification des constatations et les propositions de recherche ultérieure.

    Date de diffusion : 1999-10-22

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015028
    Description :

    Nous abordons le problème de l'estimation des statistiques sur la dynamique du revenu calculées d'après les données d'enquêtes longitudinales complexes. En outre, nous comparons deux estimateurs (fondés sur le plan d'échantillonnage) de proportions longitudinales et de taux de transition, du point de vue de la variabilité, dans le cas de taux d'érosion élevé. Un des estimateurs est fondé sur des échantillons transversaux pour l'estimation des bornes de catégories de revenu à chaque période, ainsi que sur un échantillon longitudinal pour l'estimation des dénombrements longitudinaux. L'autre estimateur est entièrement fondé sur l'échantillon longitudinal pour l'estimation des bornes de catégories et pour les dénombrements longitudinaux. Nous établissons des estimateurs de variance par la linéarisation de Taylor, tant pour l'estimateur longitudinal que pour l'estimateur mixte, dans le cas où l'on présume qu'il n'y a aucun changement dans la population, et pour l'estimateur mixte, dans le cas où la population subit des changements.

    Date de diffusion : 1999-10-22
Date de modification :