Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (50)

Tout (50) (0 à 10 de 50 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100015
    Description : Nous présentons des estimateurs de type Horvitz-Thompson et de type multiplicité fondés sur le plan de sondage de la taille de la population, ainsi que du total et de la moyenne d’une variable de réponse associée aux éléments d’une population cachée à utiliser avec la variante d’échantillonnage par dépistage de liens proposée par Félix-Medina et Thompson (2004). Étant donné que le calcul des estimateurs nécessite de connaître les probabilités d’inclusion des personnes échantillonnées, mais qu’elles sont inconnues, nous proposons un modèle bayésien qui nous permet de les estimer et, par conséquent, de calculer les estimateurs des paramètres de population. Les résultats d’une petite étude numérique indiquent que les performances des estimateurs proposés sont acceptables.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100018
    Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100004
    Description :

    Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201900100005
    Description :

    L’estimation sur petits domaines à l’aide de modèles au niveau du domaine peut parfois bénéficier de covariables observées sujettes à des erreurs aléatoires, par exemple des covariables qui sont elles-mêmes des estimations tirées d’une autre enquête. Sachant les estimations des variances de ces erreurs de mesure (échantillonnage) pour chaque petit domaine, on peut tenir compte de l’incertitude de ces covariables au moyen de modèles d’erreur de mesure (par exemple Ybarra et Lohr, 2008). Deux types de modèles d’erreur de mesure au niveau du domaine ont été examinés dans les publications traitant de l’estimation sur petits domaines. Le modèle fonctionnel d’erreur de mesure suppose que les valeurs sous-jacentes réelles des covariables avec erreur de mesure sont des quantités fixes mais inconnues. Le modèle structurel d’erreur de mesure suppose que ces valeurs réelles suivent un modèle, ce qui donne un modèle multivarié pour les covariables observées avec erreur et la variable dépendante initiale. Nous comparons ces deux modèles à la solution consistant à simplement ignorer l’erreur de mesure lorsqu’elle est présente (modèle naïf), en étudiant les conséquences pour les erreurs quadratiques moyennes de prédiction de l’utilisation d’un modèle incorrect avec différentes hypothèses sous-jacentes sur le modèle vrai. Les comparaisons réalisées au moyen de formules analytiques pour les erreurs quadratiques moyennes et en supposant que les paramètres du modèle sont connus donnent des résultats surprenants. Nous illustrons également les résultats à l’aide d’un modèle ajusté aux données du programme Small Area Income and Poverty Estimates (SAIPE, Estimations sur petits domaines du revenu et de la pauvreté) du U.S. Census Bureau.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800254961
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Dans le cas d’un sondage aléatoire simple stratifié, il existe deux méthodes permettant de choisir les seuils intervenant dans la winsorisation. L’article se décompose de la façon suivante. Une première partie rappelle les notations et la notion d’estimateur par winsorisation. La deuxième partie consiste à détailler les deux méthodes et à les étendre dans le cas d’un sondage poissonnien, puis à les comparer sur des jeux de données simulées et sur l’Enquête sur le Coût de la Main d’Oeuvre et la structure des salaires réalisée par l’INSEE.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (50)

Analyses (50) (0 à 10 de 50 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100015
    Description : Nous présentons des estimateurs de type Horvitz-Thompson et de type multiplicité fondés sur le plan de sondage de la taille de la population, ainsi que du total et de la moyenne d’une variable de réponse associée aux éléments d’une population cachée à utiliser avec la variante d’échantillonnage par dépistage de liens proposée par Félix-Medina et Thompson (2004). Étant donné que le calcul des estimateurs nécessite de connaître les probabilités d’inclusion des personnes échantillonnées, mais qu’elles sont inconnues, nous proposons un modèle bayésien qui nous permet de les estimer et, par conséquent, de calculer les estimateurs des paramètres de population. Les résultats d’une petite étude numérique indiquent que les performances des estimateurs proposés sont acceptables.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100018
    Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100004
    Description :

    Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201900100005
    Description :

    L’estimation sur petits domaines à l’aide de modèles au niveau du domaine peut parfois bénéficier de covariables observées sujettes à des erreurs aléatoires, par exemple des covariables qui sont elles-mêmes des estimations tirées d’une autre enquête. Sachant les estimations des variances de ces erreurs de mesure (échantillonnage) pour chaque petit domaine, on peut tenir compte de l’incertitude de ces covariables au moyen de modèles d’erreur de mesure (par exemple Ybarra et Lohr, 2008). Deux types de modèles d’erreur de mesure au niveau du domaine ont été examinés dans les publications traitant de l’estimation sur petits domaines. Le modèle fonctionnel d’erreur de mesure suppose que les valeurs sous-jacentes réelles des covariables avec erreur de mesure sont des quantités fixes mais inconnues. Le modèle structurel d’erreur de mesure suppose que ces valeurs réelles suivent un modèle, ce qui donne un modèle multivarié pour les covariables observées avec erreur et la variable dépendante initiale. Nous comparons ces deux modèles à la solution consistant à simplement ignorer l’erreur de mesure lorsqu’elle est présente (modèle naïf), en étudiant les conséquences pour les erreurs quadratiques moyennes de prédiction de l’utilisation d’un modèle incorrect avec différentes hypothèses sous-jacentes sur le modèle vrai. Les comparaisons réalisées au moyen de formules analytiques pour les erreurs quadratiques moyennes et en supposant que les paramètres du modèle sont connus donnent des résultats surprenants. Nous illustrons également les résultats à l’aide d’un modèle ajusté aux données du programme Small Area Income and Poverty Estimates (SAIPE, Estimations sur petits domaines du revenu et de la pauvreté) du U.S. Census Bureau.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800254961
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Dans le cas d’un sondage aléatoire simple stratifié, il existe deux méthodes permettant de choisir les seuils intervenant dans la winsorisation. L’article se décompose de la façon suivante. Une première partie rappelle les notations et la notion d’estimateur par winsorisation. La deuxième partie consiste à détailler les deux méthodes et à les étendre dans le cas d’un sondage poissonnien, puis à les comparer sur des jeux de données simulées et sur l’Enquête sur le Coût de la Main d’Oeuvre et la structure des salaires réalisée par l’INSEE.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :