Pondération et estimation

Aller au contenu principal
Aller au pied de page

Sélection de la langue

English

Recherche et menus

Recherche et menus

Rechercher

Passer au filtres. Voir les résultats.

Résultats

Tout (50)

Tout (50) (0 à 10 de 50 résultats)

1. Proposition pour le problème de l’estimation des probabilités d’appariement dans le couplage d’enregistrements Archivé
Articles et rapports : 11-522-X202200100001
Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
Date de diffusion : 2024-03-25
2. Méthode de désagrégation fondée sur un modèle pour l’estimation des compétences des adultes Archivé
Articles et rapports : 11-522-X202200100003
Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
Date de diffusion : 2024-03-25
3. Estimateurs bayésiens fondés sur le plan de sondage et assistés par un modèle de la taille, du total et de la moyenne d’une population difficile à joindre depuis un échantillon par dépistage de liens avec un échantillon initial en grappes Archivé
Articles et rapports : 11-522-X202200100015
Description : Nous présentons des estimateurs de type Horvitz-Thompson et de type multiplicité fondés sur le plan de sondage de la taille de la population, ainsi que du total et de la moyenne d’une variable de réponse associée aux éléments d’une population cachée à utiliser avec la variante d’échantillonnage par dépistage de liens proposée par Félix-Medina et Thompson (2004). Étant donné que le calcul des estimateurs nécessite de connaître les probabilités d’inclusion des personnes échantillonnées, mais qu’elles sont inconnues, nous proposons un modèle bayésien qui nous permet de les estimer et, par conséquent, de calculer les estimateurs des paramètres de population. Les résultats d’une petite étude numérique indiquent que les performances des estimateurs proposés sont acceptables.
Date de diffusion : 2024-03-25
4. Intégration des données existantes pour élaborer un indicateur d’ethnicité dans le cadre du PEDSL Archivé
Articles et rapports : 11-522-X202200100018
Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.
Date de diffusion : 2024-03-25
5. Inférence bayésienne pour un modèle des composantes de la variance fondée sur la vraisemblance composite par paire à partir des données d’enquête
Articles et rapports : 12-001-X202200100002
Description :
Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

Date de diffusion : 2022-06-21
6. Nouveau mode d’estimation d’un modèle logistique cumulatif avec des données d’enquêtes à plans complexes
Articles et rapports : 12-001-X201900200007
Description :
Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.
Date de diffusion : 2019-06-27
7. Régression quantile censurée pondérée
Articles et rapports : 12-001-X201900100004
Description :
Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.
Date de diffusion : 2019-05-07
8. Erreur de mesure dans l’estimation sur petits domaines : comparaison de modèles fonctionnels, structurels et naïfs
Articles et rapports : 12-001-X201900100005
Description :
L’estimation sur petits domaines à l’aide de modèles au niveau du domaine peut parfois bénéficier de covariables observées sujettes à des erreurs aléatoires, par exemple des covariables qui sont elles-mêmes des estimations tirées d’une autre enquête. Sachant les estimations des variances de ces erreurs de mesure (échantillonnage) pour chaque petit domaine, on peut tenir compte de l’incertitude de ces covariables au moyen de modèles d’erreur de mesure (par exemple Ybarra et Lohr, 2008). Deux types de modèles d’erreur de mesure au niveau du domaine ont été examinés dans les publications traitant de l’estimation sur petits domaines. Le modèle fonctionnel d’erreur de mesure suppose que les valeurs sous-jacentes réelles des covariables avec erreur de mesure sont des quantités fixes mais inconnues. Le modèle structurel d’erreur de mesure suppose que ces valeurs réelles suivent un modèle, ce qui donne un modèle multivarié pour les covariables observées avec erreur et la variable dépendante initiale. Nous comparons ces deux modèles à la solution consistant à simplement ignorer l’erreur de mesure lorsqu’elle est présente (modèle naïf), en étudiant les conséquences pour les erreurs quadratiques moyennes de prédiction de l’utilisation d’un modèle incorrect avec différentes hypothèses sous-jacentes sur le modèle vrai. Les comparaisons réalisées au moyen de formules analytiques pour les erreurs quadratiques moyennes et en supposant que les paramètres du modèle sont connus donnent des résultats surprenants. Nous illustrons également les résultats à l’aide d’un modèle ajusté aux données du programme Small Area Income and Poverty Estimates (SAIPE, Estimations sur petits domaines du revenu et de la pauvreté) du U.S. Census Bureau.
Date de diffusion : 2019-05-07
9. Comparaison des méthodes de biais conditionnel et de Kokic et Bell pour les sondages poissonniens et stratifiés Archivé
Articles et rapports : 12-001-X201800254961
Description :
Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Dans le cas d’un sondage aléatoire simple stratifié, il existe deux méthodes permettant de choisir les seuils intervenant dans la winsorisation. L’article se décompose de la façon suivante. Une première partie rappelle les notations et la notion d’estimateur par winsorisation. La deuxième partie consiste à détailler les deux méthodes et à les étendre dans le cas d’un sondage poissonnien, puis à les comparer sur des jeux de données simulées et sur l’Enquête sur le Coût de la Main d’Oeuvre et la structure des salaires réalisée par l’INSEE.
Date de diffusion : 2018-12-20
10. Une méthode de détermination du seuil pour la winsorisation avec application à l’estimation pour des domaines Archivé
Articles et rapports : 12-001-X201500114199
Description :
Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.
Date de diffusion : 2015-06-29

Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (50)

Analyses (50) (0 à 10 de 50 résultats)

1. Proposition pour le problème de l’estimation des probabilités d’appariement dans le couplage d’enregistrements Archivé
Articles et rapports : 11-522-X202200100001
Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
Date de diffusion : 2024-03-25
2. Méthode de désagrégation fondée sur un modèle pour l’estimation des compétences des adultes Archivé
Articles et rapports : 11-522-X202200100003
Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
Date de diffusion : 2024-03-25
3. Estimateurs bayésiens fondés sur le plan de sondage et assistés par un modèle de la taille, du total et de la moyenne d’une population difficile à joindre depuis un échantillon par dépistage de liens avec un échantillon initial en grappes Archivé
Articles et rapports : 11-522-X202200100015
Description : Nous présentons des estimateurs de type Horvitz-Thompson et de type multiplicité fondés sur le plan de sondage de la taille de la population, ainsi que du total et de la moyenne d’une variable de réponse associée aux éléments d’une population cachée à utiliser avec la variante d’échantillonnage par dépistage de liens proposée par Félix-Medina et Thompson (2004). Étant donné que le calcul des estimateurs nécessite de connaître les probabilités d’inclusion des personnes échantillonnées, mais qu’elles sont inconnues, nous proposons un modèle bayésien qui nous permet de les estimer et, par conséquent, de calculer les estimateurs des paramètres de population. Les résultats d’une petite étude numérique indiquent que les performances des estimateurs proposés sont acceptables.
Date de diffusion : 2024-03-25
4. Intégration des données existantes pour élaborer un indicateur d’ethnicité dans le cadre du PEDSL Archivé
Articles et rapports : 11-522-X202200100018
Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.
Date de diffusion : 2024-03-25
5. Inférence bayésienne pour un modèle des composantes de la variance fondée sur la vraisemblance composite par paire à partir des données d’enquête
Articles et rapports : 12-001-X202200100002
Description :
Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

Date de diffusion : 2022-06-21
6. Nouveau mode d’estimation d’un modèle logistique cumulatif avec des données d’enquêtes à plans complexes
Articles et rapports : 12-001-X201900200007
Description :
Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.
Date de diffusion : 2019-06-27
7. Régression quantile censurée pondérée
Articles et rapports : 12-001-X201900100004
Description :
Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.
Date de diffusion : 2019-05-07
8. Erreur de mesure dans l’estimation sur petits domaines : comparaison de modèles fonctionnels, structurels et naïfs
Articles et rapports : 12-001-X201900100005
Description :
L’estimation sur petits domaines à l’aide de modèles au niveau du domaine peut parfois bénéficier de covariables observées sujettes à des erreurs aléatoires, par exemple des covariables qui sont elles-mêmes des estimations tirées d’une autre enquête. Sachant les estimations des variances de ces erreurs de mesure (échantillonnage) pour chaque petit domaine, on peut tenir compte de l’incertitude de ces covariables au moyen de modèles d’erreur de mesure (par exemple Ybarra et Lohr, 2008). Deux types de modèles d’erreur de mesure au niveau du domaine ont été examinés dans les publications traitant de l’estimation sur petits domaines. Le modèle fonctionnel d’erreur de mesure suppose que les valeurs sous-jacentes réelles des covariables avec erreur de mesure sont des quantités fixes mais inconnues. Le modèle structurel d’erreur de mesure suppose que ces valeurs réelles suivent un modèle, ce qui donne un modèle multivarié pour les covariables observées avec erreur et la variable dépendante initiale. Nous comparons ces deux modèles à la solution consistant à simplement ignorer l’erreur de mesure lorsqu’elle est présente (modèle naïf), en étudiant les conséquences pour les erreurs quadratiques moyennes de prédiction de l’utilisation d’un modèle incorrect avec différentes hypothèses sous-jacentes sur le modèle vrai. Les comparaisons réalisées au moyen de formules analytiques pour les erreurs quadratiques moyennes et en supposant que les paramètres du modèle sont connus donnent des résultats surprenants. Nous illustrons également les résultats à l’aide d’un modèle ajusté aux données du programme Small Area Income and Poverty Estimates (SAIPE, Estimations sur petits domaines du revenu et de la pauvreté) du U.S. Census Bureau.
Date de diffusion : 2019-05-07
9. Comparaison des méthodes de biais conditionnel et de Kokic et Bell pour les sondages poissonniens et stratifiés Archivé
Articles et rapports : 12-001-X201800254961
Description :
Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Dans le cas d’un sondage aléatoire simple stratifié, il existe deux méthodes permettant de choisir les seuils intervenant dans la winsorisation. L’article se décompose de la façon suivante. Une première partie rappelle les notations et la notion d’estimateur par winsorisation. La deuxième partie consiste à détailler les deux méthodes et à les étendre dans le cas d’un sondage poissonnien, puis à les comparer sur des jeux de données simulées et sur l’Enquête sur le Coût de la Main d’Oeuvre et la structure des salaires réalisée par l’INSEE.
Date de diffusion : 2018-12-20
10. Une méthode de détermination du seuil pour la winsorisation avec application à l’estimation pour des domaines Archivé
Articles et rapports : 12-001-X201500114199
Description :
Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.
Date de diffusion : 2015-06-29

Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Signaler un problème ou une erreur sur cette page

Date de modification :: 2024-04-19

Comment utiliser les filtres et le champ de recherche

Vous pouvez faire une recherche en inscrivant des mots-clés ou en sélectionnant des filtres (p. ex. sous Sujet, Géographie, etc.) du côté gauche de la page.
On peut utiliser les filtres ensemble ou former diverses combinaisons. À chaque sélection de filtre, la page des résultats est mise à jour.
Pour commencer une nouvelle recherche, cliquez sur le bouton Effacer tout au-dessus du champ de recherche ou décochez tous les filtres.
Les mots-clés et les filtres précisés sont affichés au-dessus du champ de recherche. Vous pouvez désélectionner l’un ou l’autre des éléments ou tous les éléments, pour préciser ou effacer votre recherche.

Comment préciser ma recherche

Vous pouvez entrer des mots-clés dans le champ de recherche. Il n’est pas nécessaire d’utiliser « + » ou « , » ou « ET ».
Vous pouvez supprimer certains mots-clés ou tous les mots-clés de votre chaîne de recherche.
Les mots-clés entre guillemets limitent la recherche à l’expression précise.
- Par exemple, si vous cherchez « Enquête sur la population active », vous obtiendrez seulement des documents contenant cette suite de mots.
Utilisez « ou » entre les mots-clés pour obtenir des résultats qui contiennent au moins l’un des termes recherchés.
- Par exemple, si vous cherchez enquête ou population ou active, vous obtiendrez seulement les documents contenant l’un ou l’autre de ces mots, ou tous ces mots.

Comment fonctionne la recherche

Cette forme de recherche fournira les résultats contenant le(s) mot(s) inscrit(s) dans le titre, la description, le sujet, la géographie, le numéro de produit ou toute autre information au sujet du produit.
- Par exemple, lorsque vous cherchez le mot « maladies », tous les résultats obtenus contiendront ce mot dans le titre, la description, ou le sujet.
La recherche ne se fait pas dans le texte des articles ou des publications. Pour faire une recherche plein texte dans les articles, utilisez la fonction de recherche du site.