Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 1 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (12)

Tout (12) (12 of 12 results)

  • Articles et rapports : 12-001-X201700254894
    Description :

    Cette note de Danny Pfeffermann présente une discussion de l’article « Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures » où J.N.K. Rao et Wayne A. Fuller partagent leur vision quant à l’évolution de la théorie et de la méthodologie des enquêtes par sondage au cours des 100 dernières années.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Produits techniques : 11-536-X200900110812
    Description :

    L'estimation de la variance en présence de données imputées a fait couler beaucoup d'encre. Il est bien connu que le fait de traiter les valeurs imputées comme s'il s'agissait de valeurs observées peut entraîner une sous-estimation grave de la variance de l'estimateur imputé. Plusieurs approches et techniques ont été mises au point ces dernières années. Plus précisément, Rao et Shao (1992) ont proposé un estimateur jackknife modifié qui fonctionne bien lorsque la fraction de sondage est petite. Toutefois, dans bien des cas, cette condition n'est pas satisfaite. Par conséquent, l'estimateur jackknife modifié de Rao-Shao peut donner lieu à des estimateurs invalides de la variance. Pour surmonter ce problème, Lee, Rancourt et Särndal (1995) ont proposé d'apporter un rectificatif simple à l'estimateur jackknife modifié de Rao-Shao. Dans notre présentation, nous expliquons les propriétés de l'estimateur de la variance obtenu dans le cadre d'un échantillonnage aléatoire simple stratifié sans remplacement. Par ailleurs, en utilisant l'approche inversée élaborée par Shao et Steel (1999), nous examinons un autre estimateur de la variance qui fonctionne bien lorsque les fractions de sondage ne sont pas négligeables. Nous aborderons brièvement le cas des plans de sondage probabilistes inégaux, tels que la probabilité proportionnelle à la taille.

    Date de diffusion : 2009-08-11

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (11)

Analyses (11) (11 of 11 results)

  • Articles et rapports : 12-001-X201700254894
    Description :

    Cette note de Danny Pfeffermann présente une discussion de l’article « Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures » où J.N.K. Rao et Wayne A. Fuller partagent leur vision quant à l’évolution de la théorie et de la méthodologie des enquêtes par sondage au cours des 100 dernières années.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500114150
    Description :

    Une approche basée sur un modèle au niveau du domaine pour combiner des données provenant de plusieurs sources est examinée dans le contexte de l’estimation sur petits domaines. Pour chaque petit domaine, plusieurs estimations sont calculées et reliées au moyen d’un système de modèles d’erreur structurels. Le meilleur prédicteur linéaire sans biais du paramètre de petit domaine peut être calculé par la méthode des moindres carrés généralisés. Les paramètres des modèles d’erreur structurels sont estimés en s’appuyant sur la théorie des modèles d’erreur de mesure. L’estimation des erreurs quadratiques moyennes est également discutée. La méthode proposée est appliquée au problème réel des enquêtes sur la population active en Corée.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114160
    Description :

    L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

Références (1)

Références (1) (1 result)

  • Produits techniques : 11-536-X200900110812
    Description :

    L'estimation de la variance en présence de données imputées a fait couler beaucoup d'encre. Il est bien connu que le fait de traiter les valeurs imputées comme s'il s'agissait de valeurs observées peut entraîner une sous-estimation grave de la variance de l'estimateur imputé. Plusieurs approches et techniques ont été mises au point ces dernières années. Plus précisément, Rao et Shao (1992) ont proposé un estimateur jackknife modifié qui fonctionne bien lorsque la fraction de sondage est petite. Toutefois, dans bien des cas, cette condition n'est pas satisfaite. Par conséquent, l'estimateur jackknife modifié de Rao-Shao peut donner lieu à des estimateurs invalides de la variance. Pour surmonter ce problème, Lee, Rancourt et Särndal (1995) ont proposé d'apporter un rectificatif simple à l'estimateur jackknife modifié de Rao-Shao. Dans notre présentation, nous expliquons les propriétés de l'estimateur de la variance obtenu dans le cadre d'un échantillonnage aléatoire simple stratifié sans remplacement. Par ailleurs, en utilisant l'approche inversée élaborée par Shao et Steel (1999), nous examinons un autre estimateur de la variance qui fonctionne bien lorsque les fractions de sondage ne sont pas négligeables. Nous aborderons brièvement le cas des plans de sondage probabilistes inégaux, tels que la probabilité proportionnelle à la taille.

    Date de diffusion : 2009-08-11

Date de modification :