Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (8)

Tout (8) ((8 résultats))

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20010016304
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Cet article porte sur l'évaluation de deux ensembles de procédures de vérification selon le ratio et l'imputation, lesquels sont fondés sur l'utilisation du sous-système de vérification et d'imputation Plain Vanilla du US Census Bureau, à partir des données de l'Economic Census de 1997. Nous comparons, après vérification et imputation, la qualité des macro et des microdonnées produites par les deux ensembles de procédures, et décrivons la manière dont nos méthodes quantitatives nous ont permis de recommander certaines modifications de procédures courantes.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 12-001-X199300114475
    Description :

    Lorsqu’on crée des bases de données de microsimulation, souvent utilisées dans la planification et l’analyse des politiques, on combine plusieurs fichiers de données par des techniques d’appariement statistique afin d’enrichir le fichier receveur. Or, pour effectuer cette opération, il faut poser l’hypothèse de l’indépendance conditionnelle (HIC), ce qui peut fausser sérieusement les relations conjointes entre les variables. On peut éviter de poser cette hypothèse en utilisant des informations supplémentaires appropriées. Dans cet article, nous examinons des méthodes d’appariement statistique qui correspondent à trois méthodes d’imputation - par régression, hot-deck et log-linéaire - appliquées suivant deux scénarios : avec et sans information supplémentaire. La méthode d’imputation log-linéaire consiste essentiellement à introduire des contraintes nominales dans la méthode par régression ou la méthode hot-deck. À partir d’une vaste étude de simulation faite avec des données fictives, nous exécutons des analyses de sensibilité lorsque l’on s’éloigne de l’HIC et nous étudions les gains qui peuvent découler de l’utilisation d’informations supplémentaires. À l’aide de données fictives, nous créons différents scénarios relatifs à la distribution et aux relations des variables pertinentes, par exemple distribution symétrique vs. distribution asymétrique et données supplémentaires substitutives vs. données supplémentaires non substitutives. Nous faisons aussi quelques recommandations sur l’utilisation des méthodes d’appariement statistique. Notre étude confirme particulièrement que l’HIC peut représenter une contrainte sérieuse, que l’on peut éliminer en utilisant des informations supplémentaires appropriées. L’étude montre aussi que les méthodes hot-deck sont généralement préférables aux méthodes de régression. De plus, lorsqu’on dispose d’informations supplémentaires, les contraintes nominales log-linéaires peuvent accroître l’efficacité des méthodes hot-deck. L’idée de cette étude est née des préoccupations que l’on avait sur l’utilisation de l’HIC dans la construction de la Base de données de simulation des politiques sociales à Statistique Canada.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X198600214451
    Description :

    Le Recensement de la Construction (RC) au Canada se sert d’un plan de sondage complexe pour échantillonner les petites entreprises (les entreprises dont le revenu brut est inférieur à $750,000). Des échantillons stratifiés sont sélectionnés à partir de base de sondage qui se chevauchent. À partir d’un des échantillons, deux sous-échantillons sont sélectionnés de façon indépendante. De l’information plus détaillée est recueillie, pour les entreprises choisies dans les sous-échantillons. Deux stratégies pourraient être envisagées, pour estimer des totaux pour les variables recueillies dans les sous-échantillons. La première approche serait de déterminer des poids, basés sur les fractions de sondage. Cette approche nécessite l’utilisation de plusieurs poids différents. Une seconde approche serait d’imputer des valeurs aux entreprises sélectionnées dans l’échantillon mais pas dans les sous-échantillons. Cette approche crée un fichier « rectangulaire » complet au niveau de l’échantillon. Un seul poids peut ensuite être utilisé pour obtenir des estimés pour la population. Cette approche « d’imputation massive » est présentement utilisée par le Recensement de la Construction. L’étude vise à comparer les estimés qui pourraient être obtenus, en utilisant diverses stratégies d’estimation aux estimés obtenus lorsque l’approche d’imputation massive est employée.

    Date de diffusion : 1986-12-15

  • Articles et rapports : 12-001-X198000154837
    Description : Depuis 1951, on a cueilli des données sur les ventes des établissements qui sont classés comme restaurants, traiteurs et tavernes. La base d’échantillonnage n’a pas été mise à jour, en ce qui concerne les créations, depuis 1968; par conséquent elle ne réprésente pas bien la population actuelle. Cet article indique quelques concepts méthodologiques de la révision de cette base. L’unité d’échantillonnage, le plan de sondage, la taille et l’allocation de l’échantillon, les méthodes de la cueillette des données, le contrôle et l’imputation, les accumulations et les calculs, l’entretien de la base et de l’échantillon sont tous décrits. La nouvelle enquête réduira les opérations manuelles dans la mesure du possible. Les procédures de cueillette, de contrôle, d’imputation, de totalisation et de mise à jour seront entièrement informatisées. La cueillette des données sera décentralisée et sera faite par téléphone.
    Date de diffusion : 1980-06-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (8)

Analyses (8) ((8 résultats))

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20010016304
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Cet article porte sur l'évaluation de deux ensembles de procédures de vérification selon le ratio et l'imputation, lesquels sont fondés sur l'utilisation du sous-système de vérification et d'imputation Plain Vanilla du US Census Bureau, à partir des données de l'Economic Census de 1997. Nous comparons, après vérification et imputation, la qualité des macro et des microdonnées produites par les deux ensembles de procédures, et décrivons la manière dont nos méthodes quantitatives nous ont permis de recommander certaines modifications de procédures courantes.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 12-001-X199300114475
    Description :

    Lorsqu’on crée des bases de données de microsimulation, souvent utilisées dans la planification et l’analyse des politiques, on combine plusieurs fichiers de données par des techniques d’appariement statistique afin d’enrichir le fichier receveur. Or, pour effectuer cette opération, il faut poser l’hypothèse de l’indépendance conditionnelle (HIC), ce qui peut fausser sérieusement les relations conjointes entre les variables. On peut éviter de poser cette hypothèse en utilisant des informations supplémentaires appropriées. Dans cet article, nous examinons des méthodes d’appariement statistique qui correspondent à trois méthodes d’imputation - par régression, hot-deck et log-linéaire - appliquées suivant deux scénarios : avec et sans information supplémentaire. La méthode d’imputation log-linéaire consiste essentiellement à introduire des contraintes nominales dans la méthode par régression ou la méthode hot-deck. À partir d’une vaste étude de simulation faite avec des données fictives, nous exécutons des analyses de sensibilité lorsque l’on s’éloigne de l’HIC et nous étudions les gains qui peuvent découler de l’utilisation d’informations supplémentaires. À l’aide de données fictives, nous créons différents scénarios relatifs à la distribution et aux relations des variables pertinentes, par exemple distribution symétrique vs. distribution asymétrique et données supplémentaires substitutives vs. données supplémentaires non substitutives. Nous faisons aussi quelques recommandations sur l’utilisation des méthodes d’appariement statistique. Notre étude confirme particulièrement que l’HIC peut représenter une contrainte sérieuse, que l’on peut éliminer en utilisant des informations supplémentaires appropriées. L’étude montre aussi que les méthodes hot-deck sont généralement préférables aux méthodes de régression. De plus, lorsqu’on dispose d’informations supplémentaires, les contraintes nominales log-linéaires peuvent accroître l’efficacité des méthodes hot-deck. L’idée de cette étude est née des préoccupations que l’on avait sur l’utilisation de l’HIC dans la construction de la Base de données de simulation des politiques sociales à Statistique Canada.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X198600214451
    Description :

    Le Recensement de la Construction (RC) au Canada se sert d’un plan de sondage complexe pour échantillonner les petites entreprises (les entreprises dont le revenu brut est inférieur à $750,000). Des échantillons stratifiés sont sélectionnés à partir de base de sondage qui se chevauchent. À partir d’un des échantillons, deux sous-échantillons sont sélectionnés de façon indépendante. De l’information plus détaillée est recueillie, pour les entreprises choisies dans les sous-échantillons. Deux stratégies pourraient être envisagées, pour estimer des totaux pour les variables recueillies dans les sous-échantillons. La première approche serait de déterminer des poids, basés sur les fractions de sondage. Cette approche nécessite l’utilisation de plusieurs poids différents. Une seconde approche serait d’imputer des valeurs aux entreprises sélectionnées dans l’échantillon mais pas dans les sous-échantillons. Cette approche crée un fichier « rectangulaire » complet au niveau de l’échantillon. Un seul poids peut ensuite être utilisé pour obtenir des estimés pour la population. Cette approche « d’imputation massive » est présentement utilisée par le Recensement de la Construction. L’étude vise à comparer les estimés qui pourraient être obtenus, en utilisant diverses stratégies d’estimation aux estimés obtenus lorsque l’approche d’imputation massive est employée.

    Date de diffusion : 1986-12-15

  • Articles et rapports : 12-001-X198000154837
    Description : Depuis 1951, on a cueilli des données sur les ventes des établissements qui sont classés comme restaurants, traiteurs et tavernes. La base d’échantillonnage n’a pas été mise à jour, en ce qui concerne les créations, depuis 1968; par conséquent elle ne réprésente pas bien la population actuelle. Cet article indique quelques concepts méthodologiques de la révision de cette base. L’unité d’échantillonnage, le plan de sondage, la taille et l’allocation de l’échantillon, les méthodes de la cueillette des données, le contrôle et l’imputation, les accumulations et les calculs, l’entretien de la base et de l’échantillon sont tous décrits. La nouvelle enquête réduira les opérations manuelles dans la mesure du possible. Les procédures de cueillette, de contrôle, d’imputation, de totalisation et de mise à jour seront entièrement informatisées. La cueillette des données sera décentralisée et sera faite par téléphone.
    Date de diffusion : 1980-06-15
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :