Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Enquête ou programme statistique

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (21)

Tout (21) (0 à 10 de 21 résultats)

  • Articles et rapports : 75F0002M2000006
    Description :

    Dans ce document, on traite des méthodes et outils étudiés et utilisés pour produire des estimations transversales fondées sur la combinaison de deux panels longitudinaux dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 2000-10-05

  • Articles et rapports : 75F0002M2000004
    Description :

    Dans ce document, on décrit la méthodologie adoptée dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR) pour pondérer les échantillons longitudinal et transversal. On y présente également les difficultés éprouvées lors de l'EDTR et les solutions proposées.

    Date de diffusion : 2000-08-31

  • Articles et rapports : 12-001-X20000015176
    Description :

    À partir d'une méthode des composantes de variance et d'une structure estimative des erreurs de covariance, on a établi les variables explicatives des facteurs de correction pour le recensement décennal de 1990. On soupçonne que la variabilité de la matrice des covariances estimatives explique certaines anomalies dans l'estimation de régression et les facteurs de correction estimés. Nous avons étudié des méthodes de prédiction alternatives et proposé une façon de faire qui est moins sensible à la variabilité de la matrice des covariances estimatives. La méthode proposée est appliquée à un ensemble de données composé de 336 facteurs de correction à partir de l'enquête postsensitaire de 1990.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015177
    Description :

    Le Recensement canadien de 1996 est corrigé en fonction de l'erreur de couverture estimée surtout par la contre-vérification des dossiers (CVD). Les auteurs montrent que de nombreux renseignements supplémentaires tirés de la contre-vérification des dossiers de 1996 ont une valeur immédiate pour l'estimation de la population. En plus de rendre possible une estimation de l'erreur de couverture, les résultats de la contre-vérification des dossiers permettent d'obtenir une autre estimation de la croissance démographique, avec décomposition éventuelle par composante. Cette fonction supplémentaire de la contre-vérification des dossiers est prometteuse pour l'évaluation de l'erreur estimative de couverture au recensement et pour l'élucidation des problèmes possibles d'estimation de composantes choisies du programme des estimations de population.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015179
    Description :

    Les auteurs proposent l'estimation de l'erreur quadratique moyenne conditionnelle des estimateurs régionaux comme moyen d'en évaluer la précision. Cette erreur quadratique moyenne est conditionnelle en ce sens qu'elle mesure la variabilité relativement au plan d'échantillonnage pour une réalisation particulière du modèle de lissage qui sous-tend les estimateurs régionaux. Il est facile de construire un estimateur sans biais pour l'erreur quadratique moyenne conditionnelle à l'aide du lemme de Stein pour l'espérance de variables aléatoires normales.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015181
    Description :

    Il arrive souvent que l'on obtienne des échantillons de populations humaines cachées et difficiles d'accès à l'aide de procédures permettant de suivre des liens sociaux d'un répondant à un autre. Une inférence de l'échantillon à la population d'intérêt elle-même risque d'être influencée par le type de plan à dépistage de liens et le type de données qui en résulte. La population avec sa composition sociale en réseau peut être modélisée sous forme de graphe stochastique comportant une répartition mixte de valeurs de noeud représentant des caractéristiques des individus et des indicateurs d'arc correspondant aux relations sociales entre les individus.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015182
    Description :

    Pour mieux comprendre l'impact de l'imposition d'une région de restriction sur les poids de calage, on examine le comportement asymptotique de ceux-ci. On donne des conditions nécessaires et suffisantes pour l'existence d'une solution à l'équation de calage avec des poids à l'intérieur d'intervalles donnés.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015183
    Description :

    Pour les enquêtes dont la collecte des données comprend plus d'une étape, on recommande, comme méthode de correction des poids selon la non-réponse (après la première étape de la collecte des données), d'utiliser des variables auxiliaires (tirées des étapes antérieures de la collecte des données) qui sont reconnues comme des prédicteurs de la non-réponse.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015184
    Description :

    Les staticiens d'enquête ont fréquemment recours à des modèles de régression linéaire de superpopulation. Le théorème de Gauss-Markov, qui suppose des variables explicatives fixes ou un conditionnement des valeurs observées de celles-ci, affirme que les estimateurs standard des coefficients de régression sont les meilleurs estimateurs linéaires sans biais.

    Date de diffusion : 2000-08-30

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668
    Description :

    À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.

    Date de diffusion : 2000-03-02
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (15)

Analyses (15) (0 à 10 de 15 résultats)

  • Articles et rapports : 75F0002M2000006
    Description :

    Dans ce document, on traite des méthodes et outils étudiés et utilisés pour produire des estimations transversales fondées sur la combinaison de deux panels longitudinaux dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 2000-10-05

  • Articles et rapports : 75F0002M2000004
    Description :

    Dans ce document, on décrit la méthodologie adoptée dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR) pour pondérer les échantillons longitudinal et transversal. On y présente également les difficultés éprouvées lors de l'EDTR et les solutions proposées.

    Date de diffusion : 2000-08-31

  • Articles et rapports : 12-001-X20000015176
    Description :

    À partir d'une méthode des composantes de variance et d'une structure estimative des erreurs de covariance, on a établi les variables explicatives des facteurs de correction pour le recensement décennal de 1990. On soupçonne que la variabilité de la matrice des covariances estimatives explique certaines anomalies dans l'estimation de régression et les facteurs de correction estimés. Nous avons étudié des méthodes de prédiction alternatives et proposé une façon de faire qui est moins sensible à la variabilité de la matrice des covariances estimatives. La méthode proposée est appliquée à un ensemble de données composé de 336 facteurs de correction à partir de l'enquête postsensitaire de 1990.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015177
    Description :

    Le Recensement canadien de 1996 est corrigé en fonction de l'erreur de couverture estimée surtout par la contre-vérification des dossiers (CVD). Les auteurs montrent que de nombreux renseignements supplémentaires tirés de la contre-vérification des dossiers de 1996 ont une valeur immédiate pour l'estimation de la population. En plus de rendre possible une estimation de l'erreur de couverture, les résultats de la contre-vérification des dossiers permettent d'obtenir une autre estimation de la croissance démographique, avec décomposition éventuelle par composante. Cette fonction supplémentaire de la contre-vérification des dossiers est prometteuse pour l'évaluation de l'erreur estimative de couverture au recensement et pour l'élucidation des problèmes possibles d'estimation de composantes choisies du programme des estimations de population.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015179
    Description :

    Les auteurs proposent l'estimation de l'erreur quadratique moyenne conditionnelle des estimateurs régionaux comme moyen d'en évaluer la précision. Cette erreur quadratique moyenne est conditionnelle en ce sens qu'elle mesure la variabilité relativement au plan d'échantillonnage pour une réalisation particulière du modèle de lissage qui sous-tend les estimateurs régionaux. Il est facile de construire un estimateur sans biais pour l'erreur quadratique moyenne conditionnelle à l'aide du lemme de Stein pour l'espérance de variables aléatoires normales.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015181
    Description :

    Il arrive souvent que l'on obtienne des échantillons de populations humaines cachées et difficiles d'accès à l'aide de procédures permettant de suivre des liens sociaux d'un répondant à un autre. Une inférence de l'échantillon à la population d'intérêt elle-même risque d'être influencée par le type de plan à dépistage de liens et le type de données qui en résulte. La population avec sa composition sociale en réseau peut être modélisée sous forme de graphe stochastique comportant une répartition mixte de valeurs de noeud représentant des caractéristiques des individus et des indicateurs d'arc correspondant aux relations sociales entre les individus.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015182
    Description :

    Pour mieux comprendre l'impact de l'imposition d'une région de restriction sur les poids de calage, on examine le comportement asymptotique de ceux-ci. On donne des conditions nécessaires et suffisantes pour l'existence d'une solution à l'équation de calage avec des poids à l'intérieur d'intervalles donnés.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015183
    Description :

    Pour les enquêtes dont la collecte des données comprend plus d'une étape, on recommande, comme méthode de correction des poids selon la non-réponse (après la première étape de la collecte des données), d'utiliser des variables auxiliaires (tirées des étapes antérieures de la collecte des données) qui sont reconnues comme des prédicteurs de la non-réponse.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X20000015184
    Description :

    Les staticiens d'enquête ont fréquemment recours à des modèles de régression linéaire de superpopulation. Le théorème de Gauss-Markov, qui suppose des variables explicatives fixes ou un conditionnement des valeurs observées de celles-ci, affirme que les estimateurs standard des coefficients de régression sont les meilleurs estimateurs linéaires sans biais.

    Date de diffusion : 2000-08-30

  • Articles et rapports : 12-001-X19990024879
    Description :

    Godambe et Thompson abordent la question des intervalles de confiance en échantillonnage. Ils examinent d'abord l'utilisation des fonctions d'estimation afin d'obtenir des pivots robustes pour le modèle et les intervalles de confiance associés. Puis, ils traitent de l'adaptation de cette approche à l'échantillonnage. Tout est mis au point pour certains types de modèles particuliers. De plus, les auteurs comparent de manière empirique cette approche à des méthodes plus conventionnelles.

    Date de diffusion : 2000-03-01
Références (6)

Références (6) ((6 résultats))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668
    Description :

    À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015672
    Description :

    La fusion des données qui est examinée ici consiste à créer un ensemble de données provenant de sources différentes sur des variables que l'on n'observe pas conjointement. Supposons par exemple que l'on dispose d'observations pour (X,Z) sur un ensemble de personnes et pour (Y,Z) sur un autre ensemble de personnes. Chacune des variables X, Y et Z peut être vectorielle. L'objectif principal consiste à obtenir des précisions sur la distribution conjointe de (X,Y) en se servant de Z comme ce que l'on conviendra d'appeler variable d'appariement. Toutefois, on s'efforce d'abord d'extraire des ensembles de données distincts autant de renseignements que possible sur la distribution conjointe de (X,Y,Z). On ne peut procéder à ce genre de fusion que moyennant la précision de certaines propriétés distributionnelles pour les données fusionnées, à savoir l'hypothèse d'indépendance conditionnelle étant donné les variables d'appariement. Classiquement, l'examen des variables fusionnées consiste à déterminer dans quelle mesure cette hypothèse sous-jacente est appropriée. Ici, nous examinons le problème sous un angle différent. La question que nous nous posons est celle de savoir comment il est possible d'estimer des distributions dans des situations où l'on ne dispose que d'observations provenant de certaines distributions marginales. Nous pouvons la résoudre en appliquant le critère d'entropie maximale. Nous montrons notamment qu'il est possible d'interpréter les données créés par fusion de données de sources différentes comme un cas spécial de cette situation. Par conséquent, nous dérivons l'hypothèse nécessaire d'indépendance conditionnelle en tant que conséquence du type de données disponibles.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015674
    Description :

    L'influence de l'environnement sur la santé est un sujet de préoccupation croissante, plus particulièrement les effets de l'émission de polluants industriels dans l'atmosphère, le sol et l'eau. L'évaluation des risques que comporte une source de pollution donnée pour la santé publique est souvent effectuée à l'aide de données démographiques, environementales et relatives à la santé qui sont recueillies couramment par des organismes gouvernementaux. Ces ensembles de données présentent des différences d'échantillonnage notables sur les plans géographique et temporel; ces différences se répercutent sur les analyses épidémiologiques qui utilisent conjointement de tels ensembles. Au Royaumi-Uni, les problèmes de santé sont enregistrés individuellement pour chaque personne. Sont également indiqués le code de cause de maladie, la date du diagnostic ou du décès, et en utilisant le code postal de l'unité comme référence géographique. Par contre, les données démographiques relatives aux petites régions sont enregistrées uniquement lors du recensement décennal et sont diffusés comme données de niveau régional dans des zones qui ne correspondent pas à celles des codes postaux. Des données relatives à l'exposition ambiante sont pourtant disponibles à un autre niveau, selon le type d'exposition et la source des mesures.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015680
    Description :

    La combinaison de bases de données par des méthodes de couplage d'enregistrements en vue d'augmenter la quantité d'information disponible est un phénomène de plus en plus fréquent. Si l'on ne peut se fonder sur aucun identificateur unique pour procéder à l'appariement des enregistrements, on recourt au couplage probabiliste. On apparie un enregistrement du premier fichier à un enregistrement du deuxième avec une certaine probabilité et on décide ensuite si cette paire d'enregistrements représente ou non un appariement vrai. Habituellement, ce processus nécessite une certaine intervention manuelle qui demande du temps et des ressources humaines. En outre, il aboutit souvent à un couplage complexe. Autrement dit, au lieu d'être systématiquement biunivoque (un à un), le couplage entre les deux bases de données peut être multi-univoque (plusieurs à un), co-univoque (un à plusieurs) ou multivoque (plusieurs à plusieurs).

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015684
    Description :

    Il arrive souvent qu'on recueille, de façon pratiquement simultaée, la même information sur plusieurs enquêtes différentes. En France, cela est institutionnalisé dans les enquêtes auprès des ménages qui comportent un tronc commun de variables portant sur la situation démographique, l'emploi, le logement et les revenus. Ces variables sont des cofacteurs importants des variables d'intérêt de chacune des enquêtes et leur utilisation judicieuse peut permettre un renforcement des estimations dans chacune d'elle. Les techniques de calage sur information incertaine peuvent s'appliquer de façon naturelle dans ce contexte. Cela revient à rechercher le meilleur estimateur sans biais des variables communes et à caler chacune des enquêtes sur cet estimateur. Il se trouve que l'estimateur ainsi obtenu dans chaque enquête est toujours un estimateur linéaire dont les pondérations sont faciles à expliciter, que la variance s'obtient sans problème nouveau de même que l'estimation de variance. Si on veut compléter la panoplie des estimateurs par régression, on peut aussi voir cette technique comme un estimateur par ridge-regression, ou encore comme une estimation par régression bayésienne.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015690
    Description :

    La construction de l'échantillon virtuel est réalisé en deux étapes. La première consiste, en partant d'un panel maître, à effectuer une Analyse des Correspondances Multiples (ACM) sur des variables fondamentales pour l'étude. Puis, on génére aléatoirement des individus muets à partir de la distribution de chaque facteur significatif de l'analyse. Enfin, pour chaque individu, on génére une valeur pour chaque variable fondamentale la plus liée à un des facteurs précédents. Cette méthode assure un tirage indépendant d'ensembles de variables. La seconde étape consiste à greffer un certain nombre d'autres bases de données, dont on donnera les propriétés requises. On génére une variable à rajouter à l'aide de sa distribution estimée, avec un modèle linéaire généralisé en fonction des variables communes et celles qui ont déjà été rajoutées. Le même procédé est alors utilisé pour greffer les autres échantillons. Nous avons appliqué cette méthode pour générer un échantillon virtuel à partir de deux enquêtes. L'échantillon virtuel généré a été validé à l'aide de tests de comparaison d'échantillons. Les résultats obtenus sont positifs et montrent la faisabilité de cette méthode.

    Date de diffusion : 2000-03-02
Date de modification :