Pondération et estimation
Filtrer les résultats par
Aide à la rechercheMot(s)-clé(s)
Type
Enquête ou programme statistique
Résultats
Tout (21)
Tout (21) (0 à 10 de 21 résultats)
- Articles et rapports : 75F0002M2000006Description :
Dans ce document, on traite des méthodes et outils étudiés et utilisés pour produire des estimations transversales fondées sur la combinaison de deux panels longitudinaux dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR).
Date de diffusion : 2000-10-05 - 2. Pondération longitudinale et transversale de l'Enquête sur la dynamique du travail et du revenu ArchivéArticles et rapports : 75F0002M2000004Description :
Dans ce document, on décrit la méthodologie adoptée dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR) pour pondérer les échantillons longitudinal et transversal. On y présente également les difficultés éprouvées lors de l'EDTR et les solutions proposées.
Date de diffusion : 2000-08-31 - Articles et rapports : 12-001-X20000015176Description :
À partir d'une méthode des composantes de variance et d'une structure estimative des erreurs de covariance, on a établi les variables explicatives des facteurs de correction pour le recensement décennal de 1990. On soupçonne que la variabilité de la matrice des covariances estimatives explique certaines anomalies dans l'estimation de régression et les facteurs de correction estimés. Nous avons étudié des méthodes de prédiction alternatives et proposé une façon de faire qui est moins sensible à la variabilité de la matrice des covariances estimatives. La méthode proposée est appliquée à un ensemble de données composé de 336 facteurs de correction à partir de l'enquête postsensitaire de 1990.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015177Description :
Le Recensement canadien de 1996 est corrigé en fonction de l'erreur de couverture estimée surtout par la contre-vérification des dossiers (CVD). Les auteurs montrent que de nombreux renseignements supplémentaires tirés de la contre-vérification des dossiers de 1996 ont une valeur immédiate pour l'estimation de la population. En plus de rendre possible une estimation de l'erreur de couverture, les résultats de la contre-vérification des dossiers permettent d'obtenir une autre estimation de la croissance démographique, avec décomposition éventuelle par composante. Cette fonction supplémentaire de la contre-vérification des dossiers est prometteuse pour l'évaluation de l'erreur estimative de couverture au recensement et pour l'élucidation des problèmes possibles d'estimation de composantes choisies du programme des estimations de population.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015179Description :
Les auteurs proposent l'estimation de l'erreur quadratique moyenne conditionnelle des estimateurs régionaux comme moyen d'en évaluer la précision. Cette erreur quadratique moyenne est conditionnelle en ce sens qu'elle mesure la variabilité relativement au plan d'échantillonnage pour une réalisation particulière du modèle de lissage qui sous-tend les estimateurs régionaux. Il est facile de construire un estimateur sans biais pour l'erreur quadratique moyenne conditionnelle à l'aide du lemme de Stein pour l'espérance de variables aléatoires normales.
Date de diffusion : 2000-08-30 - 6. Estimation fondée sur un modèle et comportant des plans d'échantillonnage à dépistage de liens ArchivéArticles et rapports : 12-001-X20000015181Description :
Il arrive souvent que l'on obtienne des échantillons de populations humaines cachées et difficiles d'accès à l'aide de procédures permettant de suivre des liens sociaux d'un répondant à un autre. Une inférence de l'échantillon à la population d'intérêt elle-même risque d'être influencée par le type de plan à dépistage de liens et le type de données qui en résulte. La population avec sa composition sociale en réseau peut être modélisée sous forme de graphe stochastique comportant une répartition mixte de valeurs de noeud représentant des caractéristiques des individus et des indicateurs d'arc correspondant aux relations sociales entre les individus.
Date de diffusion : 2000-08-30 - 7. Calage et poids restreints ArchivéArticles et rapports : 12-001-X20000015182Description :
Pour mieux comprendre l'impact de l'imposition d'une région de restriction sur les poids de calage, on examine le comportement asymptotique de ceux-ci. On donne des conditions nécessaires et suffisantes pour l'existence d'une solution à l'équation de calage avec des poids à l'intérieur d'intervalles donnés.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015183Description :
Pour les enquêtes dont la collecte des données comprend plus d'une étape, on recommande, comme méthode de correction des poids selon la non-réponse (après la première étape de la collecte des données), d'utiliser des variables auxiliaires (tirées des étapes antérieures de la collecte des données) qui sont reconnues comme des prédicteurs de la non-réponse.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015184Description :
Les staticiens d'enquête ont fréquemment recours à des modèles de régression linéaire de superpopulation. Le théorème de Gauss-Markov, qui suppose des variables explicatives fixes ou un conditionnement des valeurs observées de celles-ci, affirme que les estimateurs standard des coefficients de régression sont les meilleurs estimateurs linéaires sans biais.
Date de diffusion : 2000-08-30 - Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668Description :
À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.
Date de diffusion : 2000-03-02
Données (0)
Données (0) (0 résultat)
Aucun contenu disponible actuellement
Analyses (15)
Analyses (15) (0 à 10 de 15 résultats)
- Articles et rapports : 75F0002M2000006Description :
Dans ce document, on traite des méthodes et outils étudiés et utilisés pour produire des estimations transversales fondées sur la combinaison de deux panels longitudinaux dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR).
Date de diffusion : 2000-10-05 - 2. Pondération longitudinale et transversale de l'Enquête sur la dynamique du travail et du revenu ArchivéArticles et rapports : 75F0002M2000004Description :
Dans ce document, on décrit la méthodologie adoptée dans le cadre de l'Enquête sur la dynamique du travail et du revenu (EDTR) pour pondérer les échantillons longitudinal et transversal. On y présente également les difficultés éprouvées lors de l'EDTR et les solutions proposées.
Date de diffusion : 2000-08-31 - Articles et rapports : 12-001-X20000015176Description :
À partir d'une méthode des composantes de variance et d'une structure estimative des erreurs de covariance, on a établi les variables explicatives des facteurs de correction pour le recensement décennal de 1990. On soupçonne que la variabilité de la matrice des covariances estimatives explique certaines anomalies dans l'estimation de régression et les facteurs de correction estimés. Nous avons étudié des méthodes de prédiction alternatives et proposé une façon de faire qui est moins sensible à la variabilité de la matrice des covariances estimatives. La méthode proposée est appliquée à un ensemble de données composé de 336 facteurs de correction à partir de l'enquête postsensitaire de 1990.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015177Description :
Le Recensement canadien de 1996 est corrigé en fonction de l'erreur de couverture estimée surtout par la contre-vérification des dossiers (CVD). Les auteurs montrent que de nombreux renseignements supplémentaires tirés de la contre-vérification des dossiers de 1996 ont une valeur immédiate pour l'estimation de la population. En plus de rendre possible une estimation de l'erreur de couverture, les résultats de la contre-vérification des dossiers permettent d'obtenir une autre estimation de la croissance démographique, avec décomposition éventuelle par composante. Cette fonction supplémentaire de la contre-vérification des dossiers est prometteuse pour l'évaluation de l'erreur estimative de couverture au recensement et pour l'élucidation des problèmes possibles d'estimation de composantes choisies du programme des estimations de population.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015179Description :
Les auteurs proposent l'estimation de l'erreur quadratique moyenne conditionnelle des estimateurs régionaux comme moyen d'en évaluer la précision. Cette erreur quadratique moyenne est conditionnelle en ce sens qu'elle mesure la variabilité relativement au plan d'échantillonnage pour une réalisation particulière du modèle de lissage qui sous-tend les estimateurs régionaux. Il est facile de construire un estimateur sans biais pour l'erreur quadratique moyenne conditionnelle à l'aide du lemme de Stein pour l'espérance de variables aléatoires normales.
Date de diffusion : 2000-08-30 - 6. Estimation fondée sur un modèle et comportant des plans d'échantillonnage à dépistage de liens ArchivéArticles et rapports : 12-001-X20000015181Description :
Il arrive souvent que l'on obtienne des échantillons de populations humaines cachées et difficiles d'accès à l'aide de procédures permettant de suivre des liens sociaux d'un répondant à un autre. Une inférence de l'échantillon à la population d'intérêt elle-même risque d'être influencée par le type de plan à dépistage de liens et le type de données qui en résulte. La population avec sa composition sociale en réseau peut être modélisée sous forme de graphe stochastique comportant une répartition mixte de valeurs de noeud représentant des caractéristiques des individus et des indicateurs d'arc correspondant aux relations sociales entre les individus.
Date de diffusion : 2000-08-30 - 7. Calage et poids restreints ArchivéArticles et rapports : 12-001-X20000015182Description :
Pour mieux comprendre l'impact de l'imposition d'une région de restriction sur les poids de calage, on examine le comportement asymptotique de ceux-ci. On donne des conditions nécessaires et suffisantes pour l'existence d'une solution à l'équation de calage avec des poids à l'intérieur d'intervalles donnés.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015183Description :
Pour les enquêtes dont la collecte des données comprend plus d'une étape, on recommande, comme méthode de correction des poids selon la non-réponse (après la première étape de la collecte des données), d'utiliser des variables auxiliaires (tirées des étapes antérieures de la collecte des données) qui sont reconnues comme des prédicteurs de la non-réponse.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X20000015184Description :
Les staticiens d'enquête ont fréquemment recours à des modèles de régression linéaire de superpopulation. Le théorème de Gauss-Markov, qui suppose des variables explicatives fixes ou un conditionnement des valeurs observées de celles-ci, affirme que les estimateurs standard des coefficients de régression sont les meilleurs estimateurs linéaires sans biais.
Date de diffusion : 2000-08-30 - Articles et rapports : 12-001-X19990024879Description :
Godambe et Thompson abordent la question des intervalles de confiance en échantillonnage. Ils examinent d'abord l'utilisation des fonctions d'estimation afin d'obtenir des pivots robustes pour le modèle et les intervalles de confiance associés. Puis, ils traitent de l'adaptation de cette approche à l'échantillonnage. Tout est mis au point pour certains types de modèles particuliers. De plus, les auteurs comparent de manière empirique cette approche à des méthodes plus conventionnelles.
Date de diffusion : 2000-03-01
Références (6)
Références (6) ((6 résultats))
- Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668Description :
À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.
Date de diffusion : 2000-03-02 - Enquêtes et programmes statistiques — Documentation : 11-522-X19990015672Description :
La fusion des données qui est examinée ici consiste à créer un ensemble de données provenant de sources différentes sur des variables que l'on n'observe pas conjointement. Supposons par exemple que l'on dispose d'observations pour (X,Z) sur un ensemble de personnes et pour (Y,Z) sur un autre ensemble de personnes. Chacune des variables X, Y et Z peut être vectorielle. L'objectif principal consiste à obtenir des précisions sur la distribution conjointe de (X,Y) en se servant de Z comme ce que l'on conviendra d'appeler variable d'appariement. Toutefois, on s'efforce d'abord d'extraire des ensembles de données distincts autant de renseignements que possible sur la distribution conjointe de (X,Y,Z). On ne peut procéder à ce genre de fusion que moyennant la précision de certaines propriétés distributionnelles pour les données fusionnées, à savoir l'hypothèse d'indépendance conditionnelle étant donné les variables d'appariement. Classiquement, l'examen des variables fusionnées consiste à déterminer dans quelle mesure cette hypothèse sous-jacente est appropriée. Ici, nous examinons le problème sous un angle différent. La question que nous nous posons est celle de savoir comment il est possible d'estimer des distributions dans des situations où l'on ne dispose que d'observations provenant de certaines distributions marginales. Nous pouvons la résoudre en appliquant le critère d'entropie maximale. Nous montrons notamment qu'il est possible d'interpréter les données créés par fusion de données de sources différentes comme un cas spécial de cette situation. Par conséquent, nous dérivons l'hypothèse nécessaire d'indépendance conditionnelle en tant que conséquence du type de données disponibles.
Date de diffusion : 2000-03-02 - 3. Utilisation de données courantes en statistique géographique et en épidemiologie environnementale ArchivéEnquêtes et programmes statistiques — Documentation : 11-522-X19990015674Description :
L'influence de l'environnement sur la santé est un sujet de préoccupation croissante, plus particulièrement les effets de l'émission de polluants industriels dans l'atmosphère, le sol et l'eau. L'évaluation des risques que comporte une source de pollution donnée pour la santé publique est souvent effectuée à l'aide de données démographiques, environementales et relatives à la santé qui sont recueillies couramment par des organismes gouvernementaux. Ces ensembles de données présentent des différences d'échantillonnage notables sur les plans géographique et temporel; ces différences se répercutent sur les analyses épidémiologiques qui utilisent conjointement de tels ensembles. Au Royaumi-Uni, les problèmes de santé sont enregistrés individuellement pour chaque personne. Sont également indiqués le code de cause de maladie, la date du diagnostic ou du décès, et en utilisant le code postal de l'unité comme référence géographique. Par contre, les données démographiques relatives aux petites régions sont enregistrées uniquement lors du recensement décennal et sont diffusés comme données de niveau régional dans des zones qui ne correspondent pas à celles des codes postaux. Des données relatives à l'exposition ambiante sont pourtant disponibles à un autre niveau, selon le type d'exposition et la source des mesures.
Date de diffusion : 2000-03-02 - 4. Estimation par la méthode généralisée du partage des poids : le cas du couplage d'enregistrements ArchivéEnquêtes et programmes statistiques — Documentation : 11-522-X19990015680Description :
La combinaison de bases de données par des méthodes de couplage d'enregistrements en vue d'augmenter la quantité d'information disponible est un phénomène de plus en plus fréquent. Si l'on ne peut se fonder sur aucun identificateur unique pour procéder à l'appariement des enregistrements, on recourt au couplage probabiliste. On apparie un enregistrement du premier fichier à un enregistrement du deuxième avec une certaine probabilité et on décide ensuite si cette paire d'enregistrements représente ou non un appariement vrai. Habituellement, ce processus nécessite une certaine intervention manuelle qui demande du temps et des ressources humaines. En outre, il aboutit souvent à un couplage complexe. Autrement dit, au lieu d'être systématiquement biunivoque (un à un), le couplage entre les deux bases de données peut être multi-univoque (plusieurs à un), co-univoque (un à plusieurs) ou multivoque (plusieurs à plusieurs).
Date de diffusion : 2000-03-02 - 5. Calage simultané de plusieurs enquêtes ArchivéEnquêtes et programmes statistiques — Documentation : 11-522-X19990015684Description :
Il arrive souvent qu'on recueille, de façon pratiquement simultaée, la même information sur plusieurs enquêtes différentes. En France, cela est institutionnalisé dans les enquêtes auprès des ménages qui comportent un tronc commun de variables portant sur la situation démographique, l'emploi, le logement et les revenus. Ces variables sont des cofacteurs importants des variables d'intérêt de chacune des enquêtes et leur utilisation judicieuse peut permettre un renforcement des estimations dans chacune d'elle. Les techniques de calage sur information incertaine peuvent s'appliquer de façon naturelle dans ce contexte. Cela revient à rechercher le meilleur estimateur sans biais des variables communes et à caler chacune des enquêtes sur cet estimateur. Il se trouve que l'estimateur ainsi obtenu dans chaque enquête est toujours un estimateur linéaire dont les pondérations sont faciles à expliciter, que la variance s'obtient sans problème nouveau de même que l'estimation de variance. Si on veut compléter la panoplie des estimateurs par régression, on peut aussi voir cette technique comme un estimateur par ridge-regression, ou encore comme une estimation par régression bayésienne.
Date de diffusion : 2000-03-02 - Enquêtes et programmes statistiques — Documentation : 11-522-X19990015690Description :
La construction de l'échantillon virtuel est réalisé en deux étapes. La première consiste, en partant d'un panel maître, à effectuer une Analyse des Correspondances Multiples (ACM) sur des variables fondamentales pour l'étude. Puis, on génére aléatoirement des individus muets à partir de la distribution de chaque facteur significatif de l'analyse. Enfin, pour chaque individu, on génére une valeur pour chaque variable fondamentale la plus liée à un des facteurs précédents. Cette méthode assure un tirage indépendant d'ensembles de variables. La seconde étape consiste à greffer un certain nombre d'autres bases de données, dont on donnera les propriétés requises. On génére une variable à rajouter à l'aide de sa distribution estimée, avec un modèle linéaire généralisé en fonction des variables communes et celles qui ont déjà été rajoutées. Le même procédé est alors utilisé pour greffer les autres échantillons. Nous avons appliqué cette méthode pour générer un échantillon virtuel à partir de deux enquêtes. L'échantillon virtuel généré a été validé à l'aide de tests de comparaison d'échantillons. Les résultats obtenus sont positifs et montrent la faisabilité de cette méthode.
Date de diffusion : 2000-03-02
- Date de modification :