Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (29)

Tout (29) (25 of 29 results)

  • Produits techniques : 11-522-X201700014704
    Description :

    Il existe plusieurs domaines et sujets de recherche méthodologique en statistiques officielles. Nous expliquons pourquoi ils sont importants, et pourquoi il s’agit des plus importants pour les statistiques officielles. Nous décrivons les principaux sujets dans ces domaines de recherche et nous donnons un aperçu de ce qui semble le plus prometteur pour les aborder. Nous nous penchons ici sur: (i) la qualité des comptes nationaux, et plus particulièrement le taux de croissance du revenu national brut; (ii) les mégadonnées, et plus particulièrement la façon de créer des estimations représentatives et de tirer le meilleur parti possible des mégadonnées, lorsque cela semble difficile ou impossible; Nous abordons aussi : (i) l’amélioration de l’actualité des estimations statistiques provisoires et finales; (ii) l’analyse statistique, plus particulièrement des phénomènes complexes et cohérents. Ces sujets font partie de l’actuel programme de recherche méthodologique stratégique qui a été adopté récemment à Statistique Pays-Bas.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Produits techniques : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201300811857
    Description :

    À partir des données du Registre canadien du cancer, de la statistique de l'état civil et de statistiques sur la population, la présente étude examine l'hypothèse de ratios de taux d'incidence et de mortalité normalisés selon l'âge et propres au sexe et au siège du cancer stables d'une région à l'autre, qui sous tend l'indicateur de la complétude de la détermination des cas de la North American Association of Central Cancer Registries (NAACCR).

    Date de diffusion : 2013-08-21

  • Articles et rapports : 82-003-X201300511792
    Description :

    Le présent document décrit la mise en oeuvre de la composante sur l'air intérieur de l'Enquête canadienne sur les mesures de la santé et présente de l'information sur les taux de réponse et les résultats des échantillons de contrôle de la qualité sur le terrain.

    Date de diffusion : 2013-05-15

  • Articles et rapports : 12-001-X201100111445
    Description :

    Dans le présent article, nous étudions l'estimation sur petits domaines en nous servant de modèles au niveau du domaine. Nous considérons d'abord le modèle de Fay-Herriot (Fay et Herriot 1979) pour le cas d'une variance d'échantillonnage connue lissée et le modèle de You-Chapman (You et Chapman 2006) pour le cas de la modélisation de la variance d'échantillonnage. Ensuite, nous considérons des modèles spatiaux hiérarchiques bayésiens (HB) qui étendent les modèles de Fay-Herriot et de You-Chapman en tenant compte à la fois de l'hétérogénéité géographiquement non structurée et des effets de corrélation spatiale entre les domaines pour le lissage local. Les modèles proposés sont mis en 'uvre en utilisant la méthode d'échantillonnage de Gibbs pour une inférence entièrement bayésienne. Nous appliquons les modèles proposés à l'analyse de données d'enquête sur la santé et comparons les estimations fondées sur le modèle HB aux estimations directes fondées sur le plan. Nos résultats montrent que les estimations fondées sur le modèle HB ont de meilleures propriétés que les estimations directes. En outre, les modèles spatiaux au niveau du domaine proposés produisent des CV plus petits que les modèles de Fay-Herriot et de You-Chapman, particulièrement pour les domaines ayant trois domaines voisins ou plus. Nous présentons aussi une comparaison des modèles bayésiens et une analyse de l'adéquation du modèle.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X200900211041
    Description :

    L'estimation de la composition sur petits domaines peut poser un problème de données manquantes informatives, si la probabilité que les données manquent varie d'une catégorie d'intérêt à l'autre, ainsi que d'un petit domaine à l'autre. Nous élaborons une approche de modélisation mixte double qui combine un modèle mixte à effets aléatoires pour les données complètes sous-jacentes et un modèle mixte à effets aléatoires du mécanisme de création différentielle de données manquantes. L'effet du plan d'échantillonnage peut être intégré au moyen d'un modèle d'échantillonnage sous quasi-vraisemblance. L'erreur quadratique moyenne conditionnelle de prédiction associée est approximée sous forme d'une décomposition en trois parties, correspondant à une variance de prédiction naïve, une correction positive qui tient compte de l'incertitude hypothétique de l'estimation des paramètres basée sur les données complètes latentes et une autre correction positive pour la variation supplémentaire due aux données manquantes. Nous illustrons notre approche en l'appliquant à l'estimation de la composition des ménages des municipalités au moyen des données sur les ménages tirées des registres norvégiens, qui présentent un sous-enregistrement informatif du numéro d'identification du logement.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200800110615
    Description :

    Nous considérons les taux d'échantillonnage optimaux dans des plans d'échantillonnage par élément, quand l'analyse prévue est la régression linéaire pondérée par les poids de sondage et que les paramètres à estimer sont des combinaisons linéaires des coefficients de régression provenant d'un ou de plusieurs modèles. Nous commençons par élaborer des méthodes en supposant que des renseignements exacts sur les variables du plan existent dans la base de sondage, puis nous les généralisons à des situations où l'information pour certaines variables du plan n'est disponible que sous forme d'agrégat pour des groupes de sujets éventuels ou provient de données inexactes ou périmées. Nous envisageons également un plan d'échantillonnage pour l'estimation de combinaisons de coefficients provenant de plus d'un modèle. Une généralisation supplémentaire permet d'utiliser des combinaisons flexibles de coefficients choisies pour améliorer l'estimation d'un effet tout en en contrôlant un autre. Les applications éventuelles comprennent l'estimation des moyennes pour plusieurs ensembles de domaines chevauchants, ou l'amélioration des estimations pour des sous populations telles que les races minoritaires par échantillonnage non proportionnel des régions géographiques. Dans le contexte de la conception d'un sondage sur les soins reçus par les cancéreux (l'étude CanCORS) qui a motivé nos travaux, l'information éventuelle sur les variables du plan d'échantillonnage comprenait des données de recensement au niveau de l'îlot sur la race/ethnicité et la pauvreté, ainsi que des données au niveau individuel. Pour un emplacement de l'étude, un plan d'échantillonnage avec probabilités inégales en utilisant les adresses résidentielles des sujets et des données de recensement réduirait la variance de l'estimateur d'un effet du revenu de 25 %, ou de 38 % si la race des sujets avait été connue également. Par pondération flexible des contrastes du revenu selon la race, la variance de l'estimateur serait réduite de 26 % en utilisant les adresses résidentielles seulement et de 52 % en utilisant les adresses et les races. Nos méthodes seraient utiles dans les études où l'on considère un suréchantillonnage géographique selon la race ethnicité ou les caractéristiques socioéconomiques, ou dans toute étude où les caractéristiques pour lesquelles des données sont disponibles dans les bases de sondage sont mesurées avec une erreur.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 12-001-X20060019264
    Description :

    L'échantillonnage pour le suivi des cas de non réponse (échantillonnage SCNR) est une innovation qui a été envisagée lors de l'élaboration de la méthodologie du recensement décennal des États Unis de 2000. L'échantillonnage SCNR consiste à envoyer des recenseurs auprès d'un échantillon seulement des ménages qui n'ont pas répondu au questionnaire initial envoyé par la poste; ce qui réduit les coûts, mais crée un problème important d'estimation pour petits domaines. Nous proposons un modèle permettant d'imputer les caractéristiques des ménages qui n'ont pas répondu au questionnaire envoyé par la poste, afin de profiter des économies importantes que permet de réaliser l'échantillonnage SCNR, tout en obtenant un niveau de précision acceptable pour les petits domaines. Notre stratégie consiste à modéliser les caractéristiques des ménages en utilisant un petit nombre de covariables aux niveaux élevés de détail géographique et des covariables plus détaillées (plus nombreuses) aux niveaux plus agrégés de détail géographique. Pour cela, nous commençons par classer les ménages en un petit nombre de types. Puis, au moyen d'un modèle loglinéaire hiérarchique, nous estimons dans chaque îlot la distribution des types de ménage parmi les ménages non-répondants non échantillonnés. Cette distribution dépend des caractéristiques des ménages répondants qui ont retourné le questionnaire par la poste appartenant au même îlot et des ménages non-répondants échantillonnés dans les îlots voisins. Nous pouvons alors imputer les ménages non-répondants non échantillonnés d'après cette distribution estimée des types de ménage. Nous évaluons les propriétés de notre modèle loglinéaire par simulation. Les résultats montrent que, comparativement aux estimations produites par des modèles de rechange, notre modèle loglinéaire produit des estimations dont l'EQM est nettement plus faible dans de nombreux cas et à peu près la même dans la plupart des autres cas. Bien que l'échantillonnage SCNR n'ait pas été utilisé lors du recensement de 2000, notre stratégie d'estimation et d'imputation peut être appliquée lors de tout recensement ou enquête recourant cet échantillonnage où les unités forment des grappes telles que les caractéristiques des non répondants sont reliées aux caractéristiques des répondants vivant dans le même secteur, ainsi qu'aux caractéristiques des non répondants échantillonnés dans les secteurs voisins.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050029047
    Description :

    Nous considérons le problème de l'estimation, en présence de non réponse non ignorable importante, du nombre de ménages privés de diverses tailles et du nombre total de ménages en Norvège. L'approche est fondée sur un modèle de population pour la taille du ménage, sachant la taille enregistrée de la famille. Nous tenons compte du biais de non réponse éventuel en modélisant le mécanisme de réponse sachant la taille du ménage. Nous évaluons divers modèles, ainsi qu'un estimateur du maximum de vraisemblance et une poststratification fondée sur l'imputation. Nous comparons les résultats à ceux d'une poststratification pure avec la taille enregistrée de la famille comme variable de stratification et des méthodes d'estimation employées pour la production de statistiques officielles d'après l'Enquête sur les dépenses de consommation de la Norvège. L'étude indique que la modélisation de la réponse, la poststratification et l'imputation sont des éléments importants d'une approche satisfaisante.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029052
    Description :

    De nombreuses analyses statistiques, particulièrement l'analyse multiniveaux, requièrent l'estimation d'une matrice des variances-covariances d'échantillonnage. Dans le cas de problèmes univariés, des fonctions reliant la variance à la moyenne ont été utilisées pour obtenir des estimations de la variance, en regroupant l'information sur l'ensemble des unités ou des variables. Nous présentons des fonctions de variance et de corrélation pour des moyennes multivariées de questions d'enquête avec valeurs ordonnées, pour des données complètes, ainsi que pour des données avec non réponse structurée. Nous élaborons aussi des méthodes permettant d'évaluer l'ajustement du modèle et de calculer des estimateurs composites qui combinent des prédictions directes et fondées sur un modèle. Nous utilisons des données d'enquête provenant de la Consumer Assessments of Health Plans Study (CAHPS®) pour illustrer l'application de la méthodologie.

    Date de diffusion : 2006-02-17

  • Produits techniques : 11-522-X20040018733
    Description :

    Une enquête auprès d'utilisateurs de drogues injectables exploite l'information obtenue des centres d'échange de seringues de même que des utilisateurs échantillonnés. Le cadre méthodologique permet d'en tirer divers estimés.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018083
    Description :

    L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20040027753
    Description :

    Les échantillonneurs se méfient souvent des approches d'inférence fondées sur un modèle, parce qu'ils craignent que soient commises des erreurs de spécification lorsque les modèles sont appliqués à de grands échantillons provenant de populations complexes. Nous soutenons que le paradigme de l'inférence fondée sur un modèle peut donner de très bons résultats dans les conditions d'enquête, à condition que les modèles soient choisis de façon à tenir compte du plan d'échantillonnage et d'éviter de faire des hypothèses fortes au sujet des paramètres. L'estimateur d'Horvitz Thompson (HT) est un estimateur simple sans biais par rapport au plan de sondage du total de population finie. Du point de vue de la modélisation, l'estimateur HT fonctionne bien lorsque les ratios des valeurs de la variable de résultat et des probabilités d'inclusion sont interchangeables. Si cette hypothèse n'est pas satisfaite, l'estimateur HT peut être très inefficace. Dans Zheng et Little (2003, 2004), nous avons utilisé des fonctions splines pénalisées (p splines) pour modéliser des relations à variation lisse entre le résultat et les probabilités d'inclusion sous échantillonnage à un degré avec probabilité proportionnelle à la taille (PPT). Nous avons montré que les estimateurs fondés sur un modèle à fonction p spline sont généralement plus efficaces que l'estimateur HT et peuvent fournir des intervalles de confiance plus étroits dont la couverture est proche du niveau de confiance nominal. Dans le présent article, nous étendons cette approche aux plans d'échantillonnage à deux degrés. Nous utilisons un modèle mixte fondé sur une p spline qui est ajusté à une relation non paramétrique entre les moyennes des unités primaires d'échantillonnage (UPE) et une mesure de la taille des UPE, et auquel sont intégrés des effets aléatoires pour modéliser la mise en grappes. Pour l'estimation de la variance, nous considérons les méthodes d'estimation de la variance fondées sur un modèle bayésien empirique, la méthode du jackknife et la méthode des répliques répétées équilibrées (BRR). Des études en simulation portant sur des données simulées et des échantillons tirés des microdonnées à grande diffusion du Recensement de 1990 montrent que l'estimateur fondé sur un modèle à fonction p spline donne de meilleurs résultats que l'estimateur HT et que les estimateurs linéaires assistés par un modèle. Les simulations montrent aussi que les méthodes d'estimation de la variance produisent des intervalles de confiance dont la couverture est satisfaisante. Fait intéressant, ces progrès peuvent être observés pour un plan d'échantillonnage courant à probabilités de sélection égales, où la sélection à la première étape est PPT et où les probabilités de sélection à la deuxième étape sont proportionnelles à l'inverse des probabilités de sélection à la première étape, et où l'estimateur HT mène à la moyenne non pondérée. Dans les situations favorisant le plus l'utilisation de l'estimateur HT, les estimateurs fondés sur un modèle ont une efficacité comparable.

    Date de diffusion : 2005-02-03

  • Produits techniques : 11-522-X20030017703
    Description :

    Cette étude permet de faire la repondération des données tirées du Behavioural Risk Factor Surveillance System (BRFSS), une enquête en cours réalisée par téléphone aux État-Unis, pour produire des estimations plus précises sur les enfants.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017706
    Description :

    Dans ce document, on examine les différences entre les données autodéclarées sur l'utilisation des soins de santé et les dossiers administratifs provinciaux au Canada.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016732
    Description :

    L'analyse de la relation dose-réponse joue depuis longtemps un rôle important en toxicologie. Plus récemment, on l'a employée pour évaluer les campagnes publiques d'éducation. Les données qui sont recueillies durant de telles évaluations proviennent le plus souvent d'enquêtes ménages à plan d'échantillonnage type présentant la complexité habituelle de l'échantillonnage à plusieurs degrés, de la stratification et de la variabilité des probabilités de sélection. Lors d'une évaluation récente, on a développé un système présentant les caractéristiques suivantes : une catégorisation des doses à trois ou quatre niveaux; une cotation de la propension à sélectionner la dose; et un nouveau test de Jonckheere-Terpstra fondé sur le jackknife pour une relation dose-réponse monotone. Ce système permet de produire rapidement, pour les relations dose-réponse monotones, des tests qui sont corrigés à la fois pour le plan d'échantillonnage et pour les variables confusionnelles. Dans cet article, on se concentre sur les résultats d'une simulation de Monte Carlo des propriétés du test de Jonckheere-Terpstra fondé sur le jackknife.

    En outre, il n'existe aucun contrôle expérimental sur les dosages et il faut envisager l'existence éventuelle de variables confusionnelles. Les régressions types figurant dans WESVAR et SUDAAN pourraient être utilisées pour déterminer s'il existe une relation dose-réponse linéaire en tenant compte de l'effet des variables confusionnelles. Par contre, cette démarche ne semble pas très indiquée pour déceler les relations dose-réponse non linéaires et non monotones, et son application est longue si le nombre possible de variables étudiées est grand.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20010016277
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Grâce aux méthodes de couplage d'enregistrements, il est désormais plus facile d'effectuer des études de mortalité par cohortes où il y a couplage électronique des données d'exposition d'une base d'information et des données de mortalité d'une autre base. Le présent article est consacré à l'incidence des erreurs de couplage sur les estimations d'indicateurs épidémiologiques de risque comme les taux comparatifs de mortalité et les paramètres de modèles de régression de risques relatifs. Il révèle que ces indicateurs peuvent être entachés d'un biais et d'un surcroît de variabilité à cause d'erreurs de couplage, les faux liens et les non-liens introduisant un biais respectivement positif et négatif dans les estimations de taux de mortalité normalisés. Ces erreurs accroissent toujours l'incertitude des estimations, mais on peut réussir à éliminer le biais dans le cas particulier d'une égalité des faux positifs et des faux négatifs pour des états homogènes définis par un classement recoupé des covariables d'intérêt.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X19990015656
    Description :

    Les études de séries chronologiques montrent qu'il existe une association entre la concentration des polluants atmosphériques, d'une part, et la morbidité et la mortalité, d'autre part. En général, ces études sont réalisées dans une seule ville, en appliquant diverses méthodes. Les critiques concernant ces études ont trait à la validité des ensembles de données utilisés et aux méthodes statistiques qui leur sont appliquées, ainsi qu'au manque de cohérence des résultats des études menées dans des villes différentes et même des nouvelles analyses indépendantes des données d'une ville particulière. Dans le présent article, nous examinons certaines des méthodes statistiques utilisées pour analyser un sous-ensemble de données nationales sur la pollution atmosphérique, la mortalité et les conditions météorologiques recueillies durant la National Morbidity and Mortality Air Pollution Study (NMMAPS).

    Date de diffusion : 2000-03-02

  • Produits techniques : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02

  • Articles et rapports : 12-001-X19970013108
    Description :

    L'auteur explique comment recourir au calcul matriciel pour simplifier la dérivation de l'estimateur du coefficient de régression et de l'estimateur de régression par linéarisation.

    Date de diffusion : 1997-08-18

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (18)

Analyses (18) (18 of 18 results)

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Articles et rapports : 82-003-X201300811857
    Description :

    À partir des données du Registre canadien du cancer, de la statistique de l'état civil et de statistiques sur la population, la présente étude examine l'hypothèse de ratios de taux d'incidence et de mortalité normalisés selon l'âge et propres au sexe et au siège du cancer stables d'une région à l'autre, qui sous tend l'indicateur de la complétude de la détermination des cas de la North American Association of Central Cancer Registries (NAACCR).

    Date de diffusion : 2013-08-21

  • Articles et rapports : 82-003-X201300511792
    Description :

    Le présent document décrit la mise en oeuvre de la composante sur l'air intérieur de l'Enquête canadienne sur les mesures de la santé et présente de l'information sur les taux de réponse et les résultats des échantillons de contrôle de la qualité sur le terrain.

    Date de diffusion : 2013-05-15

  • Articles et rapports : 12-001-X201100111445
    Description :

    Dans le présent article, nous étudions l'estimation sur petits domaines en nous servant de modèles au niveau du domaine. Nous considérons d'abord le modèle de Fay-Herriot (Fay et Herriot 1979) pour le cas d'une variance d'échantillonnage connue lissée et le modèle de You-Chapman (You et Chapman 2006) pour le cas de la modélisation de la variance d'échantillonnage. Ensuite, nous considérons des modèles spatiaux hiérarchiques bayésiens (HB) qui étendent les modèles de Fay-Herriot et de You-Chapman en tenant compte à la fois de l'hétérogénéité géographiquement non structurée et des effets de corrélation spatiale entre les domaines pour le lissage local. Les modèles proposés sont mis en 'uvre en utilisant la méthode d'échantillonnage de Gibbs pour une inférence entièrement bayésienne. Nous appliquons les modèles proposés à l'analyse de données d'enquête sur la santé et comparons les estimations fondées sur le modèle HB aux estimations directes fondées sur le plan. Nos résultats montrent que les estimations fondées sur le modèle HB ont de meilleures propriétés que les estimations directes. En outre, les modèles spatiaux au niveau du domaine proposés produisent des CV plus petits que les modèles de Fay-Herriot et de You-Chapman, particulièrement pour les domaines ayant trois domaines voisins ou plus. Nous présentons aussi une comparaison des modèles bayésiens et une analyse de l'adéquation du modèle.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X200900211041
    Description :

    L'estimation de la composition sur petits domaines peut poser un problème de données manquantes informatives, si la probabilité que les données manquent varie d'une catégorie d'intérêt à l'autre, ainsi que d'un petit domaine à l'autre. Nous élaborons une approche de modélisation mixte double qui combine un modèle mixte à effets aléatoires pour les données complètes sous-jacentes et un modèle mixte à effets aléatoires du mécanisme de création différentielle de données manquantes. L'effet du plan d'échantillonnage peut être intégré au moyen d'un modèle d'échantillonnage sous quasi-vraisemblance. L'erreur quadratique moyenne conditionnelle de prédiction associée est approximée sous forme d'une décomposition en trois parties, correspondant à une variance de prédiction naïve, une correction positive qui tient compte de l'incertitude hypothétique de l'estimation des paramètres basée sur les données complètes latentes et une autre correction positive pour la variation supplémentaire due aux données manquantes. Nous illustrons notre approche en l'appliquant à l'estimation de la composition des ménages des municipalités au moyen des données sur les ménages tirées des registres norvégiens, qui présentent un sous-enregistrement informatif du numéro d'identification du logement.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200800110615
    Description :

    Nous considérons les taux d'échantillonnage optimaux dans des plans d'échantillonnage par élément, quand l'analyse prévue est la régression linéaire pondérée par les poids de sondage et que les paramètres à estimer sont des combinaisons linéaires des coefficients de régression provenant d'un ou de plusieurs modèles. Nous commençons par élaborer des méthodes en supposant que des renseignements exacts sur les variables du plan existent dans la base de sondage, puis nous les généralisons à des situations où l'information pour certaines variables du plan n'est disponible que sous forme d'agrégat pour des groupes de sujets éventuels ou provient de données inexactes ou périmées. Nous envisageons également un plan d'échantillonnage pour l'estimation de combinaisons de coefficients provenant de plus d'un modèle. Une généralisation supplémentaire permet d'utiliser des combinaisons flexibles de coefficients choisies pour améliorer l'estimation d'un effet tout en en contrôlant un autre. Les applications éventuelles comprennent l'estimation des moyennes pour plusieurs ensembles de domaines chevauchants, ou l'amélioration des estimations pour des sous populations telles que les races minoritaires par échantillonnage non proportionnel des régions géographiques. Dans le contexte de la conception d'un sondage sur les soins reçus par les cancéreux (l'étude CanCORS) qui a motivé nos travaux, l'information éventuelle sur les variables du plan d'échantillonnage comprenait des données de recensement au niveau de l'îlot sur la race/ethnicité et la pauvreté, ainsi que des données au niveau individuel. Pour un emplacement de l'étude, un plan d'échantillonnage avec probabilités inégales en utilisant les adresses résidentielles des sujets et des données de recensement réduirait la variance de l'estimateur d'un effet du revenu de 25 %, ou de 38 % si la race des sujets avait été connue également. Par pondération flexible des contrastes du revenu selon la race, la variance de l'estimateur serait réduite de 26 % en utilisant les adresses résidentielles seulement et de 52 % en utilisant les adresses et les races. Nos méthodes seraient utiles dans les études où l'on considère un suréchantillonnage géographique selon la race ethnicité ou les caractéristiques socioéconomiques, ou dans toute étude où les caractéristiques pour lesquelles des données sont disponibles dans les bases de sondage sont mesurées avec une erreur.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 12-001-X20060019264
    Description :

    L'échantillonnage pour le suivi des cas de non réponse (échantillonnage SCNR) est une innovation qui a été envisagée lors de l'élaboration de la méthodologie du recensement décennal des États Unis de 2000. L'échantillonnage SCNR consiste à envoyer des recenseurs auprès d'un échantillon seulement des ménages qui n'ont pas répondu au questionnaire initial envoyé par la poste; ce qui réduit les coûts, mais crée un problème important d'estimation pour petits domaines. Nous proposons un modèle permettant d'imputer les caractéristiques des ménages qui n'ont pas répondu au questionnaire envoyé par la poste, afin de profiter des économies importantes que permet de réaliser l'échantillonnage SCNR, tout en obtenant un niveau de précision acceptable pour les petits domaines. Notre stratégie consiste à modéliser les caractéristiques des ménages en utilisant un petit nombre de covariables aux niveaux élevés de détail géographique et des covariables plus détaillées (plus nombreuses) aux niveaux plus agrégés de détail géographique. Pour cela, nous commençons par classer les ménages en un petit nombre de types. Puis, au moyen d'un modèle loglinéaire hiérarchique, nous estimons dans chaque îlot la distribution des types de ménage parmi les ménages non-répondants non échantillonnés. Cette distribution dépend des caractéristiques des ménages répondants qui ont retourné le questionnaire par la poste appartenant au même îlot et des ménages non-répondants échantillonnés dans les îlots voisins. Nous pouvons alors imputer les ménages non-répondants non échantillonnés d'après cette distribution estimée des types de ménage. Nous évaluons les propriétés de notre modèle loglinéaire par simulation. Les résultats montrent que, comparativement aux estimations produites par des modèles de rechange, notre modèle loglinéaire produit des estimations dont l'EQM est nettement plus faible dans de nombreux cas et à peu près la même dans la plupart des autres cas. Bien que l'échantillonnage SCNR n'ait pas été utilisé lors du recensement de 2000, notre stratégie d'estimation et d'imputation peut être appliquée lors de tout recensement ou enquête recourant cet échantillonnage où les unités forment des grappes telles que les caractéristiques des non répondants sont reliées aux caractéristiques des répondants vivant dans le même secteur, ainsi qu'aux caractéristiques des non répondants échantillonnés dans les secteurs voisins.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 12-001-X20050029047
    Description :

    Nous considérons le problème de l'estimation, en présence de non réponse non ignorable importante, du nombre de ménages privés de diverses tailles et du nombre total de ménages en Norvège. L'approche est fondée sur un modèle de population pour la taille du ménage, sachant la taille enregistrée de la famille. Nous tenons compte du biais de non réponse éventuel en modélisant le mécanisme de réponse sachant la taille du ménage. Nous évaluons divers modèles, ainsi qu'un estimateur du maximum de vraisemblance et une poststratification fondée sur l'imputation. Nous comparons les résultats à ceux d'une poststratification pure avec la taille enregistrée de la famille comme variable de stratification et des méthodes d'estimation employées pour la production de statistiques officielles d'après l'Enquête sur les dépenses de consommation de la Norvège. L'étude indique que la modélisation de la réponse, la poststratification et l'imputation sont des éléments importants d'une approche satisfaisante.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050029052
    Description :

    De nombreuses analyses statistiques, particulièrement l'analyse multiniveaux, requièrent l'estimation d'une matrice des variances-covariances d'échantillonnage. Dans le cas de problèmes univariés, des fonctions reliant la variance à la moyenne ont été utilisées pour obtenir des estimations de la variance, en regroupant l'information sur l'ensemble des unités ou des variables. Nous présentons des fonctions de variance et de corrélation pour des moyennes multivariées de questions d'enquête avec valeurs ordonnées, pour des données complètes, ainsi que pour des données avec non réponse structurée. Nous élaborons aussi des méthodes permettant d'évaluer l'ajustement du modèle et de calculer des estimateurs composites qui combinent des prédictions directes et fondées sur un modèle. Nous utilisons des données d'enquête provenant de la Consumer Assessments of Health Plans Study (CAHPS®) pour illustrer l'application de la méthodologie.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018083
    Description :

    L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20040027753
    Description :

    Les échantillonneurs se méfient souvent des approches d'inférence fondées sur un modèle, parce qu'ils craignent que soient commises des erreurs de spécification lorsque les modèles sont appliqués à de grands échantillons provenant de populations complexes. Nous soutenons que le paradigme de l'inférence fondée sur un modèle peut donner de très bons résultats dans les conditions d'enquête, à condition que les modèles soient choisis de façon à tenir compte du plan d'échantillonnage et d'éviter de faire des hypothèses fortes au sujet des paramètres. L'estimateur d'Horvitz Thompson (HT) est un estimateur simple sans biais par rapport au plan de sondage du total de population finie. Du point de vue de la modélisation, l'estimateur HT fonctionne bien lorsque les ratios des valeurs de la variable de résultat et des probabilités d'inclusion sont interchangeables. Si cette hypothèse n'est pas satisfaite, l'estimateur HT peut être très inefficace. Dans Zheng et Little (2003, 2004), nous avons utilisé des fonctions splines pénalisées (p splines) pour modéliser des relations à variation lisse entre le résultat et les probabilités d'inclusion sous échantillonnage à un degré avec probabilité proportionnelle à la taille (PPT). Nous avons montré que les estimateurs fondés sur un modèle à fonction p spline sont généralement plus efficaces que l'estimateur HT et peuvent fournir des intervalles de confiance plus étroits dont la couverture est proche du niveau de confiance nominal. Dans le présent article, nous étendons cette approche aux plans d'échantillonnage à deux degrés. Nous utilisons un modèle mixte fondé sur une p spline qui est ajusté à une relation non paramétrique entre les moyennes des unités primaires d'échantillonnage (UPE) et une mesure de la taille des UPE, et auquel sont intégrés des effets aléatoires pour modéliser la mise en grappes. Pour l'estimation de la variance, nous considérons les méthodes d'estimation de la variance fondées sur un modèle bayésien empirique, la méthode du jackknife et la méthode des répliques répétées équilibrées (BRR). Des études en simulation portant sur des données simulées et des échantillons tirés des microdonnées à grande diffusion du Recensement de 1990 montrent que l'estimateur fondé sur un modèle à fonction p spline donne de meilleurs résultats que l'estimateur HT et que les estimateurs linéaires assistés par un modèle. Les simulations montrent aussi que les méthodes d'estimation de la variance produisent des intervalles de confiance dont la couverture est satisfaisante. Fait intéressant, ces progrès peuvent être observés pour un plan d'échantillonnage courant à probabilités de sélection égales, où la sélection à la première étape est PPT et où les probabilités de sélection à la deuxième étape sont proportionnelles à l'inverse des probabilités de sélection à la première étape, et où l'estimateur HT mène à la moyenne non pondérée. Dans les situations favorisant le plus l'utilisation de l'estimateur HT, les estimateurs fondés sur un modèle ont une efficacité comparable.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 12-001-X19970013108
    Description :

    L'auteur explique comment recourir au calcul matriciel pour simplifier la dérivation de l'estimateur du coefficient de régression et de l'estimateur de régression par linéarisation.

    Date de diffusion : 1997-08-18

  • Articles et rapports : 12-001-X199500114410
    Description :

    Dans le cadre de la décision relative au redressement des chiffres du recensement décennal de 1990, le U.S. Census Bureau a étudié l’hétérogénéité possible des taux de sous-dénombrement parmi des parties de différents États se trouvant dans la même case de rajustement ou strate formée a posteriori. Cinq « variables de remplacement » que l’on croyait associées au sous-dénombrement ont été analysées à l’aide d’une grande partie des données du recensement, et l’on a constaté une hétérogénéité significative. L’analyse de l’enquête post-censitaire sur les taux de sous-dénombrement a montré que les variables de stratification a posteriori expliquaient une plus grande partie de la variance que l’État, d’où le choix de la strate a posteriori comme case de rajustement. On a observé une hétérogénéité significative parmi les États dans 19 des 99 groupes de strates a posteriori (surtout dans les régions non urbaines), mais, après avoir regroupé des strates a posteriori, on n’a pratiquement rien observé qui donne à penser que l’estimateur de stratification a posteriori était biaisé de façon à défavoriser certains États. Néanmoins, de futures études sur l’évaluation de la couverture devraient permettre de résoudre cette question.

    Date de diffusion : 1995-06-15

  • Articles et rapports : 12-001-X199300114479
    Description :

    Les études épidémiologiques qui visent à étudier le rapport entre les risques environnementaux et l’état de santé comptent beaucoup sur l’appariement d’enregistrements de bases de données administratives différentes. Par des algorithmes complexes de couplage d’enregistrements appliqués à de grandes bases de données, on peut évaluer la possibilité d’un appariement de deux enregistrements particuliers en se fondant sur la comparaison d’une ou de plusieurs variables d’identification dans ces enregistrements. Puisque les erreurs d’appariement sont inévitables, il faut pouvoir tenir compte de leur effet sur les inférences statistiques faites à partir des fichiers couplés. Cet article donne un aperçu de la méthodologie utilisée pour le couplage d’enregistrements et traite les questions statistiques qui se rattachent aux erreurs de couplage.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199200114492
    Description :

    Nous considérons dans cet article le scénario d’une enquête par sondage ayant les deux objectifs principaux suivants : 1) l’identification, pour des études de suivi ultérieures, de n^* -sujets dans chacun des H sous-domaines et 2) l’estimation, au moment où on en est dans le déroulement de l’enquête, du niveau d’un caractère quelconque dans chacun de ces sous-domaines. Pour cette enquête, le plan de sondage doit se limiter à un échantillonnage par grappes à un seul degré, ce qui constitue une contrainte supplémentaire. Levy et coll. 1989, ont proposé une variante de l’échantillonnage par grappes à un seul degré, appelée échantillonnage par grappes à un seul degré étagé (ÉGSDÉ), comme moyen économique d’identifier n^* -sujets dans chacun des sous-domaines. Dans cet article-ci, nous étudions les propriétés statistiques de l’ÉGSDÉ pour l’estimation transversale du niveau d’un caractère dans la population. En particulier, la fiabilité d’estimations obtenues, à un coût donné, à l’aide de l’ÉGSDÉ est comparée à celle des estimations obtenues au même coût à l’aide de l’échantillonnage par grappes à un seul degré ordinaire (ÉGSDO). Nous avons été motivés par les problèmes rencontrés au cours de la conception statistique de l’Enquête de Shanghai sur la maladie d’Alzheimer et la démence (ESMAD), une étude épidémiologique de la prévalence et de l’incidence de la maladie d’Alzheimer et de la démence.

    Date de diffusion : 1992-06-15

  • Articles et rapports : 12-001-X198800214588
    Description :

    Supposons que des taux de sous-dénombrement ont été estimés pour un recensement et que des estimations du niveau de sous-dénombrement ont été établies pour les îlots. Il peut être alors souhaitable de dresser une nouvelle liste de ménages qui comprendrait les ménages qui auraient été oubliés. Nous proposons dans cet article de dresser une telle liste en pondérant les ménages qui ont été dénombrés. Les poids des ménages sont déterminés par des équations linéaires qui représentent le nombre total voulu de personnes dans chaque classe d’estimation et le nombre total voulu de ménages. On calcule alors des poids qui satisfont les contraintes et qui rapprochent le plus possible le tableau des données ajustées des données brutes. On peut voir dans cette méthode un exemple d’application de la méthode itérative du quotient à des cas où les contraintes ne concernent pas les fréquences marginales d’un tableau de contingence. Des covariables continues ou discrètes peuvent être utilisées dans les opérations de redressement et il est possible de vérifier directement si les contraints peuvent être satisfaites. Enfin, nous proposons des méthodes pour l’utilisation de données pondérées à des fins diverses liées au recensement et pour le redressement de données corrélées sur les caractéristiques des ménages oubliés, par exemple le revenu, qui ne sont pas considérées directement dans l’estimation du niveau de sous-dénombrement.

    Date de diffusion : 1988-12-15

Références (11)

Références (11) (11 of 11 results)

  • Produits techniques : 11-522-X201700014704
    Description :

    Il existe plusieurs domaines et sujets de recherche méthodologique en statistiques officielles. Nous expliquons pourquoi ils sont importants, et pourquoi il s’agit des plus importants pour les statistiques officielles. Nous décrivons les principaux sujets dans ces domaines de recherche et nous donnons un aperçu de ce qui semble le plus prometteur pour les aborder. Nous nous penchons ici sur: (i) la qualité des comptes nationaux, et plus particulièrement le taux de croissance du revenu national brut; (ii) les mégadonnées, et plus particulièrement la façon de créer des estimations représentatives et de tirer le meilleur parti possible des mégadonnées, lorsque cela semble difficile ou impossible; Nous abordons aussi : (i) l’amélioration de l’actualité des estimations statistiques provisoires et finales; (ii) l’analyse statistique, plus particulièrement des phénomènes complexes et cohérents. Ces sujets font partie de l’actuel programme de recherche méthodologique stratégique qui a été adopté récemment à Statistique Pays-Bas.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X20040018733
    Description :

    Une enquête auprès d'utilisateurs de drogues injectables exploite l'information obtenue des centres d'échange de seringues de même que des utilisateurs échantillonnés. Le cadre méthodologique permet d'en tirer divers estimés.

    Date de diffusion : 2005-10-27

  • Produits techniques : 11-522-X20030017703
    Description :

    Cette étude permet de faire la repondération des données tirées du Behavioural Risk Factor Surveillance System (BRFSS), une enquête en cours réalisée par téléphone aux État-Unis, pour produire des estimations plus précises sur les enfants.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20030017706
    Description :

    Dans ce document, on examine les différences entre les données autodéclarées sur l'utilisation des soins de santé et les dossiers administratifs provinciaux au Canada.

    Date de diffusion : 2005-01-26

  • Produits techniques : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016732
    Description :

    L'analyse de la relation dose-réponse joue depuis longtemps un rôle important en toxicologie. Plus récemment, on l'a employée pour évaluer les campagnes publiques d'éducation. Les données qui sont recueillies durant de telles évaluations proviennent le plus souvent d'enquêtes ménages à plan d'échantillonnage type présentant la complexité habituelle de l'échantillonnage à plusieurs degrés, de la stratification et de la variabilité des probabilités de sélection. Lors d'une évaluation récente, on a développé un système présentant les caractéristiques suivantes : une catégorisation des doses à trois ou quatre niveaux; une cotation de la propension à sélectionner la dose; et un nouveau test de Jonckheere-Terpstra fondé sur le jackknife pour une relation dose-réponse monotone. Ce système permet de produire rapidement, pour les relations dose-réponse monotones, des tests qui sont corrigés à la fois pour le plan d'échantillonnage et pour les variables confusionnelles. Dans cet article, on se concentre sur les résultats d'une simulation de Monte Carlo des propriétés du test de Jonckheere-Terpstra fondé sur le jackknife.

    En outre, il n'existe aucun contrôle expérimental sur les dosages et il faut envisager l'existence éventuelle de variables confusionnelles. Les régressions types figurant dans WESVAR et SUDAAN pourraient être utilisées pour déterminer s'il existe une relation dose-réponse linéaire en tenant compte de l'effet des variables confusionnelles. Par contre, cette démarche ne semble pas très indiquée pour déceler les relations dose-réponse non linéaires et non monotones, et son application est longue si le nombre possible de variables étudiées est grand.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Produits techniques : 11-522-X20010016277
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Grâce aux méthodes de couplage d'enregistrements, il est désormais plus facile d'effectuer des études de mortalité par cohortes où il y a couplage électronique des données d'exposition d'une base d'information et des données de mortalité d'une autre base. Le présent article est consacré à l'incidence des erreurs de couplage sur les estimations d'indicateurs épidémiologiques de risque comme les taux comparatifs de mortalité et les paramètres de modèles de régression de risques relatifs. Il révèle que ces indicateurs peuvent être entachés d'un biais et d'un surcroît de variabilité à cause d'erreurs de couplage, les faux liens et les non-liens introduisant un biais respectivement positif et négatif dans les estimations de taux de mortalité normalisés. Ces erreurs accroissent toujours l'incertitude des estimations, mais on peut réussir à éliminer le biais dans le cas particulier d'une égalité des faux positifs et des faux négatifs pour des états homogènes définis par un classement recoupé des covariables d'intérêt.

    Date de diffusion : 2002-09-12

  • Produits techniques : 11-522-X19990015656
    Description :

    Les études de séries chronologiques montrent qu'il existe une association entre la concentration des polluants atmosphériques, d'une part, et la morbidité et la mortalité, d'autre part. En général, ces études sont réalisées dans une seule ville, en appliquant diverses méthodes. Les critiques concernant ces études ont trait à la validité des ensembles de données utilisés et aux méthodes statistiques qui leur sont appliquées, ainsi qu'au manque de cohérence des résultats des études menées dans des villes différentes et même des nouvelles analyses indépendantes des données d'une ville particulière. Dans le présent article, nous examinons certaines des méthodes statistiques utilisées pour analyser un sous-ensemble de données nationales sur la pollution atmosphérique, la mortalité et les conditions météorologiques recueillies durant la National Morbidity and Mortality Air Pollution Study (NMMAPS).

    Date de diffusion : 2000-03-02

  • Produits techniques : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02

Date de modification :