Analyse des données

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (23)

Tout (23) (0 à 10 de 23 résultats)

  • Articles et rapports : 75F0002M2004010
    Description :

    Dans ce document, on présente un ensemble de lignes directrices pour l'analyse de la répartition du revenu. On met également l'accent sur la définition intuitive des concepts et des techniques, plutôt que sur des équations et des détails techniques.

    Date de diffusion : 2004-10-08

  • Articles et rapports : 11-522-X20020016708
    Description :

    Cette étude traite de l'analyse des données d'enquêtes complexes sur la santé par des méthodes de modélisation multivariées. L'étude porte principalement sur diverses méthodes basées sur le plan d'échantillonnage ou basées sur un modèle qui visent à tenir compte de la complexité du plan d'échantillonnage, y compris la mise en grappes, la stratification et la pondération. Les méthodes étudiées incluent la modélisation linéaire généralisée fondée sur la pseudo-méthode de vraisemblance et les équations d'estimations généralisées, les modèles linéaires mixtes estimés par le maximum de vraisemblance restreint et les techniques hiérarchiques bayesiennes basées sur les méthodes de simulation de Monte Carlo d'une chaîne de Markov (MCMC). On compare empiriquement les méthodes sur des données provenant d'une grande enquête comprenant une interview sur la santé et un examen physique réalisés en Finlande en 2000 (Health 2000 Study).

    Les données de la Health 2000 Study ont été recueillies au moyen d'interviews sur place, de questionnaires et d'examens cliniques. L'enquête a été réalisée auprès d'un échantillon en grappes stratifié à deux degrés. Le plan d'échantillonnage comportait des corrélations intra grappes positives pour nombre de variables étudiées. En vue d'une étude plus approfondie, on a choisi un petit nombre de variables tirées des volets de l'interview sur la santé et de l'examen clinique. Dans de nombreux cas, les diverses méthodes ont produit des résultats numériques comparables et appuyés des conclusions statistiques similaires. Celles qui ne tenaient pas compte de la complexité du plan d'échantillonnage ont parfois produit des conclusions contradictoires. On discute aussi de l'application des méthodes lors de l'utilisation de logiciels statistiques standards.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016712
    Description :

    Dans cet article, on considère l'effet de la censure par intervalle du moment du renoncement sur l'estimation des paramètres d'intensité en ce qui concerne le renoncement au tabac et la grossesse. Les données recueillies lors des trois cycles de l'Enquête nationale sur la santé de la population permettent d'appliquer les méthodes d'analyse de la chronologie des événements à l'étude du commencement de l'usage du tabac, du renoncement au tabac et de la rechute. L'une des questions étudiées est la relation entre le renoncement au tabac et la grossesse. Si une répondante longitudinale qui fumait lors du premier cycle a cessé de fumer lors du deuxième, on connaît le moment du renoncement au tabac à plus ou moins un an près, puisqu'on demande à la répondante l'âge auquel elle a cessé de fumer et qu'on connaît sa date de naissance. On sait également si elle était enceinte au moment du deuxième cycle et si elle a donné naissance depuis l'interview du premier cycle. Pour de nombreux sujets, on connaît la date de conception à un intervalle de temps près assez faible. Si l'on connaissait exactement le moment du renoncement au tabac et la période de la grossesse pour chaque membre du panel longitudinal qui a vécu l'un ou l'autre de ces événements entre deux cycles, on pourrait modéliser leur lien temporel d'après leurs intensités.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016714
    Description :

    Dans cet article de nature très technique, on illustre l'application de la méthode de l'estimateur de la variance par le jackknife avec suppression d'un groupe à une étude longitudinale complexe à plusieurs cycles, montrant son utilité pour les modèles de régression linéaire et d'autres modèles analytiques. L'estimateur de la variance par le jackknife avec suppression d'un groupe représente un outil fort utile de mesure de la variance en cas de plan d'échantillonnage complexe. Cette méthode consiste à : diviser l'échantillon de premier degré en groupes mutuellement exclusifs et de variances presque égales; supprimer un groupe à la fois pour créer un ensemble de répétitions; procéder, sur chaque répétition, à des redressements par pondération analogues à ceux effectués sur l'échantillon dans son ensemble. L'estimation de la variance se fait selon la méthode usuelle (non stratifiée) du jackknife.

    On applique la méthode au Chicago Health and Aging Project (CHAP), une étude longitudinale communautaire visant à examiner les facteurs de risque de problèmes de santé chroniques chez les personnes âgées. L'un des objectifs importants de l'étude est d'examiner les facteurs de risque de la manifestation de la maladie d'Alzheimer. Le plan de sondage courant du CHAP comprend deux composantes : (1) Tous les trois ans, l'ensemble des membres survivants de la cohorte sont interviewés sur divers sujets liés à la santé. Ces interviews incluent des mesures des fonctions cognitives et physiques. (2) Durant chaque cycle de collecte des données, un échantillon de Poisson stratifié est sélectionné parmi les répondants à l'interview couvrant la population dans son ensemble afin de procéder à un examen clinique détaillé et à des tests neuropsychologiques. Pour étudier les facteurs de risque liés aux nouveaux cas de maladie, on définit une cohorte de personnes « exemptes de la maladie » au point précédent dans le temps et celle-ci forme une strate importante dans la base de sondage.

    On donne des preuves de l'applicabilité théorique du jackknife avec suppression d'un groupe à des estimateurs particuliers dans les conditions de cet échantillonnage de Poisson, en accordant l'attention nécessaire à la distinction entre l'inférence en population finie et en population infinie (modèle). En outre, on examine le problème de la détermination du « nombre correct » des groupes de variance.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016719
    Description :

    Dans cette étude, on examine les méthodes de modélisation utilisées pour les données sur la santé publique. Les spécialistes de la santé publique manifestent un regain d'intérêt pour l'étude des effets de l'environnement sur la santé. Idéalement, les études écologiques ou contextuelles explorent ces liens au moyen de données sur la santé publique étoffées de données sur les caractéristiques environnementales à l'aide de modèles multiniveaux ou hiérarchiques. Dans ces modèles, le premier niveau correspond aux données des personnes sur la santé et le deuxième, aux données des collectivités. La plupart des données sur la santé publique proviennent d'enquêtes à plan d'échantillonnage complexe qui obligent, lors de l'analyse, à tenir compte de la mise en grappes, de la non-réponse et de la post-stratification pour obtenir des estimations représentatives de la prévalence des comportements posant un risque pour la santé.

    Cette étude est basée sur le Behavioral Risk Factor Surveillance System (BRFSS). Il s'agit d'un système américain de surveillance des facteurs de risque pour la santé selon l'État exploité par les Centers for Disease Control and Prevention en vue d'évaluer chaque année les facteurs de risque pour la santé chez plus de 200 000 adultes. Les données du BRFSS sont maintenant produites à l'échelle de la région métropolitaine statistique (MSA pour metropolitan statistical area) et fournissent des données de qualité sur la santé pour les études des effets de l'environnement. Les exigences conjuguées du plan d'échantillonnage et des analyses à plusieurs niveaux compliquent encore davantage les analyses à l'échelle de la MSA combinant les données sur la santé et sur l'environnement.

    On compare trois méthodes de modélisation dans le cadre d'une étude sur l'activité physique et certains facteurs environnementaux à l'aide de données du BRFSS de 2000. Chaque méthode décrite ici est un moyen valide d'analyser des données d'enquête à plan d'échantillonnage complexe complétées de données environnementales, quoique chacune tienne compte de façon différente du plan d'échantillonnage et de la structure multiniveau des données. Ces méthodes conviennent donc à l'étude de questions légèrement différentes.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016723
    Description :

    Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.

    La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016724
    Description :

    Certains des modèles statistiques utilisés le plus fréquemment sont ajustés par la méthode du maximum de vraisemblance (ML, pour « maximum likelihood ») ou une extension de cette dernière. La commande « ML » de Stata fournit aux chercheurs et aux analystes un outil qui leur permet de développer des commandes d'estimations en vue d'ajuster leurs modèles en se servant de leurs propres données. Ces modèles peuvent inclure des équations multiples, des observations sur grappes, des poids d'échantillonnage et d'autres caractéristiques du plan de sondage. Tous ces éléments sont examinés dans le cadre de cet article.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016728
    Description :

    On recueille les données de presque toutes les enquêtes selon un plan d'échantillonnage complexe et on les utilise souvent pour effectuer des analyses statistiques allant plus loin que l'estimation de simples paramètres descriptifs de la population cible. Nombre de procédures offertes par les progiciels statistiques les plus utilisés ne conviennent pas pour cette tâche, car les analyses sont fondées sur l'hypothèse qu'on a procédé à un échantillonnage aléatoire simple. Par conséquent, les résultats ne sont pas valides en cas d'échantillonnage à plusieurs degrés, de stratification ou de mise en grappes. Deux méthodes utilisées couramment pour analyser les données d'enquêtes complexes sont les techniques de rééchantillonnage (répétitions) et de linéarisation de Taylor. Cet article traite de l'utilisation du logiciel WesVar pour calculer des estimations et pour produire des estimations répétées de la variance en reflétant correctement l'échantillonnage complexe et les méthodes d'estimation. On illustre aussi les caractéristiques de WesVar à l'aide de données provenant de deux enquêtes réalisées par Westat basées sur des plans d'échantillonnage complexes, à savoir la Third International Mathematics and Science Study (TIMSS) et la National Health and Nutrition Examination Survey (NHANES).

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (21)

Analyses (21) (0 à 10 de 21 résultats)

  • Articles et rapports : 75F0002M2004010
    Description :

    Dans ce document, on présente un ensemble de lignes directrices pour l'analyse de la répartition du revenu. On met également l'accent sur la définition intuitive des concepts et des techniques, plutôt que sur des équations et des détails techniques.

    Date de diffusion : 2004-10-08

  • Articles et rapports : 11-522-X20020016708
    Description :

    Cette étude traite de l'analyse des données d'enquêtes complexes sur la santé par des méthodes de modélisation multivariées. L'étude porte principalement sur diverses méthodes basées sur le plan d'échantillonnage ou basées sur un modèle qui visent à tenir compte de la complexité du plan d'échantillonnage, y compris la mise en grappes, la stratification et la pondération. Les méthodes étudiées incluent la modélisation linéaire généralisée fondée sur la pseudo-méthode de vraisemblance et les équations d'estimations généralisées, les modèles linéaires mixtes estimés par le maximum de vraisemblance restreint et les techniques hiérarchiques bayesiennes basées sur les méthodes de simulation de Monte Carlo d'une chaîne de Markov (MCMC). On compare empiriquement les méthodes sur des données provenant d'une grande enquête comprenant une interview sur la santé et un examen physique réalisés en Finlande en 2000 (Health 2000 Study).

    Les données de la Health 2000 Study ont été recueillies au moyen d'interviews sur place, de questionnaires et d'examens cliniques. L'enquête a été réalisée auprès d'un échantillon en grappes stratifié à deux degrés. Le plan d'échantillonnage comportait des corrélations intra grappes positives pour nombre de variables étudiées. En vue d'une étude plus approfondie, on a choisi un petit nombre de variables tirées des volets de l'interview sur la santé et de l'examen clinique. Dans de nombreux cas, les diverses méthodes ont produit des résultats numériques comparables et appuyés des conclusions statistiques similaires. Celles qui ne tenaient pas compte de la complexité du plan d'échantillonnage ont parfois produit des conclusions contradictoires. On discute aussi de l'application des méthodes lors de l'utilisation de logiciels statistiques standards.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016712
    Description :

    Dans cet article, on considère l'effet de la censure par intervalle du moment du renoncement sur l'estimation des paramètres d'intensité en ce qui concerne le renoncement au tabac et la grossesse. Les données recueillies lors des trois cycles de l'Enquête nationale sur la santé de la population permettent d'appliquer les méthodes d'analyse de la chronologie des événements à l'étude du commencement de l'usage du tabac, du renoncement au tabac et de la rechute. L'une des questions étudiées est la relation entre le renoncement au tabac et la grossesse. Si une répondante longitudinale qui fumait lors du premier cycle a cessé de fumer lors du deuxième, on connaît le moment du renoncement au tabac à plus ou moins un an près, puisqu'on demande à la répondante l'âge auquel elle a cessé de fumer et qu'on connaît sa date de naissance. On sait également si elle était enceinte au moment du deuxième cycle et si elle a donné naissance depuis l'interview du premier cycle. Pour de nombreux sujets, on connaît la date de conception à un intervalle de temps près assez faible. Si l'on connaissait exactement le moment du renoncement au tabac et la période de la grossesse pour chaque membre du panel longitudinal qui a vécu l'un ou l'autre de ces événements entre deux cycles, on pourrait modéliser leur lien temporel d'après leurs intensités.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016714
    Description :

    Dans cet article de nature très technique, on illustre l'application de la méthode de l'estimateur de la variance par le jackknife avec suppression d'un groupe à une étude longitudinale complexe à plusieurs cycles, montrant son utilité pour les modèles de régression linéaire et d'autres modèles analytiques. L'estimateur de la variance par le jackknife avec suppression d'un groupe représente un outil fort utile de mesure de la variance en cas de plan d'échantillonnage complexe. Cette méthode consiste à : diviser l'échantillon de premier degré en groupes mutuellement exclusifs et de variances presque égales; supprimer un groupe à la fois pour créer un ensemble de répétitions; procéder, sur chaque répétition, à des redressements par pondération analogues à ceux effectués sur l'échantillon dans son ensemble. L'estimation de la variance se fait selon la méthode usuelle (non stratifiée) du jackknife.

    On applique la méthode au Chicago Health and Aging Project (CHAP), une étude longitudinale communautaire visant à examiner les facteurs de risque de problèmes de santé chroniques chez les personnes âgées. L'un des objectifs importants de l'étude est d'examiner les facteurs de risque de la manifestation de la maladie d'Alzheimer. Le plan de sondage courant du CHAP comprend deux composantes : (1) Tous les trois ans, l'ensemble des membres survivants de la cohorte sont interviewés sur divers sujets liés à la santé. Ces interviews incluent des mesures des fonctions cognitives et physiques. (2) Durant chaque cycle de collecte des données, un échantillon de Poisson stratifié est sélectionné parmi les répondants à l'interview couvrant la population dans son ensemble afin de procéder à un examen clinique détaillé et à des tests neuropsychologiques. Pour étudier les facteurs de risque liés aux nouveaux cas de maladie, on définit une cohorte de personnes « exemptes de la maladie » au point précédent dans le temps et celle-ci forme une strate importante dans la base de sondage.

    On donne des preuves de l'applicabilité théorique du jackknife avec suppression d'un groupe à des estimateurs particuliers dans les conditions de cet échantillonnage de Poisson, en accordant l'attention nécessaire à la distinction entre l'inférence en population finie et en population infinie (modèle). En outre, on examine le problème de la détermination du « nombre correct » des groupes de variance.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016719
    Description :

    Dans cette étude, on examine les méthodes de modélisation utilisées pour les données sur la santé publique. Les spécialistes de la santé publique manifestent un regain d'intérêt pour l'étude des effets de l'environnement sur la santé. Idéalement, les études écologiques ou contextuelles explorent ces liens au moyen de données sur la santé publique étoffées de données sur les caractéristiques environnementales à l'aide de modèles multiniveaux ou hiérarchiques. Dans ces modèles, le premier niveau correspond aux données des personnes sur la santé et le deuxième, aux données des collectivités. La plupart des données sur la santé publique proviennent d'enquêtes à plan d'échantillonnage complexe qui obligent, lors de l'analyse, à tenir compte de la mise en grappes, de la non-réponse et de la post-stratification pour obtenir des estimations représentatives de la prévalence des comportements posant un risque pour la santé.

    Cette étude est basée sur le Behavioral Risk Factor Surveillance System (BRFSS). Il s'agit d'un système américain de surveillance des facteurs de risque pour la santé selon l'État exploité par les Centers for Disease Control and Prevention en vue d'évaluer chaque année les facteurs de risque pour la santé chez plus de 200 000 adultes. Les données du BRFSS sont maintenant produites à l'échelle de la région métropolitaine statistique (MSA pour metropolitan statistical area) et fournissent des données de qualité sur la santé pour les études des effets de l'environnement. Les exigences conjuguées du plan d'échantillonnage et des analyses à plusieurs niveaux compliquent encore davantage les analyses à l'échelle de la MSA combinant les données sur la santé et sur l'environnement.

    On compare trois méthodes de modélisation dans le cadre d'une étude sur l'activité physique et certains facteurs environnementaux à l'aide de données du BRFSS de 2000. Chaque méthode décrite ici est un moyen valide d'analyser des données d'enquête à plan d'échantillonnage complexe complétées de données environnementales, quoique chacune tienne compte de façon différente du plan d'échantillonnage et de la structure multiniveau des données. Ces méthodes conviennent donc à l'étude de questions légèrement différentes.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016723
    Description :

    Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.

    La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016724
    Description :

    Certains des modèles statistiques utilisés le plus fréquemment sont ajustés par la méthode du maximum de vraisemblance (ML, pour « maximum likelihood ») ou une extension de cette dernière. La commande « ML » de Stata fournit aux chercheurs et aux analystes un outil qui leur permet de développer des commandes d'estimations en vue d'ajuster leurs modèles en se servant de leurs propres données. Ces modèles peuvent inclure des équations multiples, des observations sur grappes, des poids d'échantillonnage et d'autres caractéristiques du plan de sondage. Tous ces éléments sont examinés dans le cadre de cet article.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016728
    Description :

    On recueille les données de presque toutes les enquêtes selon un plan d'échantillonnage complexe et on les utilise souvent pour effectuer des analyses statistiques allant plus loin que l'estimation de simples paramètres descriptifs de la population cible. Nombre de procédures offertes par les progiciels statistiques les plus utilisés ne conviennent pas pour cette tâche, car les analyses sont fondées sur l'hypothèse qu'on a procédé à un échantillonnage aléatoire simple. Par conséquent, les résultats ne sont pas valides en cas d'échantillonnage à plusieurs degrés, de stratification ou de mise en grappes. Deux méthodes utilisées couramment pour analyser les données d'enquêtes complexes sont les techniques de rééchantillonnage (répétitions) et de linéarisation de Taylor. Cet article traite de l'utilisation du logiciel WesVar pour calculer des estimations et pour produire des estimations répétées de la variance en reflétant correctement l'échantillonnage complexe et les méthodes d'estimation. On illustre aussi les caractéristiques de WesVar à l'aide de données provenant de deux enquêtes réalisées par Westat basées sur des plans d'échantillonnage complexes, à savoir la Third International Mathematics and Science Study (TIMSS) et la National Health and Nutrition Examination Survey (NHANES).

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13
Références (2)

Références (2) ((2 résultats))

  • Enquêtes et programmes statistiques — Documentation : 81-595-M2004020
    Géographie : Canada
    Description :

    Dans cet article, on fournit des renseignements concernant la collecte et l'interprétation des données statistiques sur le commerce international de biens de la culture du Canada. On y définit les produits qui sont inclus dans le commerce de la culture, et on explique comment les produits appropriés sont sélectionnés parmi les normes de classification pertinentes.

    Cette version a été remplacée par Guide d'utilisation des données du commerce des biens de la culture, no. 81-595-MIF2006040 au catalogue.

    Date de diffusion : 2004-07-28

  • Enquêtes et programmes statistiques — Documentation : 92-388-X
    Description :

    Ce rapport technique présente des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la profession. Il donne un aperçu des activités de collecte, de codage (selon la Classification nationale des professions pour statistiques de 2001), de contrôle et d'imputation des données sur la profession du recensement de 2001 ainsi qu'une description des changements apportés aux procédures du recensement de 2001 par rapport à celles des recensements précédents. Le rapport fournit également une analyse du degré de qualité des données du recensement de 2001 sur la profession et donne une description des modifications apportées à la Classification type des professions de 1991 utilisée lors des recensements de 1991 et de 1996 en vue d'établir la Classification nationale des professions pour statistiques de 2001 (CNP-S 2001), utilisée pour le recensement de 2001. Le rapport traite également de la comparabilité dans le temps des données codées selon ces deux classifications. Les annexes renferment un tableau présentant les données chronologiques des recensements de 1991, 1996 et 2001.

    Date de diffusion : 2004-07-15
Date de modification :