Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 1 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (5)

Tout (5) ((5 résultats))

  • Articles et rapports : 12-001-X202300100002
    Description : Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage assisté par un modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle est fondée sur une application nouvelle de la projection d’information et de la pondération par calage du modèle. La méthode proposée est particulièrement intéressante pour combiner des renseignements de plusieurs sources présentant différentes tendances en matière de données manquantes. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de l'enquête KNHANES (enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du NHISS (service national coréen de partage de l’assurance maladie).
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200100007
    Description :

    Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

    Date de diffusion : 2022-06-21

  • Stats en bref : 89-20-00062022001
    Description :

    La collecte, l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles de la production de renseignements qui profitent à la société, à l’économie et à l’environnement. Pour mener à bien ces processus, l'éthique des données doivent être assumées afin de garantir une utilisation appropriée des données.

    Date de diffusion : 2022-05-24

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (5)

Analyses (5) ((5 résultats))

  • Articles et rapports : 12-001-X202300100002
    Description : Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage assisté par un modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle est fondée sur une application nouvelle de la projection d’information et de la pondération par calage du modèle. La méthode proposée est particulièrement intéressante pour combiner des renseignements de plusieurs sources présentant différentes tendances en matière de données manquantes. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de l'enquête KNHANES (enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du NHISS (service national coréen de partage de l’assurance maladie).
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200100007
    Description :

    Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

    Date de diffusion : 2022-06-21

  • Stats en bref : 89-20-00062022001
    Description :

    La collecte, l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles de la production de renseignements qui profitent à la société, à l’économie et à l’environnement. Pour mener à bien ces processus, l'éthique des données doivent être assumées afin de garantir une utilisation appropriée des données.

    Date de diffusion : 2022-05-24

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :