Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (6)

Tout (6) ((6 résultats))

  • Articles et rapports : 12-001-X199300214459
    Description :

    On appelle couplage d’enregistrements l’appariement d’enregistrements contenant des données sur des particuliers, des entreprises ou des logements quand on ne dispose pas d’un identificateur unique. Les méthodes utilisées, en pratique, comportent la classification de paires d’enregistrements, comme constituant des liens ou des non-liens, à l’aide d’une procédure automatisée basée sur le modèle théorique présenté par Fellegi et Sunter (1969). L’estimation des taux d’erreur de classification constitue un problème important. Fellegi et Sunter présentent une méthode, afin de calculer des estimations des taux d’erreur de classification, qui découle directement du couplage. Ces estimations faites à l’aide de modèles sont plus faciles à produire que celles obtenues par appariement manuel d’échantillons, méthode généralement utilisée en pratique. Les propriétés des estimations du taux d’erreur de classification fondées sur un modèle, obtenues au moyen de trois estimateurs de paramètre de modèle, sont comparées.

    Date de diffusion : 1993-12-15

  • Articles et rapports : 12-001-X199300114475
    Description :

    Lorsqu’on crée des bases de données de microsimulation, souvent utilisées dans la planification et l’analyse des politiques, on combine plusieurs fichiers de données par des techniques d’appariement statistique afin d’enrichir le fichier receveur. Or, pour effectuer cette opération, il faut poser l’hypothèse de l’indépendance conditionnelle (HIC), ce qui peut fausser sérieusement les relations conjointes entre les variables. On peut éviter de poser cette hypothèse en utilisant des informations supplémentaires appropriées. Dans cet article, nous examinons des méthodes d’appariement statistique qui correspondent à trois méthodes d’imputation - par régression, hot-deck et log-linéaire - appliquées suivant deux scénarios : avec et sans information supplémentaire. La méthode d’imputation log-linéaire consiste essentiellement à introduire des contraintes nominales dans la méthode par régression ou la méthode hot-deck. À partir d’une vaste étude de simulation faite avec des données fictives, nous exécutons des analyses de sensibilité lorsque l’on s’éloigne de l’HIC et nous étudions les gains qui peuvent découler de l’utilisation d’informations supplémentaires. À l’aide de données fictives, nous créons différents scénarios relatifs à la distribution et aux relations des variables pertinentes, par exemple distribution symétrique vs. distribution asymétrique et données supplémentaires substitutives vs. données supplémentaires non substitutives. Nous faisons aussi quelques recommandations sur l’utilisation des méthodes d’appariement statistique. Notre étude confirme particulièrement que l’HIC peut représenter une contrainte sérieuse, que l’on peut éliminer en utilisant des informations supplémentaires appropriées. L’étude montre aussi que les méthodes hot-deck sont généralement préférables aux méthodes de régression. De plus, lorsqu’on dispose d’informations supplémentaires, les contraintes nominales log-linéaires peuvent accroître l’efficacité des méthodes hot-deck. L’idée de cette étude est née des préoccupations que l’on avait sur l’utilisation de l’HIC dans la construction de la Base de données de simulation des politiques sociales à Statistique Canada.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114476
    Description :

    Le présent article s’intéresse à la façon de traiter les erreurs de couplage d’enregistrements lorsqu’on effectue une analyse de régression. Des travaux récents de Rubin et Belin (1991) et de Winkler et Thibaudeau (1991) fournissent la théorie, les algorithmes de calcul et le logiciel nécessaires à l’estimation des probabilités de concordance. Ces progrès nous permettent de mettre à jour les travaux de Neter, Maynes et Ramanathan (1965). Des méthodes de redressement sont présentées, et certaines simulations fructueuses sont décrites. Nos résultats sont préliminaires et visent en grande partie à susciter d’autres travaux.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114477
    Description :

    Dans un processus de couplage d’enregistrements, des enregistrements provenant de deux fichiers sont réunis en paires, formées d’un enregistrement de chacun des fichiers, à des fins de comparaison. Chaque enregistrement représente un individu. Une paire ainsi formée est une « concordance » si les deux enregistrements représentent le même individu. Une paire est une « non-concordance » si les deux enregistrements ne représentent pas le même individu. Le processus de couplage d’enregistrements repose sur un processus probabiliste. Une règle de couplage déduit l’état (concordance ou non) de chaque paire d’enregistrements d’après la valeur de la comparaison. La paire est déclarée un « lien » si une concordance est déduite, et un « non-lien » si une non-concordance est déduite. Le pouvoir discriminant d’une règle de couplage est la capacité de la règle de désigner un nombre maximum de concordances comme des liens, tout en gardant au minimum le taux de non-concordances désignées comme des liens. En général, pour construire une règle de couplage discriminante, il faut faire certaines hypothèses quant à la structure du processus probabiliste sous-jacent. Dans la majorité de la documentation existante, il est supposé que le processus probabiliste sous-jacent est une manifestation du modèle à classes latentes avec indépendance conditionnelle. Toutefois, dans bien des situations, cette hypothèse est fausse. En fait, de nombreux processus probabilistes sous-jacents n’affichent pas les caractéristiques clés associées aux modèles à classes latentes avec indépendance conditionnelle. Cette communication présente des modèles plus généraux. En particulier des modèles à classes latentes avec liens de dépendance sont étudiés, et nous montrons comment ils peuvent améliorer le pouvoir discriminant de règles de couplage particulières.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114478
    Description :

    Le couplage d’enregistrements désigne une technique algorithmique qui sert à identifier des paires d’enregistrements ayant trait au même individu dans des fichiers distincts. Dans cet article, nous étudions un modèle destiné à évaluer les sources de variation dans le couplage d’enregistrements en comparant ce procédé à une « boîte noire » qui reçoit des données d’entrée et restitue un produit (un ensemble de concordances désignées, c.-à-d. de paires dont les éléments représentent la même entité) qui a certaines caractéristiques. Nous illustrons nos propos au moyen d’une expérience factorielle dans laquelle nous nous servons de données du recensement et d’enquêtes postcensitaires afin d’évaluer l’influence de divers facteurs qui sont réputés pour réduire la fiabilité du procédé. Avec ce cadre expérimental, l’évaluation du couplage d’enregistrements devient un problème statistique comme les autres. L’étude permet de répondre à plusieurs questions de recherche et nous prétendons qu’il est essentiel de recourir à des méthodes expérimentales comme celle proposée ici si l’on veut mieux comprendre les sources d’erreur qui interviennent dans les techniques de couplage d’enregistrements.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114479
    Description :

    Les études épidémiologiques qui visent à étudier le rapport entre les risques environnementaux et l’état de santé comptent beaucoup sur l’appariement d’enregistrements de bases de données administratives différentes. Par des algorithmes complexes de couplage d’enregistrements appliqués à de grandes bases de données, on peut évaluer la possibilité d’un appariement de deux enregistrements particuliers en se fondant sur la comparaison d’une ou de plusieurs variables d’identification dans ces enregistrements. Puisque les erreurs d’appariement sont inévitables, il faut pouvoir tenir compte de leur effet sur les inférences statistiques faites à partir des fichiers couplés. Cet article donne un aperçu de la méthodologie utilisée pour le couplage d’enregistrements et traite les questions statistiques qui se rattachent aux erreurs de couplage.

    Date de diffusion : 1993-06-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (6)

Analyses (6) ((6 résultats))

  • Articles et rapports : 12-001-X199300214459
    Description :

    On appelle couplage d’enregistrements l’appariement d’enregistrements contenant des données sur des particuliers, des entreprises ou des logements quand on ne dispose pas d’un identificateur unique. Les méthodes utilisées, en pratique, comportent la classification de paires d’enregistrements, comme constituant des liens ou des non-liens, à l’aide d’une procédure automatisée basée sur le modèle théorique présenté par Fellegi et Sunter (1969). L’estimation des taux d’erreur de classification constitue un problème important. Fellegi et Sunter présentent une méthode, afin de calculer des estimations des taux d’erreur de classification, qui découle directement du couplage. Ces estimations faites à l’aide de modèles sont plus faciles à produire que celles obtenues par appariement manuel d’échantillons, méthode généralement utilisée en pratique. Les propriétés des estimations du taux d’erreur de classification fondées sur un modèle, obtenues au moyen de trois estimateurs de paramètre de modèle, sont comparées.

    Date de diffusion : 1993-12-15

  • Articles et rapports : 12-001-X199300114475
    Description :

    Lorsqu’on crée des bases de données de microsimulation, souvent utilisées dans la planification et l’analyse des politiques, on combine plusieurs fichiers de données par des techniques d’appariement statistique afin d’enrichir le fichier receveur. Or, pour effectuer cette opération, il faut poser l’hypothèse de l’indépendance conditionnelle (HIC), ce qui peut fausser sérieusement les relations conjointes entre les variables. On peut éviter de poser cette hypothèse en utilisant des informations supplémentaires appropriées. Dans cet article, nous examinons des méthodes d’appariement statistique qui correspondent à trois méthodes d’imputation - par régression, hot-deck et log-linéaire - appliquées suivant deux scénarios : avec et sans information supplémentaire. La méthode d’imputation log-linéaire consiste essentiellement à introduire des contraintes nominales dans la méthode par régression ou la méthode hot-deck. À partir d’une vaste étude de simulation faite avec des données fictives, nous exécutons des analyses de sensibilité lorsque l’on s’éloigne de l’HIC et nous étudions les gains qui peuvent découler de l’utilisation d’informations supplémentaires. À l’aide de données fictives, nous créons différents scénarios relatifs à la distribution et aux relations des variables pertinentes, par exemple distribution symétrique vs. distribution asymétrique et données supplémentaires substitutives vs. données supplémentaires non substitutives. Nous faisons aussi quelques recommandations sur l’utilisation des méthodes d’appariement statistique. Notre étude confirme particulièrement que l’HIC peut représenter une contrainte sérieuse, que l’on peut éliminer en utilisant des informations supplémentaires appropriées. L’étude montre aussi que les méthodes hot-deck sont généralement préférables aux méthodes de régression. De plus, lorsqu’on dispose d’informations supplémentaires, les contraintes nominales log-linéaires peuvent accroître l’efficacité des méthodes hot-deck. L’idée de cette étude est née des préoccupations que l’on avait sur l’utilisation de l’HIC dans la construction de la Base de données de simulation des politiques sociales à Statistique Canada.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114476
    Description :

    Le présent article s’intéresse à la façon de traiter les erreurs de couplage d’enregistrements lorsqu’on effectue une analyse de régression. Des travaux récents de Rubin et Belin (1991) et de Winkler et Thibaudeau (1991) fournissent la théorie, les algorithmes de calcul et le logiciel nécessaires à l’estimation des probabilités de concordance. Ces progrès nous permettent de mettre à jour les travaux de Neter, Maynes et Ramanathan (1965). Des méthodes de redressement sont présentées, et certaines simulations fructueuses sont décrites. Nos résultats sont préliminaires et visent en grande partie à susciter d’autres travaux.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114477
    Description :

    Dans un processus de couplage d’enregistrements, des enregistrements provenant de deux fichiers sont réunis en paires, formées d’un enregistrement de chacun des fichiers, à des fins de comparaison. Chaque enregistrement représente un individu. Une paire ainsi formée est une « concordance » si les deux enregistrements représentent le même individu. Une paire est une « non-concordance » si les deux enregistrements ne représentent pas le même individu. Le processus de couplage d’enregistrements repose sur un processus probabiliste. Une règle de couplage déduit l’état (concordance ou non) de chaque paire d’enregistrements d’après la valeur de la comparaison. La paire est déclarée un « lien » si une concordance est déduite, et un « non-lien » si une non-concordance est déduite. Le pouvoir discriminant d’une règle de couplage est la capacité de la règle de désigner un nombre maximum de concordances comme des liens, tout en gardant au minimum le taux de non-concordances désignées comme des liens. En général, pour construire une règle de couplage discriminante, il faut faire certaines hypothèses quant à la structure du processus probabiliste sous-jacent. Dans la majorité de la documentation existante, il est supposé que le processus probabiliste sous-jacent est une manifestation du modèle à classes latentes avec indépendance conditionnelle. Toutefois, dans bien des situations, cette hypothèse est fausse. En fait, de nombreux processus probabilistes sous-jacents n’affichent pas les caractéristiques clés associées aux modèles à classes latentes avec indépendance conditionnelle. Cette communication présente des modèles plus généraux. En particulier des modèles à classes latentes avec liens de dépendance sont étudiés, et nous montrons comment ils peuvent améliorer le pouvoir discriminant de règles de couplage particulières.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114478
    Description :

    Le couplage d’enregistrements désigne une technique algorithmique qui sert à identifier des paires d’enregistrements ayant trait au même individu dans des fichiers distincts. Dans cet article, nous étudions un modèle destiné à évaluer les sources de variation dans le couplage d’enregistrements en comparant ce procédé à une « boîte noire » qui reçoit des données d’entrée et restitue un produit (un ensemble de concordances désignées, c.-à-d. de paires dont les éléments représentent la même entité) qui a certaines caractéristiques. Nous illustrons nos propos au moyen d’une expérience factorielle dans laquelle nous nous servons de données du recensement et d’enquêtes postcensitaires afin d’évaluer l’influence de divers facteurs qui sont réputés pour réduire la fiabilité du procédé. Avec ce cadre expérimental, l’évaluation du couplage d’enregistrements devient un problème statistique comme les autres. L’étude permet de répondre à plusieurs questions de recherche et nous prétendons qu’il est essentiel de recourir à des méthodes expérimentales comme celle proposée ici si l’on veut mieux comprendre les sources d’erreur qui interviennent dans les techniques de couplage d’enregistrements.

    Date de diffusion : 1993-06-15

  • Articles et rapports : 12-001-X199300114479
    Description :

    Les études épidémiologiques qui visent à étudier le rapport entre les risques environnementaux et l’état de santé comptent beaucoup sur l’appariement d’enregistrements de bases de données administratives différentes. Par des algorithmes complexes de couplage d’enregistrements appliqués à de grandes bases de données, on peut évaluer la possibilité d’un appariement de deux enregistrements particuliers en se fondant sur la comparaison d’une ou de plusieurs variables d’identification dans ces enregistrements. Puisque les erreurs d’appariement sont inévitables, il faut pouvoir tenir compte de leur effet sur les inférences statistiques faites à partir des fichiers couplés. Cet article donne un aperçu de la méthodologie utilisée pour le couplage d’enregistrements et traite les questions statistiques qui se rattachent aux erreurs de couplage.

    Date de diffusion : 1993-06-15
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :