Techniques statistiques
Filtrer les résultats par
Aide à la rechercheMot(s)-clé(s)
Résultats
Tout (6)
Tout (6) ((6 résultats))
- Articles et rapports : 12-001-X199300214459Description :
On appelle couplage d’enregistrements l’appariement d’enregistrements contenant des données sur des particuliers, des entreprises ou des logements quand on ne dispose pas d’un identificateur unique. Les méthodes utilisées, en pratique, comportent la classification de paires d’enregistrements, comme constituant des liens ou des non-liens, à l’aide d’une procédure automatisée basée sur le modèle théorique présenté par Fellegi et Sunter (1969). L’estimation des taux d’erreur de classification constitue un problème important. Fellegi et Sunter présentent une méthode, afin de calculer des estimations des taux d’erreur de classification, qui découle directement du couplage. Ces estimations faites à l’aide de modèles sont plus faciles à produire que celles obtenues par appariement manuel d’échantillons, méthode généralement utilisée en pratique. Les propriétés des estimations du taux d’erreur de classification fondées sur un modèle, obtenues au moyen de trois estimateurs de paramètre de modèle, sont comparées.
Date de diffusion : 1993-12-15 - Articles et rapports : 12-001-X199300114475Description :
Lorsqu’on crée des bases de données de microsimulation, souvent utilisées dans la planification et l’analyse des politiques, on combine plusieurs fichiers de données par des techniques d’appariement statistique afin d’enrichir le fichier receveur. Or, pour effectuer cette opération, il faut poser l’hypothèse de l’indépendance conditionnelle (HIC), ce qui peut fausser sérieusement les relations conjointes entre les variables. On peut éviter de poser cette hypothèse en utilisant des informations supplémentaires appropriées. Dans cet article, nous examinons des méthodes d’appariement statistique qui correspondent à trois méthodes d’imputation - par régression, hot-deck et log-linéaire - appliquées suivant deux scénarios : avec et sans information supplémentaire. La méthode d’imputation log-linéaire consiste essentiellement à introduire des contraintes nominales dans la méthode par régression ou la méthode hot-deck. À partir d’une vaste étude de simulation faite avec des données fictives, nous exécutons des analyses de sensibilité lorsque l’on s’éloigne de l’HIC et nous étudions les gains qui peuvent découler de l’utilisation d’informations supplémentaires. À l’aide de données fictives, nous créons différents scénarios relatifs à la distribution et aux relations des variables pertinentes, par exemple distribution symétrique vs. distribution asymétrique et données supplémentaires substitutives vs. données supplémentaires non substitutives. Nous faisons aussi quelques recommandations sur l’utilisation des méthodes d’appariement statistique. Notre étude confirme particulièrement que l’HIC peut représenter une contrainte sérieuse, que l’on peut éliminer en utilisant des informations supplémentaires appropriées. L’étude montre aussi que les méthodes hot-deck sont généralement préférables aux méthodes de régression. De plus, lorsqu’on dispose d’informations supplémentaires, les contraintes nominales log-linéaires peuvent accroître l’efficacité des méthodes hot-deck. L’idée de cette étude est née des préoccupations que l’on avait sur l’utilisation de l’HIC dans la construction de la Base de données de simulation des politiques sociales à Statistique Canada.
Date de diffusion : 1993-06-15 - Articles et rapports : 12-001-X199300114476Description :
Le présent article s’intéresse à la façon de traiter les erreurs de couplage d’enregistrements lorsqu’on effectue une analyse de régression. Des travaux récents de Rubin et Belin (1991) et de Winkler et Thibaudeau (1991) fournissent la théorie, les algorithmes de calcul et le logiciel nécessaires à l’estimation des probabilités de concordance. Ces progrès nous permettent de mettre à jour les travaux de Neter, Maynes et Ramanathan (1965). Des méthodes de redressement sont présentées, et certaines simulations fructueuses sont décrites. Nos résultats sont préliminaires et visent en grande partie à susciter d’autres travaux.
Date de diffusion : 1993-06-15 - Articles et rapports : 12-001-X199300114477Description :
Dans un processus de couplage d’enregistrements, des enregistrements provenant de deux fichiers sont réunis en paires, formées d’un enregistrement de chacun des fichiers, à des fins de comparaison. Chaque enregistrement représente un individu. Une paire ainsi formée est une « concordance » si les deux enregistrements représentent le même individu. Une paire est une « non-concordance » si les deux enregistrements ne représentent pas le même individu. Le processus de couplage d’enregistrements repose sur un processus probabiliste. Une règle de couplage déduit l’état (concordance ou non) de chaque paire d’enregistrements d’après la valeur de la comparaison. La paire est déclarée un « lien » si une concordance est déduite, et un « non-lien » si une non-concordance est déduite. Le pouvoir discriminant d’une règle de couplage est la capacité de la règle de désigner un nombre maximum de concordances comme des liens, tout en gardant au minimum le taux de non-concordances désignées comme des liens. En général, pour construire une règle de couplage discriminante, il faut faire certaines hypothèses quant à la structure du processus probabiliste sous-jacent. Dans la majorité de la documentation existante, il est supposé que le processus probabiliste sous-jacent est une manifestation du modèle à classes latentes avec indépendance conditionnelle. Toutefois, dans bien des situations, cette hypothèse est fausse. En fait, de nombreux processus probabilistes sous-jacents n’affichent pas les caractéristiques clés associées aux modèles à classes latentes avec indépendance conditionnelle. Cette communication présente des modèles plus généraux. En particulier des modèles à classes latentes avec liens de dépendance sont étudiés, et nous montrons comment ils peuvent améliorer le pouvoir discriminant de règles de couplage particulières.
Date de diffusion : 1993-06-15 - Articles et rapports : 12-001-X199300114478Description :
Le couplage d’enregistrements désigne une technique algorithmique qui sert à identifier des paires d’enregistrements ayant trait au même individu dans des fichiers distincts. Dans cet article, nous étudions un modèle destiné à évaluer les sources de variation dans le couplage d’enregistrements en comparant ce procédé à une « boîte noire » qui reçoit des données d’entrée et restitue un produit (un ensemble de concordances désignées, c.-à-d. de paires dont les éléments représentent la même entité) qui a certaines caractéristiques. Nous illustrons nos propos au moyen d’une expérience factorielle dans laquelle nous nous servons de données du recensement et d’enquêtes postcensitaires afin d’évaluer l’influence de divers facteurs qui sont réputés pour réduire la fiabilité du procédé. Avec ce cadre expérimental, l’évaluation du couplage d’enregistrements devient un problème statistique comme les autres. L’étude permet de répondre à plusieurs questions de recherche et nous prétendons qu’il est essentiel de recourir à des méthodes expérimentales comme celle proposée ici si l’on veut mieux comprendre les sources d’erreur qui interviennent dans les techniques de couplage d’enregistrements.
Date de diffusion : 1993-06-15 - 6. Évaluation des taux d’erreur dans de grandes études par couplage d’enregistrements informatisé ArchivéArticles et rapports : 12-001-X199300114479Description :
Les études épidémiologiques qui visent à étudier le rapport entre les risques environnementaux et l’état de santé comptent beaucoup sur l’appariement d’enregistrements de bases de données administratives différentes. Par des algorithmes complexes de couplage d’enregistrements appliqués à de grandes bases de données, on peut évaluer la possibilité d’un appariement de deux enregistrements particuliers en se fondant sur la comparaison d’une ou de plusieurs variables d’identification dans ces enregistrements. Puisque les erreurs d’appariement sont inévitables, il faut pouvoir tenir compte de leur effet sur les inférences statistiques faites à partir des fichiers couplés. Cet article donne un aperçu de la méthodologie utilisée pour le couplage d’enregistrements et traite les questions statistiques qui se rattachent aux erreurs de couplage.
Date de diffusion : 1993-06-15
Données (0)
Données (0) (0 résultat)
Aucun contenu disponible actuellement
Analyses (6)
Analyses (6) ((6 résultats))
- Articles et rapports : 12-001-X199300214459Description :
On appelle couplage d’enregistrements l’appariement d’enregistrements contenant des données sur des particuliers, des entreprises ou des logements quand on ne dispose pas d’un identificateur unique. Les méthodes utilisées, en pratique, comportent la classification de paires d’enregistrements, comme constituant des liens ou des non-liens, à l’aide d’une procédure automatisée basée sur le modèle théorique présenté par Fellegi et Sunter (1969). L’estimation des taux d’erreur de classification constitue un problème important. Fellegi et Sunter présentent une méthode, afin de calculer des estimations des taux d’erreur de classification, qui découle directement du couplage. Ces estimations faites à l’aide de modèles sont plus faciles à produire que celles obtenues par appariement manuel d’échantillons, méthode généralement utilisée en pratique. Les propriétés des estimations du taux d’erreur de classification fondées sur un modèle, obtenues au moyen de trois estimateurs de paramètre de modèle, sont comparées.
Date de diffusion : 1993-12-15 - Articles et rapports : 12-001-X199300114475Description :
Lorsqu’on crée des bases de données de microsimulation, souvent utilisées dans la planification et l’analyse des politiques, on combine plusieurs fichiers de données par des techniques d’appariement statistique afin d’enrichir le fichier receveur. Or, pour effectuer cette opération, il faut poser l’hypothèse de l’indépendance conditionnelle (HIC), ce qui peut fausser sérieusement les relations conjointes entre les variables. On peut éviter de poser cette hypothèse en utilisant des informations supplémentaires appropriées. Dans cet article, nous examinons des méthodes d’appariement statistique qui correspondent à trois méthodes d’imputation - par régression, hot-deck et log-linéaire - appliquées suivant deux scénarios : avec et sans information supplémentaire. La méthode d’imputation log-linéaire consiste essentiellement à introduire des contraintes nominales dans la méthode par régression ou la méthode hot-deck. À partir d’une vaste étude de simulation faite avec des données fictives, nous exécutons des analyses de sensibilité lorsque l’on s’éloigne de l’HIC et nous étudions les gains qui peuvent découler de l’utilisation d’informations supplémentaires. À l’aide de données fictives, nous créons différents scénarios relatifs à la distribution et aux relations des variables pertinentes, par exemple distribution symétrique vs. distribution asymétrique et données supplémentaires substitutives vs. données supplémentaires non substitutives. Nous faisons aussi quelques recommandations sur l’utilisation des méthodes d’appariement statistique. Notre étude confirme particulièrement que l’HIC peut représenter une contrainte sérieuse, que l’on peut éliminer en utilisant des informations supplémentaires appropriées. L’étude montre aussi que les méthodes hot-deck sont généralement préférables aux méthodes de régression. De plus, lorsqu’on dispose d’informations supplémentaires, les contraintes nominales log-linéaires peuvent accroître l’efficacité des méthodes hot-deck. L’idée de cette étude est née des préoccupations que l’on avait sur l’utilisation de l’HIC dans la construction de la Base de données de simulation des politiques sociales à Statistique Canada.
Date de diffusion : 1993-06-15 - Articles et rapports : 12-001-X199300114476Description :
Le présent article s’intéresse à la façon de traiter les erreurs de couplage d’enregistrements lorsqu’on effectue une analyse de régression. Des travaux récents de Rubin et Belin (1991) et de Winkler et Thibaudeau (1991) fournissent la théorie, les algorithmes de calcul et le logiciel nécessaires à l’estimation des probabilités de concordance. Ces progrès nous permettent de mettre à jour les travaux de Neter, Maynes et Ramanathan (1965). Des méthodes de redressement sont présentées, et certaines simulations fructueuses sont décrites. Nos résultats sont préliminaires et visent en grande partie à susciter d’autres travaux.
Date de diffusion : 1993-06-15 - Articles et rapports : 12-001-X199300114477Description :
Dans un processus de couplage d’enregistrements, des enregistrements provenant de deux fichiers sont réunis en paires, formées d’un enregistrement de chacun des fichiers, à des fins de comparaison. Chaque enregistrement représente un individu. Une paire ainsi formée est une « concordance » si les deux enregistrements représentent le même individu. Une paire est une « non-concordance » si les deux enregistrements ne représentent pas le même individu. Le processus de couplage d’enregistrements repose sur un processus probabiliste. Une règle de couplage déduit l’état (concordance ou non) de chaque paire d’enregistrements d’après la valeur de la comparaison. La paire est déclarée un « lien » si une concordance est déduite, et un « non-lien » si une non-concordance est déduite. Le pouvoir discriminant d’une règle de couplage est la capacité de la règle de désigner un nombre maximum de concordances comme des liens, tout en gardant au minimum le taux de non-concordances désignées comme des liens. En général, pour construire une règle de couplage discriminante, il faut faire certaines hypothèses quant à la structure du processus probabiliste sous-jacent. Dans la majorité de la documentation existante, il est supposé que le processus probabiliste sous-jacent est une manifestation du modèle à classes latentes avec indépendance conditionnelle. Toutefois, dans bien des situations, cette hypothèse est fausse. En fait, de nombreux processus probabilistes sous-jacents n’affichent pas les caractéristiques clés associées aux modèles à classes latentes avec indépendance conditionnelle. Cette communication présente des modèles plus généraux. En particulier des modèles à classes latentes avec liens de dépendance sont étudiés, et nous montrons comment ils peuvent améliorer le pouvoir discriminant de règles de couplage particulières.
Date de diffusion : 1993-06-15 - Articles et rapports : 12-001-X199300114478Description :
Le couplage d’enregistrements désigne une technique algorithmique qui sert à identifier des paires d’enregistrements ayant trait au même individu dans des fichiers distincts. Dans cet article, nous étudions un modèle destiné à évaluer les sources de variation dans le couplage d’enregistrements en comparant ce procédé à une « boîte noire » qui reçoit des données d’entrée et restitue un produit (un ensemble de concordances désignées, c.-à-d. de paires dont les éléments représentent la même entité) qui a certaines caractéristiques. Nous illustrons nos propos au moyen d’une expérience factorielle dans laquelle nous nous servons de données du recensement et d’enquêtes postcensitaires afin d’évaluer l’influence de divers facteurs qui sont réputés pour réduire la fiabilité du procédé. Avec ce cadre expérimental, l’évaluation du couplage d’enregistrements devient un problème statistique comme les autres. L’étude permet de répondre à plusieurs questions de recherche et nous prétendons qu’il est essentiel de recourir à des méthodes expérimentales comme celle proposée ici si l’on veut mieux comprendre les sources d’erreur qui interviennent dans les techniques de couplage d’enregistrements.
Date de diffusion : 1993-06-15 - 6. Évaluation des taux d’erreur dans de grandes études par couplage d’enregistrements informatisé ArchivéArticles et rapports : 12-001-X199300114479Description :
Les études épidémiologiques qui visent à étudier le rapport entre les risques environnementaux et l’état de santé comptent beaucoup sur l’appariement d’enregistrements de bases de données administratives différentes. Par des algorithmes complexes de couplage d’enregistrements appliqués à de grandes bases de données, on peut évaluer la possibilité d’un appariement de deux enregistrements particuliers en se fondant sur la comparaison d’une ou de plusieurs variables d’identification dans ces enregistrements. Puisque les erreurs d’appariement sont inévitables, il faut pouvoir tenir compte de leur effet sur les inférences statistiques faites à partir des fichiers couplés. Cet article donne un aperçu de la méthodologie utilisée pour le couplage d’enregistrements et traite les questions statistiques qui se rattachent aux erreurs de couplage.
Date de diffusion : 1993-06-15
Références (0)
Références (0) (0 résultat)
Aucun contenu disponible actuellement
- Date de modification :