Inférence et fondements

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 12-001-X202200200007
    Description :

    L’inférence statistique avec des échantillons d’enquête non probabilistes est un problème complexe bien connu en statistique. Dans la présente analyse, nous proposons deux nouvelles méthodes non paramétriques d’estimation des scores de propension pour pondérer les échantillons non probabilistes, à savoir la projection d’information et le calage uniforme dans un espace de Hilbert à noyau reproduisant.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202100200003
    Description :

    La pondération par calage est un moyen statistiquement efficace de traiter la non-réponse totale. En supposant que le modèle (ou la sortie) de la réponse justifiant l’ajustement du poids de calage est exact, il est souvent possible de mesurer la variance des estimations de façon asymptotique et sans biais. Une des manières d’estimer la variance consiste à créer des poids de rééchantillonnage jackknife. Cependant, il arrive que la méthode classique de calcul des poids de rééchantillonnage jackknife pour les poids d’analyse calés échoue. Dans ce cas, il existe généralement une autre méthode de calcul des poids de rééchantillonnage jackknife. Cette méthode est décrite ici et appliquée à un exemple simple.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X201800154928
    Description :

    Un processus à deux phases a été utilisé par la Substance Abuse and Mental Health Services Administration pour estimer la proportion d’Américains adultes atteints d’une maladie mentale grave (MMG). La première phase correspondait à la National Survey on Drug Use and Health (NSDUH) réalisée annuellement, tandis que la seconde phase consistait en un sous-échantillon aléatoire d’adultes ayant répondu à la NSDUH. Les personnes qui ont répondu à la deuxième phase d’échantillonnage ont été soumises à une évaluation clinique visant à déceler les maladies mentales graves. Un modèle de prédiction logistique a été ajusté à ce sous-échantillon en prenant la situation de MMG (oui ou non) déterminée au moyen de l’instrument de deuxième phase comme variable dépendante, et les variables connexes recueillies dans la NSDUH auprès de tous les adultes comme variables explicatives du modèle. Des estimations de la prévalence de la MMG chez l’ensemble des adultes et au sein de sous-populations d’adultes ont ensuite été calculées en attribuant à chaque participant à la NSDUH une situation de MMG établie en comparant sa probabilité estimée d’avoir une MMG avec un seuil diagnostique choisi sur la distribution des probabilités prédites. Nous étudions d’autres options que cet estimateur par seuil diagnostique classique, dont l’estimateur par probabilité. Ce dernier attribue une probabilité estimée d’avoir une MMG à chaque participant à la NSDUH. La prévalence estimée de la MMG est la moyenne pondérée de ces probabilités estimées. Au moyen des données de la NSDUH et de son sous-échantillon, nous montrons que, même si l’estimateur par probabilité donne une plus petite erreur quadratique moyenne quand on estime la prévalence de la MMG parmi l’ensemble des adultes, il a une plus grande tendance que l’estimateur par seuil diagnostique classique à présenter un biais au niveau de la sous-population.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700254872
    Description :

    La présente note expose les fondements théoriques de l’extension de l’intervalle de couverture bilatéral de Wilson à une proportion estimée à partir de données d’enquêtes complexes. Il est démontré que l’intervalle est asymptotiquement équivalent à un intervalle calculé en partant d’une transformation logistique. Une légèrement meilleure version est examinée, mais les utilisateurs pourraient préférer construire un intervalle unilatéral déjà décrit dans la littérature.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201300611796
    Géographie : Canada
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 11-522-X20010016277
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Grâce aux méthodes de couplage d'enregistrements, il est désormais plus facile d'effectuer des études de mortalité par cohortes où il y a couplage électronique des données d'exposition d'une base d'information et des données de mortalité d'une autre base. Le présent article est consacré à l'incidence des erreurs de couplage sur les estimations d'indicateurs épidémiologiques de risque comme les taux comparatifs de mortalité et les paramètres de modèles de régression de risques relatifs. Il révèle que ces indicateurs peuvent être entachés d'un biais et d'un surcroît de variabilité à cause d'erreurs de couplage, les faux liens et les non-liens introduisant un biais respectivement positif et négatif dans les estimations de taux de mortalité normalisés. Ces erreurs accroissent toujours l'incertitude des estimations, mais on peut réussir à éliminer le biais dans le cas particulier d'une égalité des faux positifs et des faux négatifs pour des états homogènes définis par un classement recoupé des covariables d'intérêt.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 11-522-X19990015654
    Description :

    On a recouru à la méta-analyse pour estimer la proportion de carcinogènes hépatiques, la proportion de substances chimiques carcinogènes à n'importe quel siège et la proportion correspondante d'anticarcinogènes parmi les produits chimiques évalués au cours de 397 essais biologiques de la cancérogénicité à long terme réalisés dans le cadre du programme national de toxicologie des États-Unis [U.S. National Toxicology program (NTP)]. Bien que l'estimateur utilisé soit biaisé négativement, l'étude fournit des preuves convaincantes que la proportion de carcinogènes hépatiques (0,43,IC90 % : 0,35,0,51) est plus forte que ne l'a déterminé le NTP (0,28). Selon l'étude, la proportion estimée de produits chimiques carcinogènes à n'importe quel siège est également plus forte (0,59,IC 90 % : 0,49, 0,69) que celle déterminée que par le NTP (0,51) mais l'écart n'est pas statistiquement significatif. On observe une proportion plus forte d'anticarcinogènes (0,66) que de carcinogènes (0,59). Malgré le biais négatif, on estime que 85 % des produits chimiques sont soit carcinogènes soit anticarcinogènes à certains sièges pour certains groupes sexe-espèce. Ces résultats donnent à penser qu'à une concentration suffisamment forte, la plupart des produits chimiques évalués modifient dans une certaine mesure le taux de tumeurs.

    Date de diffusion : 2000-03-02
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (11)

Analyses (11) (0 à 10 de 11 résultats)

  • Articles et rapports : 12-001-X202200200007
    Description :

    L’inférence statistique avec des échantillons d’enquête non probabilistes est un problème complexe bien connu en statistique. Dans la présente analyse, nous proposons deux nouvelles méthodes non paramétriques d’estimation des scores de propension pour pondérer les échantillons non probabilistes, à savoir la projection d’information et le calage uniforme dans un espace de Hilbert à noyau reproduisant.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202100200003
    Description :

    La pondération par calage est un moyen statistiquement efficace de traiter la non-réponse totale. En supposant que le modèle (ou la sortie) de la réponse justifiant l’ajustement du poids de calage est exact, il est souvent possible de mesurer la variance des estimations de façon asymptotique et sans biais. Une des manières d’estimer la variance consiste à créer des poids de rééchantillonnage jackknife. Cependant, il arrive que la méthode classique de calcul des poids de rééchantillonnage jackknife pour les poids d’analyse calés échoue. Dans ce cas, il existe généralement une autre méthode de calcul des poids de rééchantillonnage jackknife. Cette méthode est décrite ici et appliquée à un exemple simple.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X201800154928
    Description :

    Un processus à deux phases a été utilisé par la Substance Abuse and Mental Health Services Administration pour estimer la proportion d’Américains adultes atteints d’une maladie mentale grave (MMG). La première phase correspondait à la National Survey on Drug Use and Health (NSDUH) réalisée annuellement, tandis que la seconde phase consistait en un sous-échantillon aléatoire d’adultes ayant répondu à la NSDUH. Les personnes qui ont répondu à la deuxième phase d’échantillonnage ont été soumises à une évaluation clinique visant à déceler les maladies mentales graves. Un modèle de prédiction logistique a été ajusté à ce sous-échantillon en prenant la situation de MMG (oui ou non) déterminée au moyen de l’instrument de deuxième phase comme variable dépendante, et les variables connexes recueillies dans la NSDUH auprès de tous les adultes comme variables explicatives du modèle. Des estimations de la prévalence de la MMG chez l’ensemble des adultes et au sein de sous-populations d’adultes ont ensuite été calculées en attribuant à chaque participant à la NSDUH une situation de MMG établie en comparant sa probabilité estimée d’avoir une MMG avec un seuil diagnostique choisi sur la distribution des probabilités prédites. Nous étudions d’autres options que cet estimateur par seuil diagnostique classique, dont l’estimateur par probabilité. Ce dernier attribue une probabilité estimée d’avoir une MMG à chaque participant à la NSDUH. La prévalence estimée de la MMG est la moyenne pondérée de ces probabilités estimées. Au moyen des données de la NSDUH et de son sous-échantillon, nous montrons que, même si l’estimateur par probabilité donne une plus petite erreur quadratique moyenne quand on estime la prévalence de la MMG parmi l’ensemble des adultes, il a une plus grande tendance que l’estimateur par seuil diagnostique classique à présenter un biais au niveau de la sous-population.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700254872
    Description :

    La présente note expose les fondements théoriques de l’extension de l’intervalle de couverture bilatéral de Wilson à une proportion estimée à partir de données d’enquêtes complexes. Il est démontré que l’intervalle est asymptotiquement équivalent à un intervalle calculé en partant d’une transformation logistique. Une légèrement meilleure version est examinée, mais les utilisateurs pourraient préférer construire un intervalle unilatéral déjà décrit dans la littérature.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 82-003-X201300611796
    Géographie : Canada
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 11-522-X20010016277
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    Grâce aux méthodes de couplage d'enregistrements, il est désormais plus facile d'effectuer des études de mortalité par cohortes où il y a couplage électronique des données d'exposition d'une base d'information et des données de mortalité d'une autre base. Le présent article est consacré à l'incidence des erreurs de couplage sur les estimations d'indicateurs épidémiologiques de risque comme les taux comparatifs de mortalité et les paramètres de modèles de régression de risques relatifs. Il révèle que ces indicateurs peuvent être entachés d'un biais et d'un surcroît de variabilité à cause d'erreurs de couplage, les faux liens et les non-liens introduisant un biais respectivement positif et négatif dans les estimations de taux de mortalité normalisés. Ces erreurs accroissent toujours l'incertitude des estimations, mais on peut réussir à éliminer le biais dans le cas particulier d'une égalité des faux positifs et des faux négatifs pour des états homogènes définis par un classement recoupé des covariables d'intérêt.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 11-522-X19990015654
    Description :

    On a recouru à la méta-analyse pour estimer la proportion de carcinogènes hépatiques, la proportion de substances chimiques carcinogènes à n'importe quel siège et la proportion correspondante d'anticarcinogènes parmi les produits chimiques évalués au cours de 397 essais biologiques de la cancérogénicité à long terme réalisés dans le cadre du programme national de toxicologie des États-Unis [U.S. National Toxicology program (NTP)]. Bien que l'estimateur utilisé soit biaisé négativement, l'étude fournit des preuves convaincantes que la proportion de carcinogènes hépatiques (0,43,IC90 % : 0,35,0,51) est plus forte que ne l'a déterminé le NTP (0,28). Selon l'étude, la proportion estimée de produits chimiques carcinogènes à n'importe quel siège est également plus forte (0,59,IC 90 % : 0,49, 0,69) que celle déterminée que par le NTP (0,51) mais l'écart n'est pas statistiquement significatif. On observe une proportion plus forte d'anticarcinogènes (0,66) que de carcinogènes (0,59). Malgré le biais négatif, on estime que 85 % des produits chimiques sont soit carcinogènes soit anticarcinogènes à certains sièges pour certains groupes sexe-espèce. Ces résultats donnent à penser qu'à une concentration suffisamment forte, la plupart des produits chimiques évalués modifient dans une certaine mesure le taux de tumeurs.

    Date de diffusion : 2000-03-02
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02
Date de modification :