Statistiques par sujet – Méthodes statistiques

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

83 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

83 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

83 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Préciser les résultats par

Aide pour les filtres et la recherche
Filtres actuellement sélectionnés pouvant être supprimés

Mot(s)-clé(s)

Type d’information

2 facettes affichées. 0 facettes sélectionnées.

Auteur(s)

83 facettes affichées. 1 facettes sélectionnées.

Contenu

1 facettes affichées. 0 facettes sélectionnées.

Autres ressources disponibles pour appuyer vos recherches.

Aide pour trier les résultats
Explorer notre base centrale des principaux concepts normalisés, définitions, sources de données et méthodes.
En cours de chargement
Chargement en cours, veuillez patienter...
Tout (135)

Tout (135) (25 of 135 results)

  • Articles et rapports : 12-001-X201700114818
    Description :

    La protection de la confidentialité des données qui figurent dans des tableaux de données quantitatives peut devenir extrêmement difficile lorsqu’on travaille avec des tableaux personnalisés. Une solution relativement simple consiste à perturber au préalable les microdonnées sous-jacentes, mais cela peut avoir un effet négatif excessif sur la précision des agrégats. Nous proposons plutôt une méthode perturbatrice qui vise à mieux concilier les besoins de protection et de précision des données en pareil cas. La méthode consiste à traiter par niveaux les données de chaque cellule en appliquant une perturbation minime, voire nulle, aux valeurs inférieures et une perturbation plus importante aux valeurs supérieures. La méthode vise avant tout à protéger les données personnelles, qui sont généralement moins asymétriques que les données des entreprises.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600214661
    Description :

    Un exemple présenté par Jean-Claude Deville en 2005 est soumis à trois méthodes d’estimation : la méthode des moments, la méthode du maximum de vraisemblance et le calage généralisé. Les trois méthodes donnent exactement les mêmes résultats pour les deux modèles de non-réponse. On discute ensuite de la manière de choisir le modèle le plus adéquat

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Produits techniques : 11-522-X201700014755
    Description :

    La National Children Study, dans sa phase pilote, est une étude de cohorte épidémiologique à grande échelle des enfants et de leurs parents. Des mesures ont été recueillies, de la période précédant la grossesse jusqu’à ce que l’enfant atteigne l’âge adulte. L’utilisation des données existantes visait à compléter la collecte directe de données auprès des répondants. Notre document énonce la stratégie pour le catalogage et l’évaluation des sources de données existantes, en vue de leur utilisation longitudinale à grande échelle. Dans le cadre de notre examen, nous avons sélectionné cinq facteurs d’évaluation pour guider les chercheurs à l’égard des sources de données disponibles : 1) pertinence, 2) actualité, 3) spatialité, 4) accessibilité et 5) exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014759
    Description :

    Nombre des possibilités et des défis de la science des données moderne découlent d’éléments dynamiques, dont l’évolution des populations, la croissance du volume de données administratives et commerciales sur les particuliers et les établissements, les flux continus de données et la capacité de les analyser et de les résumer en temps réel, ainsi que la détérioration des données faute de ressources pour les tenir à jour. Le domaine de la statistique officielle, qui met l’accent sur la qualité des données et l’obtention de résultats défendables, se prête parfaitement à la mise en relief des questions statistiques et liées à la science des données dans divers contextes. L’exposé souligne l’importance des bases de sondage de population et de leur tenue à jour, la possibilité d’utiliser des méthodes à bases de sondage multiples et des couplages d’enregistrements, la façon dont l’utilisation de données à grande échelle non issues d’enquêtes comme information auxiliaire façonne les objets de l’inférence, la complexité des modèles pour les grands ensembles de données, l’importance des méthodes récursives et de la régularisation, et les avantages des outils évolués de visualisation des données en ce qui concerne la détection des changements.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500214237
    Description :

    La bonne conception d’une enquête téléphonique par composition aléatoire (CA) à partir d’une base de sondage double requiert de choisir entre de nombreuses options, en faisant la part des différences de coût, de précision, et de couverture, afin d’optimiser la réalisation des objectifs de l’étude. L’un des éléments à prendre en considération est celui de savoir s’il faut présélectionner les ménages équipés de téléphones mobiles et n’interroger que ceux utilisant exclusivement des téléphones mobiles (ménages EXM), donc écarter ceux qui se servent d’un téléphone fixe ainsi que d’un téléphone mobile (ménages F-et-M), ou s’il faut, au contraire, interroger toutes les unités de l’échantillon de ménages équipés de téléphones mobiles. Nous présentons un cadre pour comparer les avantages et les inconvénients de ces deux options, ainsi qu’une méthode pour sélectionner le plan de sondage optimal. Nous établissons la répartition optimale de la taille de l’échantillon entre les deux bases de sondage et en discutons, et nous abordons le choix de la valeur optimale du paramètre de composition p pour le domaine des usagers d’un téléphone fixe ainsi que d’un téléphone mobile (F-et-M). Nous illustrons nos méthodes en les appliquant à la National Immunization Survey commanditée par les Centers for Disease Control and Prevention.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501214295
    Description :

    À l’aide du modèle de microsimulation du cancer du sein mis au point par le Cancer Intervention and Surveillance Monitoring Network de l’Université du Wisconsin adapté au contexte canadien, on a évalué 11 stratégies de dépistage par mammographie sur le plan des coûts et des années de vie ajustées en fonction de la qualité. Ces stratégies, qui s’adressent à la population générale, diffèrent selon l’âge au début et à la fin du dépistage ainsi que la fréquence des examens de dépistage. Des rapports coût/efficacité différentiels sont présentés, et des analyses de sensibilité servent à évaluer la robustesse des conclusions du modèle.

    Date de diffusion : 2015-12-16

  • Articles et rapports : 82-003-X201501014228
    Description :

    La présente étude fait état des résultats d’un couplage par appariement exact hiérarchique de données du Recensement de la population de 2006 et de données hospitalières pour toutes les provinces et les territoires (sauf le Québec) provenant de la Base de données sur les congés des patients pour la période 2006-2007 à 2008-2009. Elle a pour but de déterminer si le couplage recensement—BDCP donne des résultats similaires d’un secteur de compétence à l’autre, et si les taux de couplage et de couverture diminuent en fonction du temps écoulé depuis le recensement.

    Date de diffusion : 2015-10-21

  • Articles et rapports : 82-003-X201500714205
    Description :

    Il est bien connu qu’il existe des divergences entre l’activité physique autodéclarée et l’activité physique mesurée objectivement. Aux fins de validation, les auteurs comparent les résultats d’un nouveau questionnaire sur l’activité physique autodéclarée avec ceux d’un questionnaire existant et avec des données d’accélérométrie.

    Date de diffusion : 2015-07-15

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Articles et rapports : 12-001-X201400214113
    Description :

    Les enquêtes par panel à renouvellement servent à calculer des estimations des flux bruts entre deux périodes consécutives de mesure. Le présent article examine une procédure générale pour estimer les flux bruts lorsque l’enquête par panel à renouvellement a été générée à partir d’un plan de sondage complexe avec non-réponse aléatoire. Une approche à pseudo-maximum de vraisemblance est envisagée dans le contexte d’un modèle à deux degrés de chaînes de Markov pour le classement des personnes dans les catégories de l’enquête et pour la modélisation de la non-réponse.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214090
    Description :

    Lorsqu'on s'intéresse à une population finie, il arrive qu'il soit nécessaire de tirer des échantillons dans plusieurs bases de sondage pour représenter l'ensemble des individus. Nous nous intéressons ici au cas de deux échantillons sélectionnés selon un plan à deux degrés, avec un premier degré de tirage commun. Nous appliquons les méthodes de Hartley (1962), Bankier (1986), et Kalton et Anderson (1986), et nous montrons que ces méthodes peuvent être appliquées conditionnellement au premier degré de tirage. Nous comparons également la performance de plusieurs estimateurs dans le cadre d'une étude par simulations. Nos résultats suggèrent que le choix d'un estimateur en présence de bases de sondage multiples se fasse de façon prudente, et qu'un estimateur simple est parfois préférable même s'il n'utilise qu'une partie de l'information collectée.

    Date de diffusion : 2014-12-19

  • Produits techniques : 11-522-X201300014277
    Description :

    Le présent article donne un aperçu des éléments d’un plan de sondage adaptatif introduit de la quatrième vague à la septième vague de l’enquête par panel PASS. L’exposé porte principalement sur les interventions expérimentales aux dernières phases du travail sur le terrain. Ces interventions visent à équilibrer l’échantillon en donnant la priorité aux membres de l’échantillon ayant une faible propension à répondre. À la septième vague, les intervieweurs ont reçu une double prime pour les interviews de cas ayant une faible propension à répondre achevées à la phase finale du travail sur le terrain. Cette prime a été limitée à une moitié, sélectionnée aléatoirement, des cas qui avaient une faible propension à répondre et n’ayant pas reçu de code d’état final après quatre mois de travail sur le terrain. Cette prime a effectivement intensifié l’effort déployé par les intervieweurs, mais n’a abouti à aucune augmentation significative des taux de réponse.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014279
    Description :

    Dans le cadre du projet européen SustainCity, un modèle de microsimulation des individus et des ménages a été créé en vue de simuler la population de différentes métropoles européennes. L’objectif du projet était d’unir plusieurs modèles de microsimulation de transports et d’occupation des sols (land use modelling), de leur adjoindre un module dynamique de population et d’appliquer ces approches de microsimulation à trois zones géographiques d’Europe (la région d’Île de France et les agglomérations de Bruxelles et Zurich).

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014254
    Description :

    Les enquêtes en ligne comportent des lacunes graves du point de vue de la représentativité, mais elles semblent comporter certaines bonnes propriétés de mesure. Cet exposé est axé sur les caractéristiques générales des enquêtes en ligne qui influent sur la qualité des données, et plus particulièrement le fait qu’elles sont principalement visuelles. En outre, il examine l’efficacité des enquêtes en ligne comme forme d’autoadministration de questionnaires. Un certain nombre d’expériences ont permis de comparer les enquêtes en ligne avec d’autres modes de collecte de données. Une méta-analyse de ces études montre que les enquêtes en ligne conservent les avantages des formes traditionnelles d’enquêtes autoadministrées; de façon plus particulière, elles réduisent le biais de désirabilité sociale par rapport aux questions administrées par un intervieweur. En conclusion, j’examine certains progrès futurs probables des enquêtes en ligne, à savoir l’intégration d’avatars comme « intervieweurs virtuels » et l’utilisation croissante de dispositifs mobiles (comme les tablettes électroniques et les téléphones intelligents) pour accéder aux enquêtes en ligne et y répondre.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014269
    Description :

    L’Étude sur le surdénombrement du recensement (ESR) est une étude essentielle de mesure postcensitaire de la couverture. Son principal objectif est de produire des estimations du nombre de personnes dénombrées de façon erronée, selon la province et le territoire, et d’examiner les caractéristiques des personnes dénombrées plus d’une fois, afin de déterminer les raisons possibles de ces erreurs. L’ESR est fondée sur l’échantillonnage et l’examen manuel de groupes d’enregistrements reliés, qui sont le résultat d’un couplage de la base de données des réponses du recensement et d’une base administrative. Dans cette communication, nous décrivons la nouvelle méthodologie de l’ESR de 2011. De nombreuses améliorations ont été apportées à cette méthodologie, y compris une plus grande utilisation du couplage d’enregistrements probabiliste, l’estimation de paramètres de couplage au moyen d’un algorithme espérance-maximisation (EM), et l’utilisation efficace de données sur les ménages pour déceler davantage de cas de surdénombrement.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014273
    Description :

    De plus en plus de données sont produites au moyen du nombre croissant de dispositifs électroniques qui nous entourent et que l’on retrouve sur Internet. La grande quantité de données et la fréquence élevée à laquelle elles sont produites ont donné lieu à l’introduction du terme « mégadonnées ». Compte tenu du fait que ces données rendent compte de nombreux aspects différents de nos vies au quotidien, et en raison de leur abondance et de leur disponibilité, les sources de mégadonnées sont très intéressantes du point de vue des statistiques officielles. Toutefois, les premières expériences obtenues suite aux analyses de grandes quantités d’enregistrements de boucles de détection de véhicules au Pays-Bas, d’enregistrements des détails des appels de téléphones mobiles et de messages des médias sociaux aux Pays-Bas révèlent qu’un certain nombre de défis doivent être résolus pour permettre l’application de ces sources de données aux statistiques officielles. Ces défis, ainsi que les leçons apprises pendant les études initiales, seront traitées et illustrées au moyen d’exemples. De façon plus particulière, les sujets suivants sont abordés : les trois types généraux de mégadonnées définis, la nécessité d’accéder à des quantités importantes de données et de les analyser, la façon de traiter les données qui comportent du bruit et d’aborder la sélectivité (ainsi que notre propre biais concernant ce sujet), comment aller au-delà de la corrélation, la façon de trouver les personnes ayant les compétences adéquates et la bonne attitude pour exécuter ce travail, et comment nous avons traité les problèmes de protection des renseignements personnels et de sécurité.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 82-003-X201401014098
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 12-001-X201400114000
    Description :

    Nous avons mis en œuvre la technique de linéarisation généralisée reposant sur le concept de fonction d’influence tout comme l’a fait Osier (2009) pour estimer la variance de statistiques complexes telles que les indices de Laeken. Des simulations réalisées avec le langage R montrent que, pour les cas où l’on a recours à une estimation par noyau gaussien de la fonction de densité des revenus considérés, on obtient un fort biais pour la valeur estimée de la variance. On propose deux autres méthodes pour estimer la densité qui diminuent fortement le biais constaté. L’une de ces méthodes a déjà été esquissée par Deville (2000). Les résultats publiés ici permettront une amélioration substantielle de la qualité des informations sur la précision de certains indices de Laeken diffusées et comparées internationalement.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211868
    Description :

    Thompson et Sigman (2000) ont proposé une méthode d'estimation des médianes applicable à des données provenant de populations à forte asymétrie positive. Cette méthode comprend une interpolation sur des intervalles (classes) qui dépendent des données. Ils ont démontré qu'elle possède de bonnes propriétés statistiques pour les médianes calculées d'après un échantillon fortement asymétrique. La présente étude étend les travaux antérieurs aux méthodes d'estimation des déciles pour une population à asymétrie positive en utilisant des données d'enquête complexes. Nous présentons trois méthodes d'interpolation, ainsi que la méthode classique d'estimation des déciles (sans classes) et nous évaluons chaque méthode empiriquement au moyen d'une étude en simulation en utilisant les données sur les logements résidentiels provenant de l'Enquête sur la construction (Survey of Construction). Nous avons constaté qu'une variante de la méthode courante en utilisant le 95e centile comme facteur d'échelle produit les estimations des déciles ayant les meilleures propriétés statistiques.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 82-003-X201301011873
    Description :

    On a élaboré un modèle de simulation informatique de l'activité physique pour la population adulte canadienne à partir des données longitudinales de l'Enquête nationale sur la santé de la population et des données transversales de l'Enquête sur la santé dans les collectivités canadiennes. Ce modèle est basé sur la plateforme du Modèle de santé de la population (POHEM), élaboré par Statistique Canada. Le présent article donne un aperçu du POHEM et une description des ajouts qui y ont été faits pour créer le module de l'activité physique (POHEM-PA). Ces ajouts comprennent l'évolution du niveau dMactivité physique dans le temps et la relation entre les niveaux d'activité physique et l'espérance de vie ajustée sur la santé, l'espérance de vie et l'apparition de certains problèmes de santé chroniques. Des estimations tirées de projections obtenues par simulation sont comparées avec des données d'enquête représentatives à l'échelle nationale, fournissant ainsi une indication de la validité du POHEM-PA.

    Date de diffusion : 2013-10-16

Données (0)

Données (0) (Aucun résultat)

Votre recherche pour «» n’a donné aucun résultat dans la présente section du site.

Vous pouvez essayer :

Analyses (85)

Analyses (85) (25 of 85 results)

  • Articles et rapports : 12-001-X201700114818
    Description :

    La protection de la confidentialité des données qui figurent dans des tableaux de données quantitatives peut devenir extrêmement difficile lorsqu’on travaille avec des tableaux personnalisés. Une solution relativement simple consiste à perturber au préalable les microdonnées sous-jacentes, mais cela peut avoir un effet négatif excessif sur la précision des agrégats. Nous proposons plutôt une méthode perturbatrice qui vise à mieux concilier les besoins de protection et de précision des données en pareil cas. La méthode consiste à traiter par niveaux les données de chaque cellule en appliquant une perturbation minime, voire nulle, aux valeurs inférieures et une perturbation plus importante aux valeurs supérieures. La méthode vise avant tout à protéger les données personnelles, qui sont généralement moins asymétriques que les données des entreprises.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 12-001-X201600214661
    Description :

    Un exemple présenté par Jean-Claude Deville en 2005 est soumis à trois méthodes d’estimation : la méthode des moments, la méthode du maximum de vraisemblance et le calage généralisé. Les trois méthodes donnent exactement les mêmes résultats pour les deux modèles de non-réponse. On discute ensuite de la manière de choisir le modèle le plus adéquat

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201500214237
    Description :

    La bonne conception d’une enquête téléphonique par composition aléatoire (CA) à partir d’une base de sondage double requiert de choisir entre de nombreuses options, en faisant la part des différences de coût, de précision, et de couverture, afin d’optimiser la réalisation des objectifs de l’étude. L’un des éléments à prendre en considération est celui de savoir s’il faut présélectionner les ménages équipés de téléphones mobiles et n’interroger que ceux utilisant exclusivement des téléphones mobiles (ménages EXM), donc écarter ceux qui se servent d’un téléphone fixe ainsi que d’un téléphone mobile (ménages F-et-M), ou s’il faut, au contraire, interroger toutes les unités de l’échantillon de ménages équipés de téléphones mobiles. Nous présentons un cadre pour comparer les avantages et les inconvénients de ces deux options, ainsi qu’une méthode pour sélectionner le plan de sondage optimal. Nous établissons la répartition optimale de la taille de l’échantillon entre les deux bases de sondage et en discutons, et nous abordons le choix de la valeur optimale du paramètre de composition p pour le domaine des usagers d’un téléphone fixe ainsi que d’un téléphone mobile (F-et-M). Nous illustrons nos méthodes en les appliquant à la National Immunization Survey commanditée par les Centers for Disease Control and Prevention.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 82-003-X201501214295
    Description :

    À l’aide du modèle de microsimulation du cancer du sein mis au point par le Cancer Intervention and Surveillance Monitoring Network de l’Université du Wisconsin adapté au contexte canadien, on a évalué 11 stratégies de dépistage par mammographie sur le plan des coûts et des années de vie ajustées en fonction de la qualité. Ces stratégies, qui s’adressent à la population générale, diffèrent selon l’âge au début et à la fin du dépistage ainsi que la fréquence des examens de dépistage. Des rapports coût/efficacité différentiels sont présentés, et des analyses de sensibilité servent à évaluer la robustesse des conclusions du modèle.

    Date de diffusion : 2015-12-16

  • Articles et rapports : 82-003-X201501014228
    Description :

    La présente étude fait état des résultats d’un couplage par appariement exact hiérarchique de données du Recensement de la population de 2006 et de données hospitalières pour toutes les provinces et les territoires (sauf le Québec) provenant de la Base de données sur les congés des patients pour la période 2006-2007 à 2008-2009. Elle a pour but de déterminer si le couplage recensement—BDCP donne des résultats similaires d’un secteur de compétence à l’autre, et si les taux de couplage et de couverture diminuent en fonction du temps écoulé depuis le recensement.

    Date de diffusion : 2015-10-21

  • Articles et rapports : 82-003-X201500714205
    Description :

    Il est bien connu qu’il existe des divergences entre l’activité physique autodéclarée et l’activité physique mesurée objectivement. Aux fins de validation, les auteurs comparent les résultats d’un nouveau questionnaire sur l’activité physique autodéclarée avec ceux d’un questionnaire existant et avec des données d’accélérométrie.

    Date de diffusion : 2015-07-15

  • Articles et rapports : 82-003-X201500614196
    Description :

    La présente étude examine la faisabilité et la validité de l’utilisation des numéros d’assurance-maladie personnels pour coupler de façon déterministe le Registre canadien du cancer la Base de données sur les congés des patients, afin d’obtenir des données sur les hospitalisations des personnes atteintes d’un cancer primaire.

    Date de diffusion : 2015-06-17

  • Articles et rapports : 12-001-X201400214113
    Description :

    Les enquêtes par panel à renouvellement servent à calculer des estimations des flux bruts entre deux périodes consécutives de mesure. Le présent article examine une procédure générale pour estimer les flux bruts lorsque l’enquête par panel à renouvellement a été générée à partir d’un plan de sondage complexe avec non-réponse aléatoire. Une approche à pseudo-maximum de vraisemblance est envisagée dans le contexte d’un modèle à deux degrés de chaînes de Markov pour le classement des personnes dans les catégories de l’enquête et pour la modélisation de la non-réponse.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214090
    Description :

    Lorsqu'on s'intéresse à une population finie, il arrive qu'il soit nécessaire de tirer des échantillons dans plusieurs bases de sondage pour représenter l'ensemble des individus. Nous nous intéressons ici au cas de deux échantillons sélectionnés selon un plan à deux degrés, avec un premier degré de tirage commun. Nous appliquons les méthodes de Hartley (1962), Bankier (1986), et Kalton et Anderson (1986), et nous montrons que ces méthodes peuvent être appliquées conditionnellement au premier degré de tirage. Nous comparons également la performance de plusieurs estimateurs dans le cadre d'une étude par simulations. Nos résultats suggèrent que le choix d'un estimateur en présence de bases de sondage multiples se fasse de façon prudente, et qu'un estimateur simple est parfois préférable même s'il n'utilise qu'une partie de l'information collectée.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 82-003-X201401014098
    Description :

    La présente analyse compare une approche fondée sur un registre et une approche non fondée sur un registre pour apparier les données du Recensement de la population de 2006 et les données d’hôpital provenant de la Base de données sur les congés de patients pour le Manitoba et l’Ontario.

    Date de diffusion : 2014-10-15

  • Articles et rapports : 12-001-X201400114000
    Description :

    Nous avons mis en œuvre la technique de linéarisation généralisée reposant sur le concept de fonction d’influence tout comme l’a fait Osier (2009) pour estimer la variance de statistiques complexes telles que les indices de Laeken. Des simulations réalisées avec le langage R montrent que, pour les cas où l’on a recours à une estimation par noyau gaussien de la fonction de densité des revenus considérés, on obtient un fort biais pour la valeur estimée de la variance. On propose deux autres méthodes pour estimer la densité qui diminuent fortement le biais constaté. L’une de ces méthodes a déjà été esquissée par Deville (2000). Les résultats publiés ici permettront une amélioration substantielle de la qualité des informations sur la précision de certains indices de Laeken diffusées et comparées internationalement.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211868
    Description :

    Thompson et Sigman (2000) ont proposé une méthode d'estimation des médianes applicable à des données provenant de populations à forte asymétrie positive. Cette méthode comprend une interpolation sur des intervalles (classes) qui dépendent des données. Ils ont démontré qu'elle possède de bonnes propriétés statistiques pour les médianes calculées d'après un échantillon fortement asymétrique. La présente étude étend les travaux antérieurs aux méthodes d'estimation des déciles pour une population à asymétrie positive en utilisant des données d'enquête complexes. Nous présentons trois méthodes d'interpolation, ainsi que la méthode classique d'estimation des déciles (sans classes) et nous évaluons chaque méthode empiriquement au moyen d'une étude en simulation en utilisant les données sur les logements résidentiels provenant de l'Enquête sur la construction (Survey of Construction). Nous avons constaté qu'une variante de la méthode courante en utilisant le 95e centile comme facteur d'échelle produit les estimations des déciles ayant les meilleures propriétés statistiques.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 82-003-X201301011873
    Description :

    On a élaboré un modèle de simulation informatique de l'activité physique pour la population adulte canadienne à partir des données longitudinales de l'Enquête nationale sur la santé de la population et des données transversales de l'Enquête sur la santé dans les collectivités canadiennes. Ce modèle est basé sur la plateforme du Modèle de santé de la population (POHEM), élaboré par Statistique Canada. Le présent article donne un aperçu du POHEM et une description des ajouts qui y ont été faits pour créer le module de l'activité physique (POHEM-PA). Ces ajouts comprennent l'évolution du niveau dMactivité physique dans le temps et la relation entre les niveaux d'activité physique et l'espérance de vie ajustée sur la santé, l'espérance de vie et l'apparition de certains problèmes de santé chroniques. Des estimations tirées de projections obtenues par simulation sont comparées avec des données d'enquête représentatives à l'échelle nationale, fournissant ainsi une indication de la validité du POHEM-PA.

    Date de diffusion : 2013-10-16

  • Articles et rapports : 82-003-X201300611796
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19

  • Articles et rapports : 12-001-X201100211607
    Description :

    Le présent article décrit les progrès récents dans le domaine des stratégies d'échantillonnage adaptatif et présente de nouvelles variantes de ces stratégies. Les progrès récents comprennent les plans d'échantillonnage à marche aléatoire ciblée et l'échantillonnage adaptatif « en toile ». Ces plans conviennent particulièrement bien pour l'échantillonnage par réseau; par exemple pour obtenir un échantillon de personnes appartenant à une population humaine cachée en suivant les liens sociaux partant d'un groupe de personnes échantillonnées pour trouver d'autres membres de la population cachée à ajouter à l'échantillon. Chacun de ces plans peut également être transposé à des conditions spatiales pour produire de nouvelles stratégies d'échantillonnage adaptatif spatial souples, applicables à des populations réparties non uniformément. Les variantes de ces stratégies d'échantillonnage comprennent celles où les liens du réseau ou les liens spatiaux ont des poids inégaux et sont suivis avec des probabilités inégales.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211609
    Description :

    Le présent article propose un examen et une évaluation de l'échantillonnage équilibré par la méthode du cube. Il débute par une définition de la notion d'échantillon équilibré et d'échantillonnage équilibré, suivie par un court historique du concept d'équilibrage. Après un exposé succinct de la théorie de la méthode du cube, l'accent est mis sur les aspects pratiques de l'échantillonnage équilibré, c'est-à-dire l'intérêt de la méthode comparativement à d'autres méthodes d'échantillonnage et au calage, le domaine d'application, la précision de l'équilibrage, le choix des variables auxiliaires et les moyens de mettre la méthode en oeuvre.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211604
    Description :

    Nous proposons une méthode d'estimation de l'erreur quadratique moyenne (EQM) pour les estimateurs des moyennes de domaine en population finie qui peuvent être exprimés sous une forme pseudo-linéaire, c'est-à-dire comme une somme pondérée des valeurs d'échantillon. En particulier, la méthode proposée peut être utilisée pour estimer l'EQM du meilleur prédicteur linéaire sans biais empirique, de l'estimateur direct fondé sur un modèle et du prédicteur du M-quantile. Elle représente une extension des idées de Royall et Cumberland (1978) et mène à des estimateurs de l'EQM qui sont plus simples à mettre en oeuvre et éventuellement plus robustes au biais que ceux proposés dans la littérature sur les petits domaines. Cependant, il convient de souligner que les estimateurs de l'EQM définis en utilisant cette méthode peuvent également présenter une grande variabilité quand les tailles d'échantillon de domaine sont très petites. Nous illustrons les propriétés de la méthode à l'aide de simulations à grande échelle sous un modèle et sous un plan de sondage, dans ce dernier cas en nous fondant sur deux ensembles de données d'enquête réels contenant des données sur des petits domaines.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 82-003-X201100311533
    Description :

    L'étude compare le biais dans les valeurs autodéclarées de taille, de poids et d'indice de masse corporelle provenant des cycles de 2008 et de 2005 de l'Enquête sur la santé dans les collectivités canadiennes et de l'Enquête canadienne sur les mesures de la santé menée de 2007 à 2009. On évalue la faisabilité de l'emploi d'équations de correction pour ajuster les valeurs autodéclarées à l'Enquête sur la santé dans les collectivités canadiennes de 2008 afin qu'elles s'approchent davantage des valeurs mesurées.

    Date de diffusion : 2011-08-17

  • Articles et rapports : 82-003-X201100311534
    Description :

    Au moyen des données provenant de l'Enquête canadienne sur les mesures de la santé menée de 2007 à 2009, on examine dans la présente étude le biais qui existe lorsque la taille, le poids et l'indice de masse corporelle sont fondés sur les valeurs déclarées par les parents. Les facteurs associés à l'erreur de déclaration sont utilisés pour déterminer s'il est possible d'établir des équations de correction afin d'ajuster les estimations déclarées par les parents.

    Date de diffusion : 2011-08-17

  • Articles et rapports : 12-001-X201000211385
    Description :

    Dans cette note brève, nous montrons que l'échantillonnage aléatoire sans remise et l'échantillonnage de Bernoulli ont à peu près la même entropie quand la taille de la population est grande. Nous donnons un exemple empirique en guise d'illustration.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X201000211379
    Description :

    Le nombre de recrues dans les entreprises des zones locales de marché du travail est un important indicateur de la réorganisation des processus de production locaux. En Italie, ce paramètre peut être estimé au moyen des données de l'Enquête Excelsior, bien que celle-ci ne fournisse pas d'estimations fiables pour les domaines d'intérêt. Dans le présent article, nous proposons une méthode d'estimation sur petits domaines multivariée appliquée à des données de comptage et basée sur la loi multivariée Poisson-Log-normale. Cette méthode servira à estimer le nombre de personnes recrutées par les entreprises pour remplacer les employés qui quittent ainsi que pour doter de nouveaux postes. Dans le cadre de l'estimation sur petits domaines, on suppose habituellement que les variances et les covariances d'échantillonnage sont connues. Cependant, ces dernières, de même que les estimations ponctuelles directes, sont instables. Étant donné la rareté du phénomène que nous analysons, les dénombrements dans certains domaines sont nuls, ce qui produit des estimations nulles des covariances des erreurs d'échantillonnage. Afin de tenir compte de la variabilité supplémentaire due à la matrice de covariance d'échantillonnage estimée et de résoudre le problème des variances et covariances insensées dans certains domaines, nous proposons une approche « intégrée » suivant laquelle nous modélisons conjointement les paramètres d'intérêt et les matrices de covariance des erreurs d'échantillonnage. Nous suggérons une solution de nouveau fondée sur la loi Poisson-Log-normale pour lisser les variances et les covariances. Les résultats que nous obtenons sont encourageants : le modèle d'estimation sur petits domaines proposé donne de meilleurs résultats que le modèle d'estimation sur petits domaines fondé sur la loi multivariée normale-normale (MNN) et il rend possible une augmentation non négligeable de l'efficacité.

    Date de diffusion : 2010-12-21

Références (50)

Références (50) (25 of 50 results)

  • Produits techniques : 11-522-X201700014755
    Description :

    La National Children Study, dans sa phase pilote, est une étude de cohorte épidémiologique à grande échelle des enfants et de leurs parents. Des mesures ont été recueillies, de la période précédant la grossesse jusqu’à ce que l’enfant atteigne l’âge adulte. L’utilisation des données existantes visait à compléter la collecte directe de données auprès des répondants. Notre document énonce la stratégie pour le catalogage et l’évaluation des sources de données existantes, en vue de leur utilisation longitudinale à grande échelle. Dans le cadre de notre examen, nous avons sélectionné cinq facteurs d’évaluation pour guider les chercheurs à l’égard des sources de données disponibles : 1) pertinence, 2) actualité, 3) spatialité, 4) accessibilité et 5) exactitude.

    Date de diffusion : 2016-03-24

  • Produits techniques : 11-522-X201700014759
    Description :

    Nombre des possibilités et des défis de la science des données moderne découlent d’éléments dynamiques, dont l’évolution des populations, la croissance du volume de données administratives et commerciales sur les particuliers et les établissements, les flux continus de données et la capacité de les analyser et de les résumer en temps réel, ainsi que la détérioration des données faute de ressources pour les tenir à jour. Le domaine de la statistique officielle, qui met l’accent sur la qualité des données et l’obtention de résultats défendables, se prête parfaitement à la mise en relief des questions statistiques et liées à la science des données dans divers contextes. L’exposé souligne l’importance des bases de sondage de population et de leur tenue à jour, la possibilité d’utiliser des méthodes à bases de sondage multiples et des couplages d’enregistrements, la façon dont l’utilisation de données à grande échelle non issues d’enquêtes comme information auxiliaire façonne les objets de l’inférence, la complexité des modèles pour les grands ensembles de données, l’importance des méthodes récursives et de la régularisation, et les avantages des outils évolués de visualisation des données en ce qui concerne la détection des changements.

    Date de diffusion : 2016-03-24

  • Produits techniques : 12-002-X201500114147
    Description :

    En régression logistique, les observations influentes sont celles qui ont un effet notable sur certains aspects de l’adéquation du modèle. Une grande taille d’échantillon ne permet pas, à elle seule, d’écarter cette préoccupation; il demeure important d’examiner les observations qui pourraient être influentes, surtout dans les données d’enquêtes complexes. Le présent article décrit un algorithme simple pour rechercher les observations influentes potentielles dans les données d’enquête complexes en utilisant le logiciel SAS. Cet algorithme a été appliqué dans le cadre d’une étude fondée sur des données de l’Enquête sur la santé dans les collectivités canadiennes de 2005 en vue de déterminer les facteurs associés à l’utilisation des services des médecins de famille par les adolescents.

    Date de diffusion : 2015-03-25

  • Produits techniques : 11-522-X201300014277
    Description :

    Le présent article donne un aperçu des éléments d’un plan de sondage adaptatif introduit de la quatrième vague à la septième vague de l’enquête par panel PASS. L’exposé porte principalement sur les interventions expérimentales aux dernières phases du travail sur le terrain. Ces interventions visent à équilibrer l’échantillon en donnant la priorité aux membres de l’échantillon ayant une faible propension à répondre. À la septième vague, les intervieweurs ont reçu une double prime pour les interviews de cas ayant une faible propension à répondre achevées à la phase finale du travail sur le terrain. Cette prime a été limitée à une moitié, sélectionnée aléatoirement, des cas qui avaient une faible propension à répondre et n’ayant pas reçu de code d’état final après quatre mois de travail sur le terrain. Cette prime a effectivement intensifié l’effort déployé par les intervieweurs, mais n’a abouti à aucune augmentation significative des taux de réponse.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014279
    Description :

    Dans le cadre du projet européen SustainCity, un modèle de microsimulation des individus et des ménages a été créé en vue de simuler la population de différentes métropoles européennes. L’objectif du projet était d’unir plusieurs modèles de microsimulation de transports et d’occupation des sols (land use modelling), de leur adjoindre un module dynamique de population et d’appliquer ces approches de microsimulation à trois zones géographiques d’Europe (la région d’Île de France et les agglomérations de Bruxelles et Zurich).

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014254
    Description :

    Les enquêtes en ligne comportent des lacunes graves du point de vue de la représentativité, mais elles semblent comporter certaines bonnes propriétés de mesure. Cet exposé est axé sur les caractéristiques générales des enquêtes en ligne qui influent sur la qualité des données, et plus particulièrement le fait qu’elles sont principalement visuelles. En outre, il examine l’efficacité des enquêtes en ligne comme forme d’autoadministration de questionnaires. Un certain nombre d’expériences ont permis de comparer les enquêtes en ligne avec d’autres modes de collecte de données. Une méta-analyse de ces études montre que les enquêtes en ligne conservent les avantages des formes traditionnelles d’enquêtes autoadministrées; de façon plus particulière, elles réduisent le biais de désirabilité sociale par rapport aux questions administrées par un intervieweur. En conclusion, j’examine certains progrès futurs probables des enquêtes en ligne, à savoir l’intégration d’avatars comme « intervieweurs virtuels » et l’utilisation croissante de dispositifs mobiles (comme les tablettes électroniques et les téléphones intelligents) pour accéder aux enquêtes en ligne et y répondre.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014269
    Description :

    L’Étude sur le surdénombrement du recensement (ESR) est une étude essentielle de mesure postcensitaire de la couverture. Son principal objectif est de produire des estimations du nombre de personnes dénombrées de façon erronée, selon la province et le territoire, et d’examiner les caractéristiques des personnes dénombrées plus d’une fois, afin de déterminer les raisons possibles de ces erreurs. L’ESR est fondée sur l’échantillonnage et l’examen manuel de groupes d’enregistrements reliés, qui sont le résultat d’un couplage de la base de données des réponses du recensement et d’une base administrative. Dans cette communication, nous décrivons la nouvelle méthodologie de l’ESR de 2011. De nombreuses améliorations ont été apportées à cette méthodologie, y compris une plus grande utilisation du couplage d’enregistrements probabiliste, l’estimation de paramètres de couplage au moyen d’un algorithme espérance-maximisation (EM), et l’utilisation efficace de données sur les ménages pour déceler davantage de cas de surdénombrement.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X201300014273
    Description :

    De plus en plus de données sont produites au moyen du nombre croissant de dispositifs électroniques qui nous entourent et que l’on retrouve sur Internet. La grande quantité de données et la fréquence élevée à laquelle elles sont produites ont donné lieu à l’introduction du terme « mégadonnées ». Compte tenu du fait que ces données rendent compte de nombreux aspects différents de nos vies au quotidien, et en raison de leur abondance et de leur disponibilité, les sources de mégadonnées sont très intéressantes du point de vue des statistiques officielles. Toutefois, les premières expériences obtenues suite aux analyses de grandes quantités d’enregistrements de boucles de détection de véhicules au Pays-Bas, d’enregistrements des détails des appels de téléphones mobiles et de messages des médias sociaux aux Pays-Bas révèlent qu’un certain nombre de défis doivent être résolus pour permettre l’application de ces sources de données aux statistiques officielles. Ces défis, ainsi que les leçons apprises pendant les études initiales, seront traitées et illustrées au moyen d’exemples. De façon plus particulière, les sujets suivants sont abordés : les trois types généraux de mégadonnées définis, la nécessité d’accéder à des quantités importantes de données et de les analyser, la façon de traiter les données qui comportent du bruit et d’aborder la sélectivité (ainsi que notre propre biais concernant ce sujet), comment aller au-delà de la corrélation, la façon de trouver les personnes ayant les compétences adéquates et la bonne attitude pour exécuter ce travail, et comment nous avons traité les problèmes de protection des renseignements personnels et de sécurité.

    Date de diffusion : 2014-10-31

  • Produits techniques : 11-522-X200800010937
    Description :

    Le contexte de la discussion est la fréquence croissante des enquêtes internationales, dont fait partie l'International Tobacco Control (ITC) Policy Evaluation Project, qui a débuté en 2002. Les enquêtes ITC nationales, qui sont longitudinales, ont pour but d'évaluer les effets des mesures stratégiques adoptées dans divers pays en vertu de la Convention-cadre pour la lutte antitabac de l'OMS. Nous examinons et illustrons les défis que posent l'organisation, la collecte des données et l'analyse des enquêtes internationales. L'analyse est une raison qui motive de plus en plus la réalisation d'enquêtes transculturelles à grande échelle. La difficulté fondamentale de l'analyse est de discerner la réponse réelle (ou le manque de réponse) aux changements de politiques et de la séparer des effets du mode de collecte des données, de la non-réponse différentielle, des événements extérieurs, de la durée de la présence dans l'échantillon, de la culture et de la langue. Deux problèmes ayant trait à l'analyse statistique sont examinés. Le premier est celui de savoir quand et comment analyser des données regroupées provenant de plusieurs pays, afin de renforcer des conclusions qui pourraient être généralement valides. Bien que cela paraisse simple, dans certains cas les avis sont partagés quant à la mesure dans laquelle ce regroupement est possible et raisonnable. Selon certains, les modèles à effets aléatoires sont conceptuellement utiles pour les comparaisons formelles. Le deuxième problème consiste à trouver des modèles de mesure applicables à diverses cultures et à divers modes de collecte de données qui permettent l'étalonnage des réponses continues, binaires et ordinales, ainsi que la production de comparaisons dont ont été éliminés les effets extérieurs. Nous constatons que les modèles hiérarchiques offrent un moyen naturel de relâcher les exigences d'invariance du modèle entre les groupes.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010949
    Description :

    La portée élargie des lois sur l'égalité au Royaume-Uni a entraîné l'obligation de recueillir des données sur l'orientation sexuelle. C'est pourquoi l'ONS a lancé un projet dont l'objectif est de donner des conseils sur la meilleure façon de recueillir des données sur ce sujet et d'examiner la possibilité de fournir des données qui répondront aux besoins des utilisateurs.

    Le projet porte sur les méthodes qualitatives et quantitatives de recherche liées à l'élaboration des questions et aux aspects opérationnels des enquêtes. Il comprend notamment :

    un examen des enquêtes du Royaume-Uni et d'autres pays qui recueillent déjà des données sur l'orientation/identité sexuelle;une série de groupes de discussion portant sur des questions d'ordre conceptuel entourant la notion d'« identité sexuelle », y compris les termes connexes et le caractère acceptable des questions dans le contexte d'enquêtes-ménages à objectifs multiples;une série d'essais quantitatifs portant une attention particulière à la non-réponse, à l'administration des questions et à la collecte des données;des tests cognitifs pour s'assurer que les questions sont interprétées comme il se doit;une recherche quantitative sur le biais potentiel lié aux réponses par personne interposée.Les problèmes concernant les analyses futures et les rapports sont examinés en même temps que l'élaboration des questions, par exemple ceux liés à l'établissement de statistiques exactes sur les populations présentant une faible prévalence.

    L'exposé porte également sur des questions pratiques d'administration des enquêtes concernant la garantie de confidentialité dans une situation d'interviews simultanées, qu'il s'agisse d'interviews sur place ou d'interviews téléphoniques.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011003
    Description :

    Le but de la présente étude est d'examiner la possibilité d'élaborer des facteurs de correction pour rajuster les mesures de l'indice de masse corporelle fondées sur des données autodéclarées afin d'obtenir des valeurs plus proches de celles calculées d'après des données mesurées. Les données proviennent de l'Enquête sur la santé dans les collectivités canadiennes de 2005 (ESCC) dans le cadre de laquelle on a demandé aux répondants d'indiquer leur taille et leur poids, lesquels ont ensuite été mesurés. Des analyses par régression ont été effectuées pour déterminer quelles caractéristiques sociodémographiques et relatives à la santé sont associées aux écarts entre les valeurs fondées sur des données autodéclarées et des données mesurées. L'échantillon a ensuite été divisé en deux groupes. Pour le premier, on a procédé à la régression de l'indice de masse corporelle (IMC) fondé sur des données autodéclarées et des prédicteurs des écarts sur l'IMC fondé sur des données mesurées. Des équations de correction ont été établies en utilisant toutes les variables explicatives ayant un effet significatif au seuil de signification de p<0,05. Puis, ces équations de correction ont été testées dans le deuxième groupe afin de calculer des estimations de la sensibilité, de la spécificité et de la prévalence de l'obésité. La relation entre l'IMC fondé sur des données mesurées, déclarées et corrigées, d'une part, et les problèmes de santé liés à l'obésité, d'autre part, a été examinée par régression logistique. Les estimations corrigées ont produit des mesures plus exactes de la prévalence de l'obésité, de l'IMC moyen et des niveaux de sensibilité. Les données autodéclarées exagéraient la relation entre l'IMC et les problèmes de santé, tandis que dans la plupart des cas, les estimations corrigées produisaient des rapports de cotes plus semblables à ceux obtenus pour l'IMC fondé sur des données mesurées.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011013
    Description :

    L'enregistrement audio des interviews peut être un outil efficace et polyvalent de collecte des données. Cependant, il peut produire de gros fichiers dont la gestion est fastidieuse. Les progrès techniques, y compris de meilleurs outils de développement de logiciels audio et l'adoption croissante de connexions Internet à large bande, ont allégé le fardeau de la collecte de données audio. Le présent article porte sur les technologies et méthodes utilisées pour enregistrer et gérer les données d'enquête recueillies par enregistrement audio en se servant d'ordinateurs portatifs, de téléphones et de connexions Internet. Le processus décrit comprend un appareil raccordé directement au récepteur téléphonique qui diffuse les conversations en continu directement vers l'ordinateur portatif pour la sauvegarde et la transmission.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800011002
    Description :

    La présente étude s'appuie sur un échantillon représentatif de la population canadienne pour quantifier le biais dû à l'utilisation de données autodéclarées sur la taille, le poids et l'indice de masse corporelle (IMC) au lieu de mesures directes. Nous comparons les associations entre les catégories d'IMC et certains problèmes de santé afin de déterminer si les erreurs de classification résultant de l'utilisation de données autodéclarées modifient les associations entre l'obésité et les problèmes de santé. L'analyse est fondée sur 4 567 répondants à l'Enquête sur la santé dans les collectivités canadiennes (ESCC) de 2005 qui, durant une interview sur place, ont déclaré leur taille et leur poids, puis ont été mesurés et pesés par un intervieweur ayant reçu une formation appropriée. En se basant sur les données autodéclarées, une proportion importante de personnes ayant un excès de poids ont été classées incorrectement dans des catégories d'IMC plus faible. Ces erreurs de classification se sont soldées par des associations plus fortes entre l'excès de poids ou l'obésité et la morbidité.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010995
    Description :

    L'article intitulé « The Optimum Time at which to Conduct Survey Interviews » publié en 1992 cherchait à illustrer les avantages économiques que pouvaient tirer les organismes spécialisés en études de marché de la structuration des profils d'appels des intervieweurs dans les enquêtes-ménages. Les résultats étaient fondés sur l'enquête intercensitaire menée en 1986 au Pays de Galles (Welsh Inter Censal Survey). Le présent article fournit des renseignements supplémentaires sur les profils d'appels des intervieweurs provenant d'enquêtes semblables réalisées en 1997 et en 2006 en vue de déterminer si ces profils avaient changé. Ont également été examinées l'importance d'obtenir une réponse à l'enquête qui est représentative de la population et la façon dont l'adoption de stratégies d'appel efficaces permet d'atteindre cet objectif.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010955
    Description :

    Les gestionnaires d'enquête commencent tout juste à découvrir les nombreuses utilités de l'enregistrement audionumérique pour la surveillance et la gestion du personnel sur le terrain. Jusqu'ici, cette technique a surtout permis de garantir l'authenticité des interviews, de déceler la falsification, de fournir des exemples concrets permettant d'évaluer le rendement sur le terrain puis de renseigner les gestionnaires de la collecte des données sur les interviews menées en personne. Par ailleurs, l'interview enregistrée assistée par ordinateur (IEAO) permet d'améliorer certains aspects de la qualité des données d'enquête en corroborant ou en corrigeant les réponses codées par le personnel travaillant sur le terrain. À l'avenir, l'enregistrement sonore pourrait même remplacer ou suppléer la transcription textuelle des réponses libres, sur le terrain, d'autant plus qu'il promet de gagner en efficacité grâce aux logiciels de traduction de la voix en texte.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010990
    Description :

    L'Enquête sur la satisfaction des usagers à l'égard des services de santé et des services sociaux du Québec a pour objectif de fournir des estimations sur la satisfaction selon trois lieux de consultation (hôpital, clinique médicale et CLSC). Puisqu'un usager peut avoir consulté de un à trois lieux, et que le questionnaire ne peut porter que sur un seul de ces lieux, un mécanisme de sélection aléatoire du lieu de consultation a été mis en place. Nécessitant des probabilités de sélection variables, ce mécanisme de sélection a la particularité d'avoir été modifié en cours de collecte pour s'adapter de plus en plus aux disparités régionales, quant à l'utilisation des services de santé et des services sociaux.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010966
    Description :

    Blaise est en cours de développement à Statistique Canada depuis 1997. Au fil des ans, la complexité des applications qui ont été déployées en utilisant ce logiciel n'a cessé de croître. L'année dernière, une approche fort intéressante a été élaborée pour lire des données biométriques directement à partir d'instruments médicaux et entrer ces données dans le logiciel Blaise. La communication traitera des nouvelles utilisations du logiciel qui ouvrent la porte à une multitude d'applications différentes et à l'accroissement de la qualité des données associé à cette méthode de collecte.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200800010956
    Description :

    L'utilisation de l'interview enregistrée assistée par ordinateur (IEAO) comme outil pour déceler la falsification des interviews est de plus en plus fréquente dans les études par sondage (Biemer, 2000, 2003; Thissen, 2007). De même, les spécialistes de la recherche sur les enquêtes commencent à accroître l'utilité de l'IEAO en combinant les enregistrements sonores au codage pour résoudre les problèmes de qualité des données (Herget, 2001; Hansen, 2005; McGee, 2007). La communication porte sur les résultats d'une étude intégrée dans la National Home and Hospice Care Survey (NHHCS) réalisée auprès des établissements de santé par le National Center for Health Statistics, dans laquelle le codage du comportement fondé sur l'IEAO et des paradonnées particulières à l'IEAO ont été utilisés pour 1) repérer et corriger les problèmes de comportement des intervieweurs ou ceux relatifs aux questions au début de la période de collecte des données, avant qu'ils n'aient un effet négatif sur la qualité des données et 2) trouver des moyens de réduire l'erreur de mesure dans les futures exécutions de la NHHCS. Au cours des neuf premières semaines de la période de travail sur le terrain de 30 semaines, l'IEAO a été utilisée pour enregistrer chez tous les intervieweurs l'administration d'un sous-ensemble de questions de l'application de la NHHCS. Les enregistrements ont été reliés à l'application d'interview et aux données de sortie, puis codés selon l'un de deux modes, à savoir le codage par intervieweur ou le codage par question. La méthode de codage par intervieweur a permis d'examiner les problèmes particuliers à un intervieweur, ainsi que les problèmes plus généraux s'appliquant éventuellement à tous les intervieweurs. La méthode de codage par question a produit des données fournissant des éclaircissements sur l'intelligibilité des questions et d'autres problèmes de réponse. Sous ce mode, les codeurs ont codé plusieurs applications de la même question par plusieurs intervieweurs. Grâce à l'approche du codage par question, les chercheurs ont relevé des problèmes ayant trait à trois questions importantes de l'enquête durant les premières semaines de la collecte des données et ont donné aux intervieweurs des directives quant à la façon de traiter ces questions à mesure que la collecte des données s'est poursuivie. Les résultats du codage des enregistrements sonores (qui étaient reliés à l'application d'enquête et aux données de sortie) fourniront des renseignements qui permettront d'améliorer l'énoncé des questions et la formation des intervieweurs en prévision de la prochaine vague de la NHHCS et orienteront les travaux en vue de poursuivre l'amélioration de l'application d'IEAO et du système de codage.

    Date de diffusion : 2009-12-03

  • Produits techniques : 11-522-X200600110424
    Description :

    L'enquête réalisée par la Chine dans le cadre du programme de lutte internationale contre le tabagisme (ITC pour International Tobacco Control) comprend un plan d'échantillonnage à plusieurs degrés avec probabilités inégales où les grappes du niveau supérieur sont sélectionnées par la méthode d'échantillonnage PPT systématique randomisé. Durant l'exécution de l'enquête, il faut résoudre le problème suivant : plusieurs grappes de niveau supérieur échantillonnées refusent de participer et doivent être remplacées par des unités de substitution sélectionnées parmi les unités non incluses dans l'échantillon initial, de nouveau par la méthode d'échantillonnage PPT systématique randomisé. Dans de telles conditions, les probabilités d'inclusion de premier ordre des unités finales sélectionnées sont très difficiles à calculer et la détermination des probabilités d'inclusion de deuxième ordre devient virtuellement impossible. Dans le présent article, nous élaborons une méthode fondée sur la simulation pour calculer les probabilités d'inclusion de premier et de deuxième ordre lorsque le calcul direct est prohibitif ou impossible. Nous démontrons l'efficacité de la méthode que nous proposons en nous appuyant sur des considérations théoriques et des exemples numériques. Nous incluons plusieurs fonctions et codes R/S PLUS pour la procédure proposée. La méthode peut être étendue à des situations de refus/substitution plus complexes susceptibles de survenir en pratique.

    Date de diffusion : 2008-06-26

  • Produits techniques : 11-522-X200600110450
    Description :

    À l'aide de données d'enquête et de données historiques sur les tentatives de prise de contact recueillies au cours de la National Health Interview Survey (NHIS) de 2005, qui est une enquête polyvalente sur la santé réalisée par le National Center for Health Statistics (NCHS) des Centers for Disease Control and Prevention (CDC), nous examinons l'incidence des préoccupations ou des réticences des participants sur la qualité des données, telle qu'elle est mesurée par les taux d'interviews partiellement achevées et de non réponse partielle. Dans l'ensemble, les résultats indiquent que les répondants provenant de ménages dans lesquels une certaine forme de préoccupations ou de réticences (p. ex., "Trop occupé", "Pas intéressé") a été exprimée produisent des taux plus élevés d'interviews partiellement achevées et de non réponse partielle que ceux provenant de ménages dans lesquels aucune préoccupation ou réticence n'a été exprimée. Les différences selon le type de préoccupations sont également relevées.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110411
    Description :

    L'Enquête sur la santé dans les collectivités canadiennes comporte deux enquêtes transversales menées en alternance sur un cycle annuel. Les deux enquêtes recueillent des renseignements généraux sur la santé; la deuxième, de moindre envergure, recueille des renseignements supplémentaires sur des aspects précis de la santé. Même si la taille des échantillons est importante, les utilisateurs sont intéressés à combiner les cycles de l'ESCC afin d'améliorer la qualité des estimations et de produire des estimations pour les petits domaines géographiques ou pour des caractéristiques ou des populations rares. Le présent document porte sur certains enjeux liés à la combinaison des cycles de l'ESCC, dont les interprétations possibles du résultat combiné, ainsi que sur certaines méthodes de combinaison des cycles.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110412
    Description :

    L'Enquête canadienne sur les mesures de la santé (ECMS) est la première enquête de Statistique Canada qui s'appuie sur un ensemble complet de mesures physiques directes de la santé. L'ECMS permettra de recueillir des données sur la santé, par mesures directes, auprès d'un échantillon représentatif de 5 000 Canadiens âgés de 6 à 79 ans de 2007 à 2009. Après une interview approfondie sur la santé menée à domicile, les répondants se rendent à un centre d'examen mobile où des mesures directes de leur santé sont prises. Parmi ces mesures figurent l'évaluation de la condition physique, des mesures anthropométriques, l'évaluation objective de l'activité physique, des mesures spirométriques, la pression artérielle, l'évaluation de la santé bucco-dentaire et le prélèvement d'échantillons de sang et d'urine. Les analyses de sang et d'urine permettent de détecter des maladies chroniques et des maladies infectieuses, et de fournir des indicateurs de la nutrition et des biomarqueurs environnementaux. Cette enquête pose de nombreux défis bien particuliers qui se manifestent rarement dans les autres enquêtes de Statistique Canada. Le présent article fait état de certains de ces défis. Les données recueillies dans le cadre de l'ECMS sont uniques en leur genre et représentent un outil précieux de surveillance et de recherche en matière de santé au Canada.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X200600110524
    Description :

    Les courbes de croissance sont utilisées par les professionnels de la santé afin de déterminer si la croissance d'un enfant ou d'un foetus, par exemple, se situe dans les limites normales. Les graphiques de croissance employés à l'heure actuelle au Canada pour la taille, le poids et l'indice de masse corporelle (IMC) sont fondés sur des données américaines. Des courbes de croissance pour les enfants peuvent maintenant être établies d'après les données les plus récentes disponibles au Canada. L'une des méthodes servant à estimer et à tracer les courbes de croissance est la méthode Lambda-Mu-Sigma (LMS). Cette dernière a été utilisée dans le cadre de diverses études réalisées par l'Organisation mondiale de la santé, le Royaume-Uni et les États-Unis afin d'établir des courbes de croissance de référence pour les enfants. Dans cet article, la méthode LMS est utilisée pour estimer les courbes de croissance en percentiles de l'IMC au moyen de données transversales pondérées du cycle 2.2 de l'Enquête sur la santé dans les collectivités canadiennes. Cet article porte sur l'IMC des enfants, l'une des mesures anthropométriques les plus couramment utilisées pour évaluer la croissance et l'obésité.

    Date de diffusion : 2008-03-17

  • Produits techniques : 11-522-X20050019446
    Description :

    Une méthode utilisée pour examiner l'effet de la non réponse consiste à comparer les personnes dont la participation à une enquête demande moins d'effort de la part des intervieweurs à celles dont l'obtention de la participation nécessite plus d'effort. L'un des problèmes qui continuent de se poser aux chercheurs est celui des critères qu'il convient d'utiliser pour déterminer l'appartenance au groupe nécessitant un grand effort.

    Date de diffusion : 2007-03-02

  • Produits techniques : 11-522-X20050019468
    Description :

    Au moment de leur recrutement, les participants à une enquête longitudinale sont choisis de façon à ce qu'ils soient représentatifs d'une population. À mesure que le temps passe, certains participants cessent généralement de participer à l'enquête et les abandons peuvent être informatifs en ce sens qu'ils dépendent des variables de réponse étudiées. Cependant, même si le taux d'abandon est minime, les participants qui vont jusqu'au deuxième et au troisième cycles d'une enquête longitudinale pourraient différer de façon subtile de la population qu'ils sont supposés représenter. Il est manifestement important de tenir compte de ce genre d'éventualité lors de la conception des enquêtes longitudinales et de l'analyse des données recueillies avant et après une intervention.

    Date de diffusion : 2007-03-02

Date de modification :