Une mise en garde concernant la winsorisation de Clark Section 4. Zones de détection

Nous examinons, dans trois scénarios, la plage de valeurs influentes définie par la winsorisation de Clark et appelée zone de détection. Un des scénarios correspond à la présence d’une seule valeur très influente dans l’échantillon. Dans les deux autres, l’échantillon contient deux valeurs très influentes.

Les figures 4.1 et 4.2 font appel à des grilles de données non pondérées pour illustrer les zones de détection pour l’application de l’algorithme de winsorisation de Clark à un seul échantillon provenant d’une industrie de la MRTS simulée, caractérisée par une faible volatilité, un revenu mensuel de 2,5 milliards de dollars et une taille d’échantillon de 147. Dans ces figures, chaque point ( x , y ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaeWaaeaaca WG4bGaaiilaiaadMhaaiaawIcacaGLPaaaaaa@38A2@ de la grille correspond à une valeur influente possible, où x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiEaaaa@356B@ représente la valeur non pondérée pour le mois précédent et y , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEaiaacY caaaa@361C@ la valeur non pondérée du mois courant. Puisque les poids pour une même entreprise varient rarement d’un mois à l’autre, les diagrammes de dispersion des valeurs pondérées sont similaires et ne sont donc pas présentés. Nous utilisons les poids d’échantillonnage pour les points de la grille et ne modifions pas les poids dans notre simulation. Tous les points situés sur une droite verticale ont le même poids, les poids d’échantillonnage étant plus faibles pour les unités possédant les valeurs des ventes plus élevées. Les zones de détection sont construites en insérant chaque paire de coordonnées ( x , y ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaeWaaeaaca WG4bGaaiilaiaadMhaaiaawIcacaGLPaaaaaa@38A2@ de la grille dans l’échantillon, puis en exécutant l’algorithme de winsorisation de Clark avec la paramétrisation décrite à la section 3 pour voir si la valeur y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEaaaa@356C@ pondérée dans la paire insérée est désignée comme étant influente.

4.1 Résultats pour une valeur influente

À la présente section, nous illustrons l’effet qu’a sur la zone de détection un échantillon contenant une seule valeur influente, ce que nous appellerons scénario 1 dans la suite de l’exposé. À la figure 4.1, les observations non pondérées de l’échantillon utilisé pour former les zones de détection sont tracées en noir, l’axe des x MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiEaaaa@356B@ représente la valeur du mois précédent et l’axe des y , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEaiaacY caaaa@361C@ celle du mois courant. La droite de régression robuste obtenue par la méthode de la moindre médiane des carrés et utilisée dans le modèle de prédiction est incluse à titre de référence. Pour l’échantillon donné, une observation située dans la zone hachurée gris clair (zone de détection) est signalée comme étant influente et ajustée par la méthode de winsorisation de Clark. La droite verticale en trait pointillé marque l’observation échantillonnée la plus grande dont le poids est supérieur à un; autrement dit, il est garanti que toutes les observations situées à la droite de cette asymptote ont un poids égal à un.

Figure 4.1 de l'article d'Une mise en garde concernant la winsorisation de Clark

Description de la figure 4.1

Cette figure illustre la zone de détection de la méthode pour une seule valeur influente à l’aide des grilles de données non-pondérées d’un exemple simulée basée sur la Monthly Retail Trade Survey (MRTS). La valeur du mois précédent est sur l’axe des x alors que la valeur du mois courant est sur l’axe des y. Les deux axes vont de 0 à 9 millions et les données sont principalement sur la diagonale. Une ligne verticale à environ 5,25 millions indique la plus grande observation dont le poids est supérieur à 1 et délimite l’extrême droite de la zone. La gauche est délimitée par 0. La limite inférieure est très près d’une ligne de régression.

La grande proximité de la limite inférieure de la zone de détection et de la droite de régression reflète la troncature qu’effectue la méthode pour minimiser l’EQM en réduisant la variance au prix de l’introduction d’un petit biais. Conséquemment, plusieurs observations non influentes dans cette zone de détection sont néanmoins tronquées légèrement. Nous avons observé ce phénomène à de nombreuses reprises dans plusieurs autres ensembles de données empiriques (différents).

4.2 Résultats pour deux valeurs influentes

Maintenant, examinons la zone de détection quand l’échantillon contient deux valeurs très influentes induites. Notre approche consiste à maintenir fixes la valeur et le poids d’une des observations induites et à permettre à la valeur de la deuxième observation induite de varier en même temps que le poids correspondant, ce qui permet de déterminer la zone de détection pour la seconde observation conditionnellement à la première. Cette approche nous permet d’évaluer si la procédure est sujette au masquage qui se produit quand une grande valeur empêche l’identification d’autres valeurs extrêmes. Nous considérons deux scénarios pour la valeur fixe. Dans le scénario 2, la contribution de la valeur influente fixe à l’estimation du total des ventes dépasse de 667 millions celle du mois précédent. Dans le scénario 3, la valeur influente fixe a un effet moins grave, puisque sa contribution est 334 millions plus élevée, soit la moitié de l’augmentation observée dans le scénario 2.

Le graphique de gauche de la figure 4.2 présente la zone de détection (en gris clair) dans le scénario 2. Ici, la valeur fixe (non pondérée) est de 350 000 au mois précédent et de 8,2 millions pour le mois courant, avec un poids de 85. Indépendamment de la présence ou non de la seconde observation dans le graphique, l’observation fixe a systématiquement été désignée comme étant influente. Notons que les observations qui auraient été désignées faussement comme étant influentes et tronquées légèrement au scénario 1 (voir la figure 4.1) n’auraient pas été modifiées dans ce scénario. Ici, la zone de détection est limitée uniquement à l’identification d’observations à effet grave similaires, qui sont supposées être atypiques.

Figure 4.2 de l'article d'Une mise en garde concernant la winsorisation de Clark

Description de la figure 4.2

Cette figure présente 2 graphes des zones de détection de la méthode lorsque l’échantillon comprend 2 valeurs influents. Dans les deux graphiques, la valeur du mois précédent est sur l’axe des x alors que la valeur du mois courant est sur l’axe des y. Les deux axes vont de 0 à 9 millions et les données sont principalement sur la diagonale. Une ligne verticale à environ 5,25 millions indique la plus grande observation dont le poids est supérieur à 1. Le premier graphique montre une étroite zone de détection vers la gauche; le second montre deux zones de détection tel que décrit dans le texte.

La différence prononcée entre le scénario 1 et le scénario 2, dans les tailles relatives des zones de détection, pourrait indiquer que cette procédure, telle qu’elle a été appliquée, est vulnérable au masquage. Le masquage a lieu quand une valeur influente empêche de déceler la présence d’une autre (Barnett et Lewis 1994). Nous examinons cette possibilité au scénario 3, en réduisant de moitié la valeur non pondérée de la valeur influente fixe dans le mois courant (maintenant 4,1 millions au lieu de 8,2 millions) tout en permettant au poids de garder la même valeur de 85. Le graphique de droite de la figure 4.2 montre deux zones ombrées différentes : l’une gris clair, où la valeur influente fixe et la seconde valeur (variable) peuvent être détectées, et l’autre gris foncé, à la gauche de la zone gris clair, où l’algorithme détecte la valeur variable comme étant influente, mais manque la valeur fixe. Les ajustements dans la zone gris clair réduisent le biais ainsi que l’EQM. Dans la zone gris foncé, les ajustements réduisent l’EQM, mais ne diminuent pas considérablement le biais. La zone en blanc à la droite de la zone gris clair indique où n’est décelée que la valeur influente fixe. Cependant, la zone en blanc contient de grandes observations dont le poids est faible, de sorte que ces observations ne représentent pas grand-chose d’autre qu’elles-mêmes et, par conséquent, les ajustements dans cette plage ont peu d’effet sur le biais.

Cette exploration préliminaire valide nos craintes quant à la possibilité d’un masquage. Une approche susceptible d’atténuer le masquage quand une série stationnaire présente un niveau élevé de bruit consiste à prendre la moyenne de L MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamitaaaa@353F@ sur plusieurs mois antérieurs, comme l’ont proposé Chambers et coll. (2000). Le plan d’échantillonnage peut être un facteur. Le graphique de gauche dans la figure 2.1 montre que les poids diminuent rapidement à mesure qu’augmentent les observations non pondérées pour les observations comprises entre 0 et 1 million. Dans cette plage, le poids de l’unité a plus d’effet que sa valeur observée sur la taille de son résidu pondéré utilisé dans le calcul de k * . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4AamaaCa aaleqabaGaaiOkaaaakiaac6caaaa@36F5@ Une variation relativement faible de la valeur de la variable peut déclencher une variation nettement plus importante de son résidu pondéré et faire changer k * , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqr=fFD0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4AamaaCa aaleqabaGaaiOkaaaakiaacYcaaaa@36F3@ ce qui affecte le nombre de valeurs influentes détectées. Les poids utilisés dans le présent exemple reflètent ceux utilisés dans la MRTS pour l’industrie en question et n’ont pas été construits artificiellement afin de créer une illustration pour la méthodologie de winsorisation de Clark.

Date de modification :