Quali sono i meriti relativi dei dati Winsorizing vs. Trimming?


31

Winsorizing data significa sostituire i valori estremi di un set di dati con un certo valore percentile da ciascuna estremità, mentre il Trimming o Truncating comporta la rimozione di quei valori estremi.

Vedo sempre entrambi i metodi discussi come un'opzione praticabile per ridurre l'effetto dei valori anomali quando si calcolano statistiche come la media o la deviazione standard, ma non ho visto perché uno potrebbe sceglierne uno sopra l'altro.

Ci sono vantaggi o svantaggi relativi all'utilizzo di Winsorizing o Trimming? Ci sono alcune situazioni in cui sarebbe preferibile un metodo? Uno è usato più spesso nella pratica o sono sostanzialmente intercambiabili?


2
La terminologia qui è fuorviante. Tagliare significa ignorare i valori estremi, una frazione di ciascuna coda. Ciò non implica la cancellazione o la caduta di valori nelle code, anche perché potresti, e di solito, includerli in altre analisi. Il termine troncamento è meglio riservato per altri significati. Vedi ad esempio en.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox

Risposte:


11

In una domanda diversa, ma correlata sulla rifilatura che mi sono appena imbattuto, una risposta ha avuto le seguenti intuizioni utili sul perché si potrebbe usare sia ridimensionamento che rifilatura:

Se prendi la distribuzione ridotta, dichiari esplicitamente: Non sono interessato ai valori anomali / alle code della distribuzione. Se ritieni che i "valori anomali" siano realmente valori anomali (ovvero, non appartengono alla distribuzione, ma sono di "un altro tipo"), allora esegui il taglio. Se ritieni che appartengano alla distribuzione, ma desideri avere una distribuzione meno distorta, potresti pensare al sistema di sponsorizzazione.

Sono curioso di sapere se esiste un approccio più definitivo, ma la logica di cui sopra sembra ragionevole.


4

Una buona domanda che viene affrontata molto spesso in tutti i campi! In entrambi i casi, li stai tecnicamente rimuovendo dal set di dati.

So che è pratica comune quando si tenta di trovare graficamente una tendenza per utilizzare una forma di troncamento: utilizzare l'intero set di dati per scopi di stampa, ma quindi escludere i valori estremi per l'interpretazione.

Il problema con il "Winsorizing" è che le parti che si aggiungono sono auto-riempitive, cioè hanno origine dal set di dati stesso e quindi lo supportano. Ci sono problemi semplici se si considera il lavoro di convalida incrociata / classificazione nell'apprendimento automatico, quando si decide come utilizzare la formazione e testare i set di dati.

In ogni caso non ho riscontrato un approccio standardizzato: è sempre specifico per i dati. Puoi provare a scoprire quale percentile dei tuoi dati (i valori anomali) stanno causando una determinata percentuale della volatilità / st. deviazione e trovare un equilibrio tra la riduzione di quella volatilità ma la conservazione del maggior numero possibile di dati.


6
Come nel mio commento sopra, "rimuoverli dal set di dati" è troppo forte qui. Ritagliare o Winsorizing significa semplicemente cosa fa, ignorando o sostituendo, per un certo calcolo. Non sei obbligato a rimuovere i valori di coda dal set di dati, come se stessi lanciando frutta marcia. Ad esempio, di fronte a possibili valori anomali, potresti fare un'analisi dei dati man mano che vengono e un'analisi basata sul taglio e vedere quale differenza fa.
Nick Cox,

-1

Questa è una buona domanda, e una che ho dovuto affrontare. Nei casi in cui disponi di un set di dati di grandi dimensioni o di un set di dati in gran parte più accurato, in cui la minoranza dei valori dei dati varia su larga scala (ma è comunque necessario mostrarli) e la maggior parte del set di dati si trova in una banda stretta, in modo tale che se i dati sono tracciati così come sono, i dettagli in cui si perdono la maggior parte dei dati e la normalizzazione o la standardizzazione non mostrano un'adeguata differenziazione (almeno visivamente) o sono invece necessari dati grezzi, quindi troncando o vincolando il valori di dati estremi aiutano a una migliore visualizzazione dei dati.


È una buona domanda, ma non rispondi. Dici solo che troncare o Winsorizing può aiutare la visualizzazione.
Nick Cox,

-2

O(nlogn)O(n)(1,2,3,4,4)(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
O(nlogn)O(n)

Hai ragione. Ho sbagliato a scrivere il mio post originale. A volte le dita digitanti e il cervello non sono sincronizzati. Volevo dire che per calcolare correttamente una media troncata , è necessario ordinare tutti gli elementi di dati. Credo che sia ancora vero. Ho aggiornato per risposta.
Mark Lakata,

2
Questo sembra implicare che Winsorizing significa Winsorizing 25% in ogni coda. Puoi Winsorize tanto o quanto sembra appropriato.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.