Rilevamento di valori anomali mediante deviazioni standard


27

Seguendo la mia domanda qui , mi chiedo se ci sono punti di vista forti a favore o contro l'uso della deviazione standard per rilevare valori anomali (ad es. Qualsiasi punto dati che è più di 2 deviazione standard è un valore anomalo).

So che questo dipende dal contesto dello studio, ad esempio un punto dati, 48 kg, sarà sicuramente un valore anomalo in uno studio sul peso dei bambini, ma non in uno studio sul peso degli adulti.

I valori anomali sono il risultato di una serie di fattori come errori di immissione dei dati. Nel mio caso, questi processi sono robusti.

Immagino che la domanda che mi pongo sia: usare la deviazione standard è un metodo valido per rilevare valori anomali?


1
Dici "Nel mio caso questi processi sono robusti". Vuoi dire cosa? Sei sicuro di non avere errori di immissione dei dati?
Wayne,

Ci sono così tante buone risposte qui che non sono sicuro di quale risposta accettare! Qualsiasi consiglio su questo sarebbe utile
Amarald,

In generale, seleziona quello che ritieni risponda alla tua domanda in modo più diretto e chiaro e, se è troppo difficile da dire, sceglierei quello con il punteggio più alto. Anche se è un po 'doloroso decidere quale, è importante premiare qualcuno che si è preso il tempo di rispondere.
Wayne,

1
PS Potresti chiarire con una nota cosa intendi con "questi processi sono robusti"? Non è fondamentale per le risposte, che si concentrano sulla normalità, ecc., Ma penso che abbia qualche rilevanza.
Wayne,

3
I valori anomali non sono privi di modello. Un valore anomalo insolito in un modello può essere un punto perfettamente normale in un altro. La prima domanda dovrebbe essere "perché stai cercando di rilevare valori anomali?" (piuttosto che fare qualcos'altro, come usare metodi affidabili per loro), e il secondo sarebbe "ciò che rende un'osservazione un valore anomalo nella tua particolare applicazione?"
Glen_b -Restastate Monica il

Risposte:


26

Alcuni valori anomali sono chiaramente impossibili . Citi 48 kg per il peso del bambino. Questo è chiaramente un errore. Non è un problema statistico , è sostanziale. Non ci sono bambini umani di 48 kg. Qualsiasi metodo statistico identificherà tale punto.

Personalmente, piuttosto che fare affidamento su qualsiasi test (anche quelli appropriati, come raccomandato da @Michael) vorrei rappresentare graficamente i dati. Mostrare che un certo valore (o valori) di dati è improbabile in una distribuzione ipotizzata non significa che il valore sia errato e quindi i valori non dovrebbero essere eliminati automaticamente solo perché sono estremi.

Inoltre, la regola che proponi (2 DS ​​dalla media) è una vecchia che veniva utilizzata nei giorni precedenti ai computer per semplificare le cose. Se N è 100.000, allora ci si aspetta sicuramente parecchi valori più di 2 SD dalla media, anche se c'è una distribuzione normale perfetta.

E se la distribuzione fosse sbagliata? Supponiamo che nella popolazione la variabile in questione non sia normalmente distribuita ma abbia code più pesanti di quella?


1
Qual è il valore più grande del peso del bambino che considereresti possibile?
mark999,

2
Non lo so. Ma si potrebbe cercare il record. Secondo reply.com (da un veloce google) erano 23.12 sterline, nati da due genitori con gigantismo. Se stavo facendo la ricerca, controllerei ulteriormente.
Peter Flom - Ripristina Monica

Cosa succede se non è possibile ispezionare visivamente i dati (ovvero potrebbe far parte di un processo automatico?)
user90772

Aggiungi dei grafici all'automazione, in qualche modo.
Peter Flom - Ripristina Monica

24

Sì. È un brutto modo di "rilevare" i multidiffusori. Per i dati normalmente distribuiti, un tale metodo chiamerebbe il 5% delle osservazioni perfettamente valide (ma leggermente estreme) "valori anomali". Anche quando hai un campione di dimensione n e cerchi osservazioni estremamente alte o basse per chiamarle valori anomali, stai davvero guardando le statistiche degli ordini estremi. Il massimo e il minimo di un campione normalmente distribuito non sono normalmente distribuiti. Quindi il test dovrebbe essere basato sulla distribuzione degli estremi. Questo è ciò che fanno il test di Grubbs e quello di Dixon, come ho già detto più volte. Anche quando si utilizza un test appropriato per i valori anomali, un'osservazione non deve essere respinta solo perché è insolitamente estrema. Dovresti indagare sul perché l'osservazione estrema si è verificata per prima.


1
Altrettanto "cattivo" come rifiutare H0 in base a un basso valore p.
Leone,

16

Quando chiedi quante deviazioni standard dalla media è un potenziale anomalo, non dimenticare che lo stesso anomalo aumenterà la DS e influenzerà anche il valore della media. Se hai valori N, il rapporto della distanza dalla media diviso per la SD non può mai superare (N-1) / sqrt (N). Ciò conta di più, ovviamente, con piccoli campioni. Ad esempio, se N = 3, nessun valore anomalo può eventualmente essere superiore a 1.155 * SD dalla media, quindi è impossibile che qualsiasi valore sia mai superiore a 2 SD dalla media. (Ciò presuppone, ovviamente, che si stia calcolando la SD campione dai dati a portata di mano e che non si abbia una ragione teorica per conoscere la SD della popolazione).

I valori critici per il test di Grubbs sono stati calcolati per tenerne conto, e quindi dipendono dalla dimensione del campione.


12

Penso che il contesto sia tutto. Per l'esempio dato, sì, chiaramente un bambino di 48 kg è errato e l'uso di 2 deviazioni standard catturerebbe questo caso. Tuttavia, non vi è motivo di pensare che l'uso di 2 deviazioni standard (o qualsiasi altro multiplo di SD) sia appropriato per altri dati. Ad esempio, se si stanno osservando residui di pesticidi nelle acque superficiali, i dati oltre 2 deviazioni standard sono abbastanza comuni. Questi valori particolarmente alti non sono "valori anomali", anche se risiedono lontano dalla media, poiché sono dovuti a eventi di pioggia, recenti applicazioni di pesticidi, ecc. Naturalmente, è possibile creare altre "regole empiriche" (perché non 1,5 × SD, o 3.1415927 × SD?), Ma francamente tali regole sono difficili da difendere e il loro successo o fallimento cambierà a seconda dei dati che stai esaminando. Penso che usando il giudizio e la logica, nonostante la soggettività, è un metodo migliore per sbarazzarsi degli outlier, piuttosto che usare una regola arbitraria. In questo caso, non era necessario un 2 × SD per rilevare il valore anomalo di 48 kg: era possibile ragionarlo. Non è un metodo superiore? Per i casi in cui non puoi ragionare, beh, le regole arbitrarie sono migliori?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.