Rimozione dei valori anomali dai dati: numero massimo di valori anomali che è possibile rimuovere?


9

Ho un paio di valori anomali nei miei dati e volevo escluderli per vedere se questo cambia i risultati. Secondo te, qual è il numero massimo di valori anomali che uno dovrebbe limitare?

Grazie! inserisci qui la descrizione dell'immagine


Qui il tuo grafico è alterato: mancano le etichette numeriche sull'asse y e le voci della legenda non sono distinte. (Potrebbe essere un modo per nascondere dati non pubblicati, ma non ci aiuta a darti buoni consigli.) La legenda criptica non influisce sulla tua domanda, ma non sapere su quale scala stai lavorando limita la possibilità di risposte utili . I dati mostrati mostrano un'inclinazione moderata a sinistra o negativa; questo può avere senso, e gli apparenti valori anomali ne sono solo conseguenze. In alternativa, è possibile che tu abbia trasformato eccessivamente, ad esempio logaritmi usati in cui i dati non lo meritano.
Nick Cox,

Risposte:


9

Non esiste un massimo o un minimo. I valori anomali devono essere rimossi se si tratta di dati errati o se vi sono altri motivi sostanziali per rimuoverli. Se non ci sono ragioni sostanziali, allora suggerisco di usare metodi che siano robusti per gli outlier. Non rimuoverei gli outlier solo perché sono un po 'lontani dagli altri punti.


5
Concordato. Nota Box, Hunter & Hunter: "Statistics for Experimenters" afferma che nell'industria chimica, i valori anomali hanno spesso portato a nuovi brevetti! A seconda delle circostanze, i valori anomali potrebbero essere la singola informazione più importante nei tuoi dati! Rimuoverli non dovrebbe mai essere facile.
kjetil b halvorsen,

3
Anche in astrofisica. "Eliminiamo semplicemente i buchi neri e le stelle di neutroni dai dati" :-).
Peter Flom

1
Peter Flom: Sì! E tra gli esseri umani, se non ci fossero valori anomali tra noi, vivremmo ancora nell'età della pietra!
kjetil b halvorsen,

5
In questo esempio, si noti che tutti e 7 i valori anomali etichettati hanno valori bassi, mentre nessuno ha valori alti. Ciò potrebbe rappresentare problemi con la misurazione o potrebbe significare qualcosa di molto interessante. Ad ogni modo, la semplice rimozione di valori anomali qui senza considerare ciò che ha portato a valori bassi sembrerebbe sconsigliabile.
EdM,

1
Interpreto la domanda in modo leggermente diverso. Non propone di rimuovere i valori anomali dall'analisi, che è ciò che assume implicitamente questa risposta. Chiede solo come condurre un'analisi di sensibilità "per vedere se questo cambia i risultati". Sebbene i consigli qui forniti sull'opportunità di rimuovere i valori anomali vadano bene - e chiaramente influenzerebbero le decisioni successive se risultasse che l'analisi è sensibile ai valori erratici - in questo caso non sembra servire gli interessi del PO.
whuber

1

Vorrei sottolineare qualcosa che è stato detto in un'altra risposta e nei commenti (penso che le risposte di @Peter Flom siano accurate e che EdM abbia ragione al tatto sulle misurazioni, tra tutte).

L'analisi dei dati è qualcosa che deve essere fatto con attenzione. Devi essere ben consapevole del significato di valori anomali nei tuoi contatti. Ad esempio, supponendo che la procedura di misurazione sia stata eseguita "correttamente" (voglio dire, non hai introdotto errori, l'apparecchiatura è stata calibrata, la persona che ha letto lo strumento ha eseguito correttamente, ecc. Ecc.), Alcuni valori anomali potrebbero dire qualcosa di interessante e a volte molto importante.

Ecco un esempio inventato, sii indulgente (indicalo nei commenti) se non è giusto al 100% su tutti gli aspetti. ;)

Supponiamo che qualcuno stia testando l'effetto dell'applicazione di una certa quantità di una sostanza su alcune colture (popolazioni) di batteri. Ora, "in generale", l'effetto è stabilizzare il numero di batteri nella popolazione, ma ci sono alcuni valori anomali tra le diverse culture.

Immagina che tutti i tuoi valori anomali indichino situazioni in cui tutti i batteri sono morti. O che tutti i valori anomali rappresentano culture in cui le popolazioni di batteri sono cresciute senza controllo.

Quello che voglio sottolineare è che la natura dei tuoi valori anomali percepiti potrebbe essere significativa e le conseguenze di ciascuno sono diverse. Potresti trovarti in una situazione in cui è intollerabile che il numero di batteri aumenti o diminuisca.

Naturalmente, se notaste che alcune popolazioni sono state spazzate via dalla sostanza, probabilmente indaghereste sulla questione poiché si tratta di una situazione facilmente riconoscibile. Ma non tutti i fenomeni sono facilmente rilevabili.

Per concludere, la nozione di valori anomali è in qualche modo arbitraria, ma i loro significati sono molteplici e di diversa importanza. Spero che ti faccia pensare in merito ... :)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.