È corretto rimuovere valori anomali dai dati?


33

Ho cercato un modo per rimuovere valori anomali da un set di dati e ho trovato questa domanda .

In alcuni dei commenti e delle risposte a questa domanda, tuttavia, le persone hanno affermato che è una cattiva pratica rimuovere i valori anomali dai dati.

Nel mio set di dati ho diversi valori anomali che molto probabilmente sono dovuti solo a errori di misurazione. Anche se alcuni di loro non lo sono, non ho modo di controllarlo caso per caso, perché ci sono troppi punti dati. È statisticamente valido oltre a rimuovere i valori anomali? O, in caso contrario, quale potrebbe essere un'altra soluzione?

Se lascio solo quei punti lì, influenzano ad esempio la media in un modo che non riflette la realtà (perché la maggior parte di essi è comunque un errore).

EDIT: sto lavorando con i dati di conduttanza della pelle. La maggior parte dei valori estremi sono dovuti a artefatti come qualcuno che tira i fili.

EDIT2: Il mio interesse principale nell'analisi dei dati è determinare se esiste una differenza tra due gruppi


3
E tu cosa vuoi fare? Riepilogo dei dati? Analisi predittiva? Visualizzazione dati? Dimostrando che c'è (nessuna) differenza significativa tra due gruppi? Come per tutta la pulizia dei dati, non esiste una risposta generale.
Piotr Migdal


5
Sono un ingegnere che lavora con molte statistiche. Era una dichiarazione di non responsabilità e una confessione che significa che dovevo consegnare i prodotti. Ci è permesso solo rimuovere i punti "cattivi" completamente attribuiti. Puoi provare che veniva da qualcuno che tira un filo? Se ottieni diverse misure intenzionali, puoi legarti e raggrupparti lì. Quindi è possibile dividere i dati sul cluster (pull vs non-pull) e non si tratta più di valori anomali. Se non riesci a provare quale sia la causa principale, devi (devi) conservarla. Parla di variazioni, e questo è un grosso pezzo di analisi. Non puoi liberartene se non ti piace.
EngrStudent - Ripristina Monica

4
Penso che inizi dalla fine sbagliata. La prima domanda è come identificare gli outlier in primo luogo?
user603

5
Piuttosto che la rimozione arbitraria di valori anomali identificati in modo arbitrario, potresti essere meglio considerare qualcosa come "Dal momento che ho contaminazione da problemi come le persone che tirano i fili, quali metodologie posso usare che non sono gravemente colpite da tale contaminazione?"
Glen_b

Risposte:


26

Non raccomando di escludere eventuali valori anomali nell'analisi principale (a meno che tu non sia veramente positivo, si sbagliano). Tuttavia, è possibile farlo in un'analisi di sensibilità e confrontare i risultati delle due analisi. Nella scienza, spesso scopri nuove cose proprio quando ti concentri su tali valori anomali.

Per approfondire, basti pensare alla scoperta fondamentale della penicillina da parte di Fleming, basata sulla contaminazione accidentale dei suoi esperimenti con uno stampo:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Guardando al passato o al presente, il rilevamento anomalo viene spesso utilizzato per guidare l'innovazione nelle scienze biomediche. Vedi ad esempio i seguenti articoli (con alcuni codici R adatti):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Infine, se hai ragionevoli motivi per escludere alcuni dati, puoi farlo, preferibilmente in un'analisi di sensibilità, e non in quella primaria. Ad esempio, è possibile escludere tutti i valori che non sono biologicamente plausibili (come una temperatura di 48 gradi Celsius in un paziente settico). Allo stesso modo, è possibile escludere tutte le misurazioni prima e ultima per ogni dato paziente, per ridurre al minimo gli artefatti da movimento. Si noti tuttavia che se si esegue questa operazione post-hoc (non sulla base di criteri predefiniti), questo rischia di costituire un massaggio dei dati.


5
D'accordo, ma trovo questa risposta in qualche modo breve per votarla. Forse potresti fornire un esempio funzionante o mostrare perché e come scoprire nuove cose quando ti concentri sugli outlier? Questo potrebbe non essere così ovvio a prima vista.
Tim

26

Un'opzione è quella di escludere i valori anomali, ma IMHO è qualcosa che dovresti fare solo se puoi argomentare (con quasi certezza) perché tali punti non sono validi (ad esempio le apparecchiature di misurazione si sono rotte, il metodo di misurazione era inaffidabile per qualche motivo, ...). Ad esempio nelle misurazioni del dominio della frequenza, la DC viene spesso scartata poiché molti termini diversi contribuiscono alla DC, abbastanza spesso non correlata al fenomeno che si sta tentando di osservare.

Il problema con la rimozione di valori anomali è che per determinare quali punti sono valori anomali, è necessario disporre di un buon modello di ciò che è o non è "buono dato". Se non sei sicuro del modello (quali fattori dovrebbero essere inclusi, quale struttura ha il modello, quali sono le ipotesi del rumore, ...), allora non puoi essere sicuro dei tuoi valori anomali. Quei valori anomali potrebbero essere solo dei campioni che stanno cercando di dirti che il tuo modello è sbagliato. In altre parole: la rimozione degli outlier rafforzerà il tuo modello (errato!), Invece di permetterti di ottenere nuove intuizioni!

Un'altra opzione è utilizzare statistiche affidabili. Ad esempio, la media e la deviazione standard sono sensibili ai valori anomali, altre metriche di "posizione" e "diffusione" sono più robuste. Ad esempio invece della media, utilizzare la mediana. Invece della deviazione standard, utilizzare l'intervallo tra quartili. Invece della regressione dei minimi quadrati standard, è possibile utilizzare una regressione robusta. Tutti questi metodi solidi sottolineano in qualche modo i valori anomali, ma in genere non rimuovono completamente i dati anomali (vale a dire una cosa positiva).


5
Bella risposta. La maggior parte delle persone non si rende conto che non tutte le tecniche sono adatte per ogni tipo di dati . Concentrarsi sulla media per i dati gestiti con valori anomali è uno dei risultati sfortunati. Più risvegli ricevono, da risposte come questa, meglio è per tutti.
Rumtscho,

16

Ho pensato di aggiungere un ammonimento sulla rimozione dei valori anomali:

Ricordi il problema con il buco nello strato di ozono polare? C'era un satellite che era stato messo in orbita sopra il palo appositamente per misurare la concentrazione di ozono. Per alcuni anni i dati postelaborati dal satellite riferivano che l'ozono polare era presente a livelli normali, anche se altre fonti mostravano chiaramente che mancava l'ozono. Alla fine qualcuno tornò a controllare il software satellitare. Si è scoperto che qualcuno aveva scritto il codice per verificare se la misurazione grezza rientrava in un intervallo atteso rispetto al livello storico tipico e per supporre che qualsiasi misurazione al di fuori dell'intervallo fosse solo un "picco" dello strumento (cioè un valore anomalo), auto- correggendo il valore . Fortunatamente avevano anche registrato le misure grezze; controllandoli, videro che il buco era stato segnalato da sempre.


12
Sarebbe bene includere un riferimento all'incidente : perché non avevano scoperto il fenomeno prima? Sfortunatamente, il software di analisi dei dati TOMS era stato programmato per contrassegnare e mettere da parte i punti di dati che si discostavano notevolmente dalle misurazioni previste e quindi le misurazioni iniziali che avrebbero dovuto innescare gli allarmi erano semplicemente trascurate. In breve, il team TOMS non è riuscito a rilevare l'esaurimento dell'ozono anni prima perché era molto più grave di quanto gli scienziati si aspettassero.
Johnny,

3
Questa è una grande storia. e uno molto ripetuto, ma per me math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf lo identifica in modo convincente come un mito basato su un malinteso. Si noti per inciso che poiché ci sono due poli, "lo strato di ozono polare" deve essere riscritto.
Nick Cox,

3
Vedi anche l'autorevole account Christie. M. 2001. Lo strato di ozono Una prospettiva di filosofia della scienza. Cambridge: Cambridge UP
Nick Cox

7

'Outlier' è un termine conveniente per raccogliere dati che non si adatta a come ti aspetti che il tuo processo assomigli, al fine di rimuovere dall'analisi.

Suggerirei mai (avvertimento più tardi) di rimuovere gli outlier. Il mio background è il controllo statistico del processo, quindi spesso mi occupo di grandi volumi di dati di serie temporali generati automaticamente che vengono elaborati utilizzando un diagramma di marcia / diagramma a scatole mobili / ecc. A seconda dei dati e della distribuzione.

La cosa con gli outlier è che forniranno sempre informazioni sul tuo "processo". Spesso quello che stai pensando come un processo è in realtà molti processi ed è molto più complesso di quanto tu gli dia credito.

Usando l'esempio nella tua domanda, suggerirei che potrebbero esserci un certo numero di "processi". ci saranno variazioni dovute a ...

  • campioni prelevati da un dispositivo di conduttanza
  • campioni prelevati tra dispositivi di conduttanza
  • quando il soggetto ha rimosso una sonda
  • quando il soggetto si muoveva
  • differenze all'interno della pelle di un soggetto attraverso il proprio corpo o tra diversi giorni di campionamento (capelli, umidità, olio, ecc.)
  • differenze tra soggetti
  • la formazione della persona che prende le misure e le variazioni tra il personale

Tutti questi processi produrranno ulteriori variazioni nei dati e probabilmente sposteranno la media e cambieranno la forma della distribuzione. Molti di questi non saranno in grado di separarsi in processi distinti.

Quindi, andando all'idea di rimuovere i punti dati come "valori anomali" ... Rimuoverei solo i punti dati, quando posso sicuramente attribuirli a un particolare "processo" che non voglio includere nella mia analisi. È quindi necessario assicurarsi che i motivi della non inclusione siano registrati come parte dell'analisi, quindi è ovvio. Non dare per scontato l'attribuzione, questa è la chiave per prendere appunti extra attraverso l'osservazione durante la tua raccolta di dati.

Sfiderei la tua affermazione "perché la maggior parte di essi è comunque un errore", in quanto non sono errori, ma solo parte di un processo diverso che hai identificato nelle tue misurazioni come diverso.

Nel tuo esempio, penso che sia ragionevole escludere punti dati che puoi attribuire a un processo separato che non desideri analizzare.


6

Se stai rimuovendo i valori anomali, nella maggior parte dei casi devi documentare che lo stai facendo e perché. Se questo è per un documento scientifico o per scopi regolamentari, ciò potrebbe comportare l'attualizzazione e / o il rifiuto delle statistiche finali.

La soluzione migliore è identificare quando pensi di ricevere dati errati (ad esempio quando le persone tirano i fili), quindi identificare quando le persone tirano i fili e tirare i dati per quel motivo. Ciò comporterà probabilmente anche la caduta di alcuni punti dati "buoni", ma ora hai un motivo "reale" per taggare e scartare quei punti dati alla fine della raccolta piuttosto che alla fine dell'analisi. Fintanto che lo fai in modo pulito e trasparente, è molto più probabile che sia accettabile per terze parti. Se rimuovi i punti dati relativi ai fili tirati e ottieni ancora valori anomali, la probabile conclusione è che i fili tirati non sono il (solo) problema - l'ulteriore problema potrebbe essere con la progettazione del tuo esperimento o la tua teoria.

Uno dei primi esperimenti che mia madre fece quando tornò all'università per terminare la sua laurea era uno in cui agli studenti veniva data una "cattiva" teoria su come funzionava un processo, e poi gli veniva detto di eseguire un esperimento. Gli studenti che hanno eliminato o modificato i punti di dati "errati" risultanti hanno fallito il compito. Coloro che hanno correttamente riferito che i loro dati erano in disaccordo con i risultati previsti dalla (cattiva) teoria, sono passati. Il punto del compito era insegnare agli studenti a non "correggere" (falsificare) i loro dati quando non era quello che ci si aspettava.

Riepilogo: se stai generando dati errati, correggi l'esperimento, non i dati.


5

È sicuramente un dilemma morale. Da un lato, perché dovresti lasciare che alcuni punti di dati sospetti rovinino l'adattamento del tuo modello alla maggior parte dei dati? D'altra parte, eliminare osservazioni che non concordano con il concetto di realtà del modello è una sorta di censura. Al punto @ Egon, quegli outlier potrebbero provare a raccontarti qualcosa su quella realtà.

In una presentazione dello statistico Steve MacEachern, ha definito i valori anomali come "[non rappresentativo del fenomeno in studio.]" Sotto quel punto di vista, se ritieni che questi punti di dati sospetti non siano rappresentativi del fenomeno della conduttanza cutanea che stai cercando di studiare , forse non appartengono all'analisi. O se è permesso loro di rimanere, dovrebbe essere usato un metodo che limiti la loro influenza. In quella stessa presentazione MacEachern ha fornito esempi di metodi robusti, e ricordo che, in quei pochi esempi, i metodi classici con i valori anomali rimossi erano sempre d'accordo con le analisi robuste con i valori erratici ancora inclusi. Personalmente, tendo a lavorare con le tecniche classiche con cui mi sento più a mio agio e convivo con l'incertezza morale della cancellazione anomala.


8
In Box, Hunter & Hunter: "Statistics for Experimenters" dicono che, nell'industria chimica, i valori anomali hanno spesso portato a nuovi brevetti . Vuoi buttare via il tuo nuovo brevetto?
kjetil b halvorsen

2
No, non voglio perdere nessun brevetto. Ma anche io non voglio girare dodici cicli cercando di ottenere il mio modello per accogliere "qualcuno che tira i fili". Questo non è quasi certamente il fenomeno oggetto di studio. Mi piace l'idea di valori anomali come opportunità, e una cosa da dire per una semplice cancellazione è che almeno il codice fornirà la documentazione di tali eliminazioni, mentre in metodi solidi i valori erratici coesistono in qualche modo con gli altri punti.
Ben Ogorek,

2
Hai ragione nel prendere in considerazione le circostanze specifiche. Ciò che non dovrebbe essere fatto è applicare alcune "regole" senza contesto per un rifiuto anomalo. Non esistono regole così buone.
kjetil b halvorsen,

1
Il mio punto preferito sul potere del contesto è illustrato dalla domanda: "Le barrette Snickers sono sane?" Bene, se ti sei perso nei boschi per tre giorni e ne hai appena trovati alcuni sul terreno, si scopre che dopo tutto sono abbastanza sani. Sento che le risposte popolari qui ci dicono: "Non mangiare mai uno Snickers bar, a meno che tu non sia assolutamente sicuro che morirai se non lo fai."
Ben Ogorek,

0

Se conduco un campione casuale di 100 persone, e una di quelle persone è Bill Gates, allora per quanto ne so, Bill Gates è rappresentativo di 1/100 della popolazione.

Una media ridotta mi dice che i guadagni medi della lotteria sono $ 0.


Niente di anormale, una media ritagliata non è adatta per distribuzioni distorte.
Yves Daoust,

-2

Ovviamente dovresti rimuovere gli outlier, poiché per definizione non seguono la distribuzione sotto esame e sono un fenomeno parassitario.

La vera domanda è "come posso rilevare in modo affidabile i valori anomali"!


E se una tale distribuzione fosse Cauchy?
AdamO

@AdamO: la vera domanda rimane, ovviamente.
Yves Daoust,

Perché questo downvote?
Yves Daoust,

3
(-1) perché non penso che si tratti di un contributo adeguato informato dalla teoria, dall'esempio o dalla pratica. Che cos'è un "fenomeno parassitario" se non una comprensione poetica dei dati? Nel trattare le pressioni del sangue, i sodio urinari e l'imaging neurologico, vedo "valori anomali" su base giornaliera che sono rappresentativi della popolazione in esame. Rimuoverli può essere una fonte significativa di parzialità. Dire che sono un "fenomeno parassitario" consente in modo suggestivo e ingannevole una pratica statistica rischiosa.
AdamO,

@adam: stai solo sostenendo di mantenere gli inlier, con cui sono pienamente d'accordo.
Yves Daoust,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.