Definizione rigorosa di un valore anomalo?


44

Le persone spesso parlano di come gestire i valori anomali nelle statistiche. La cosa che mi preoccupa di questo è che, per quanto ne so, la definizione di un outlier è completamente soggettiva. Ad esempio, se la vera distribuzione di una variabile casuale è molto pesante o bimodale, qualsiasi visualizzazione standard o statistica riassuntiva per il rilevamento di valori anomali rimuoverà erroneamente parti della distribuzione da cui si desidera campionare. Qual è una definizione rigorosa di un valore anomalo, se esiste, e come possono essere gestiti i valori anomali senza introdurre quantità irragionevoli di soggettività in un'analisi?


Se vuoi sapere una distribuzione specifica, chiedi il tuo esempio. Sarà diverso per situazioni diverse.
Giovanni,

8
Beh, mi aspetto che avrai un rigorous definition of an outliermomento in cui sarai in grado di definire unreasonable amounts of subjectivityun modo oggettivo ;-), grazie
mangia il

1
Ma la definizione può variare in base alla distribuzione e alla situazione sottostanti. Potrei dire ± 1,5 IQR, o 3 SD, o alcuni di questi. Ma potrei adottare un approccio totalmente diverso se avessi due tipi di misure, ad esempio i tempi di reazione e l'accuratezza. Posso dire che RT è condizionata a un livello di precisione. Possono essere tutti buoni e matematicamente rigorosi e avere diverse applicazioni e significati.
Giovanni,

2
Ci sono MOLTE rigorose definizioni di valori anomali. Ma la scelta tra quelle può sembrare arbitraria. Ma penso che questo sia parte dell'idea sbagliata che la statistica sia un argomento in cui ogni problema ha una risposta corretta.
Peter Flom - Ripristina Monica

Risposte:


23

Finché i tuoi dati provengono da una distribuzione nota con proprietà note, puoi definire rigorosamente un valore anomalo come evento che è troppo improbabile per essere stato generato dal processo osservato (se consideri "troppo improbabile" non rigoroso, quindi tutti i test di ipotesi sono).

Tuttavia, questo approccio è problematico su due livelli: presuppone che i dati provengano da una distribuzione nota con proprietà note e comporta il rischio che i valori anomali vengano considerati come punti dati introdotti di nascosto nel set di dati da alcune fate magiche.

In assenza di magiche fatine di dati, tutti i dati provengono dal tuo esperimento, quindi non è possibile avere valori anomali, ma solo strani risultati. Questi possono derivare da errori di registrazione (ad esempio una casa di 400000 camere da letto per 4 dollari), problemi sistematici di misurazione (l'algoritmo di analisi dell'immagine riporta aree enormi se l'oggetto è troppo vicino al confine) problemi sperimentali (a volte, i cristalli precipitano fuori dalla soluzione, che forniscono un segnale molto alto) o funzioni del tuo sistema (una cella a volte può dividere in tre anziché due), ma possono anche essere il risultato di un meccanismo che nessuno ha mai considerato perché è raro e stai facendo ricerche, il che significa che alcune delle cose che fai semplicemente non sono ancora note.

Idealmente, ti prendi il tempo per indagare su ogni valore anomalo e rimuoverlo dal tuo set di dati solo dopo aver capito perché non si adatta al tuo modello. Ciò richiede tempo e soggettivo in quanto i motivi dipendono fortemente dall'esperimento, ma l'alternativa è peggio: se non capisci da dove provengono gli outlier, hai la possibilità di lasciare che i outlier "rovinino" i tuoi risultati, o definire un approccio "matematicamente rigoroso" per nascondere la tua mancanza di comprensione. In altre parole, perseguendo la "rigorosità matematica" si sceglie tra non ottenere un effetto significativo e non entrare in paradiso.

MODIFICARE

Se tutto ciò che hai è un elenco di numeri senza sapere da dove provengono, non hai modo di dire se un punto di dati è un valore anomalo, perché puoi sempre assumere una distribuzione in cui tutti i dati sono inlier.


3
Tuttavia, non tutti i valori anomali sono generati da un esperimento. Ho lavorato con un ampio set di dati che ha coinvolto la raccolta di informazioni immobiliari in una regione (prezzo di vendita, numero di camere da letto, metratura, ecc.), E di tanto in tanto ci sarebbero stati errori di immissione dei dati e avrei avuto un La casa di 400.000 camere da letto costa 4 dollari, o qualcosa del genere senza senso. Penserei che parte dell'obiettivo di determinare un valore anomalo sia vedere se sia possibile generare dai dati o se fosse solo un errore di inserimento.
Christopher Aden,

2
@Christopher Aden: prenderei in considerazione quella parte del processo sperimentale. Fondamentalmente, per essere in grado di rimuovere gli outlier, devi capire come sono stati generati i dati, cioè non rimuovere gli outlier senza una buona ragione. Altrimenti stai solo stilizzando i tuoi dati. Ho modificato la mia risposta per riflettere meglio.
Jonas,

Questo è perfettamente ragionevole, ma presuppone che tu abbia già una discreta quantità di conoscenze precedenti su quale sia la vera distribuzione. Stavo pensando di più in termini di scenari in cui non lo fai e potrebbe essere una coda molto pesante o bimodale.
dsimcha,

@dsimcha: non penso che tu possa identificare gli outlier in quel caso (vedi anche la mia modifica).
Jonas,

2
@dsimcha: hai sempre una conoscenza preliminare! per come sono stati forniti i dati? si sempre sempre sapere più di tanto. i dati non si presentano magicamente. e puoi sempre fare ipotesi provvisorie. "valori anomali" basati su questi presupposti in sostanza ti danno la chiave che qualcosa nei tuoi presupposti è sbagliato. studiando il "valore anomalo" (che è sempre relativo) puoi migliorare il tuo modello.
probabilityislogic

13

Hai ragione a dire che la rimozione dei valori anomali può sembrare un esercizio soggettivo, ma ciò non significa che sia sbagliato. La necessità compulsiva di avere sempre una ragione matematica rigorosa per ogni decisione riguardante l'analisi dei dati è spesso solo un sottile velo di rigore artificiale su ciò che si rivela comunque un esercizio soggettivo. Ciò è particolarmente vero se si desidera applicare la stessa giustificazione matematica a ogni situazione che si incontra. (Se ci fossero regole matematiche chiare a prova di proiettile per tutto, allora non avresti bisogno di uno statistico.)

Ad esempio, nella tua situazione di distribuzione della coda lunga, non esiste un metodo garantito per decidere dai numeri se hai una distribuzione di interesse sottostante con valori anomali o due distribuzioni di interesse sottostanti con i valori anomali che fanno parte di uno solo di essi. O, cielo proibito, solo l'effettiva distribuzione dei dati.

Più dati raccogli, più ottieni nelle regioni a bassa probabilità di una distribuzione. Se raccogli 20 campioni è molto improbabile che otterrai un valore con un punteggio z di 3,5. Se raccogli 10.000 campioni è molto probabile che ne otterrai uno ed è una parte naturale della distribuzione. Dato quanto sopra, come decidi solo perché qualcosa è estremo per escluderlo?

La selezione dei migliori metodi in generale per l'analisi è spesso soggettiva. Se è irragionevolmente soggettivo dipende dalla spiegazione della decisione e dal valore anomalo.


+1 Barnett e Lewis, che hanno scritto il libro sugli outlier , dichiarano "un outlier in una serie di dati [è] un'osservazione (o sottoinsieme di osservazioni) che sembra essere incompatibile con il resto di quella serie di dati " [at p . 7]. Continuano, "È una questione di giudizio soggettivo da parte dell'osservatore, indipendentemente dal fatto che qualche osservazione ... venga scelta per essere esaminata ... ... Ciò che caratterizza il" valore anomalo "è il suo impatto sull'osservatore .... "
whuber

"il libro" è leggermente ambiguo qui. Considererei Barnett e Lewis la monografia principale, ma non è l'unico libro sugli outlier. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 è recente. C'è anche un libro più vecchio di DM Hawkins.
Nick Cox,

9

Non penso che sia possibile definire un valore anomalo senza assumere un modello del processo sottostante che dia origine ai dati. Senza un tale modello non abbiamo un quadro di riferimento per decidere se i dati sono anomali o "errati". La definizione di un outlier che ho trovato utile è che un outlier è un'osservazione (o osservazioni) che non può essere riconciliata con un modello che altrimenti si comporta bene.


2
Hmm ... Nel suo testo EDA, John Tukey ha definito in modo specifico i valori anomali senza usare alcun modello.
whuber

7
È possibile definire valori anomali senza un modello, ma ho trovato tali definizioni non utili. A proposito, per modello, non intendo necessariamente un modello statistico che è stato esplicitamente adattato ai dati. Qualsiasi definizione di un valore anomalo richiede di fare alcune ipotesi sul tipo di valori che ti aspetti di vedere e che tipo di valori che non ti aspetti di vedere. Penso che sia meglio se questi presupposti (cioè il modello) siano resi espliciti. C'è anche il punto che in EDA, stai esplorando i dati, la tua definizione di valore anomalo potrebbe essere molto diversa per EDA che per adattarsi a un modello finale.
Dikran Marsupial

6

Ci sono molte risposte eccellenti qui. Tuttavia, voglio sottolineare che due domande sono confuse. Il primo è "cos'è un valore anomalo?", E più specificamente per dare una "definizione rigorosa" di tale. Questo è semplice:

Un valore anomalo è un punto dati che proviene da una diversa popolazione / distribuzione / processo di generazione dei dati rispetto a quello che intendevi studiare / il resto dei tuoi dati.

La seconda domanda è "come faccio a sapere / rilevare che un punto dati è un valore anomalo?" Sfortunatamente, questo è molto difficile. Tuttavia, le risposte fornite qui (che sono davvero ottime e sulle quali non posso migliorare) saranno molto utili in questo compito.


1
99(0,1)-2.52.5(4,1)21402
whuber

1
@whuber, sì. Dico che è un valore anomalo, anche se non lo noteresti mai (il che, sospetto, è ciò che intendi per praticamente operativo).
gung - Ripristina Monica

1
Apprezzo la distinzione che stai facendo. Volevo solo sottolineare il netto contrasto tra la tua definizione e la maggior parte delle altre definizioni o descrizioni di valori anomali in questo thread. Il tuo non sembra portare a procedure pratiche soddisfacenti: dovresti sempre accettare che una grande parte del tuo set di dati potrebbe essere "esterna", ma senza avere alcun modo per rilevarlo o risolverlo.
whuber

@whuber, sono pienamente d'accordo. Vedo questo come vagamente analogo al test di ipotesi, in cui (ad esempio) 2 gruppi possono differire di una quantità molto piccola, non rilevabile, o possono differire di una quantità moderata, ma i campioni che hai trovato erano molto simili solo per caso; tuttavia, da una prospettiva teorica vale la pena comprendere e mantenere la distinzione.
gung - Ripristina Monica

1
@whuber, hai ragione. Alcuni fanno questa distinzione, ma molti non sono chiari su queste idee. La mia posizione è che non esiste una realtà significativa di "anomalo" oltre ai contaminanti . Tuttavia, le persone dovrebbero anche / invece pensare al problema come preoccupati dei punti se i tuoi risultati sono guidati da loro da soli (se sono "reali" o meno), e quindi i tuoi risultati sono molto fragili. In breve, non c'è motivo di preoccuparsi dei punti che provengono dalla tua popolazione e che non guidano in modo univoco i risultati; una volta risolti i due problemi, non rimane più nulla di "anomalo".
gung - Ripristina Monica

6

Definizione 1: Come già accennato, un valore anomalo in un gruppo di dati che riflette lo stesso processo (ad esempio il processo A) è un'osservazione (o un insieme di osservazioni) che è improbabile che sia il risultato del processo A.

Questa definizione implica certamente una stima della funzione di probabilità del processo A (quindi un modello) e l'impostazione di ciò che improbabile significa (cioè decidere dove fermarsi ...). Questa definizione è alla radice della risposta che ho dato qui . È più correlato alle idee di verifica delle ipotesi di significato o bontà di adattamento .

XsolX

Questa definizione implica un "modello dato" e una misura di accuratezza. Penso che questa definizione sia più dal punto di vista pratico ed è più all'origine dei valori anomali. All'origine, il rilevamento anomalo era uno strumento per statistiche affidabili .

Ovviamente queste definizioni possono essere rese molto simili se si capisce che il calcolo della probabilità nella prima definizione implica la modellazione e il calcolo di un punteggio :)


2

Un valore anomalo è un punto di dati che è scomodo per me, data la mia attuale comprensione del processo che genera questi dati.

Credo che questa definizione sia rigorosa come si può fare.


In contrasto con la definizione di John Tukey (ha usato il termine "fuori"): "Quando guardiamo alcuni lotti di valori, vediamo alcuni valori apparentemente allontanarsi molto al di là degli altri ... È conveniente avere una regola di pollice che individua determinati valori come "esterni" ... "In seguito lo riassume come" ... identificazione di singoli valori che possono essere insoliti ". [EDA, capitolo 2]. Sottolinea in tutto il libro che stiamo descrivendo i dati piuttosto che fingere di "comprendere un processo" e che sono sempre possibili più descrizioni valide.
whuber

Allo stesso modo, "Gli outlier sono valori campione che causano sorpresa in relazione alla maggior parte del campione" (WN Venables e BD Ripley. 2002. Statistiche applicate moderne con S. New York: Springer, p.119). Tuttavia, la sorpresa è nella mente di chi guarda e dipende da un modello tacito o esplicito dei dati. Potrebbe esserci un altro modello in base al quale il valore anomalo non sorprende affatto, per esempio, i dati sono davvero lognormali o gamma piuttosto che normali.
Nick Cox,

@ Nick Questo è coerente con Barnett e Lewis, che cito in un commento alla risposta di John .
whuber

@whuber: dici "Contrast this", che penso significhi che non sei d'accordo, ma non ne sono sicuro. Direi che la formazione del modello - implicita e ingenua, forse - è il motivo per cui vediamo schemi nei dati, o l'uomo sulla luna, o valori anomali. Il modello potrebbe non avere basi fisiche / chimiche / economiche, ma abbiamo ipotizzato un modello. Altrimenti, non c'è sorpresa, non c'è "fuori".
Wayne,

Tukey insiste sul fatto che nel descrivere i dati non li modelliamo necessariamente . È corretto estendere la definizione di "modello" per includere la descrizione dei dati, ma il termine diventa quasi troppo generale per essere utile. Dal punto di vista di Tukey (come lo interpreto, ovviamente), non vi è alcuna preoccupazione per la perdita della faccia, né vi è alcuna questione di convenienza o meno. Pertanto, sebbene io rispetti la tua motivazione, penso che il tuo atteggiamento (come riflesso nel "salvare la faccia" e "inopportuno") sia meno costruttivo rispetto ad altri approcci a questa domanda.
whuber

0

definire un valore anomalo come membro di quell'insieme minimo di elementi che devono essere rimossi da un set di dati di dimensione n al fine di assicurare il 100% di conformità con i test RUM condotti al livello di confidenza al 95% su tutti (2 ^ n -1) sottoinsiemi unici del dati. Vedi il testo di Karian e Dudewicz sull'adattamento dei dati ai pdf usando R (settembre 2010) per la definizione del test RUM.


-2

I valori anomali sono importanti solo nel regno frequentista. Se un singolo punto dati aggiunge distorsioni al tuo modello che è definito da una distribuzione sottostante predeterminata dalla tua teoria, allora è un valore anomalo per quel modello. La soggettività sta nel fatto che se la tua teoria pone un modello diverso, allora puoi avere un diverso set di punti come valori anomali.


1
Stai sostenendo che i valori anomali non sono importanti nell'analisi dei dati bayesiani?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.