Esiste un modo semplice per rilevare i valori anomali?

14

Mi chiedo se esiste un modo semplice per rilevare i valori anomali.

Per uno dei miei progetti, che era fondamentalmente una correlazione tra il numero di volte in cui gli intervistati partecipano all'attività fisica in una settimana e il numero di volte in cui mangiano fuori casa (fast food) in una settimana, ho disegnato un diagramma a dispersione e rimosso letteralmente il punti dati estremi. (Il diagramma a dispersione ha mostrato una correlazione negativa.)

Questo era basato sul giudizio di valore (basato sul diagramma a dispersione in cui questi punti di dati erano chiaramente estremi). Non ho fatto alcun test statistico.

Mi sto solo chiedendo se questo è un modo sano di gestire i valori anomali.

Ho dati da 350 persone, quindi la perdita di (diciamo) 20 punti dati non mi preoccupa.

correlation outliers

— Amarald
fonte

Vedi anche le risposte alla domanda simile definizione rigorosa di un outlier

— Jonas

3

Anche molto strettamente correlato è stats.stackexchange.com/questions/175 . Molti potenziali metodi di rilevamento anomalo sono descritti nelle risposte a stats.stackexchange.com/questions/213 . Ma un punto in più sarebbe un certo contesto : cosa stai facendo con questo diagramma a dispersione? Quali conclusioni stai cercando di trarne? Alcune conclusioni dipenderanno poco da ciò che fai con i valori anomali, mentre altre potrebbero dipenderne criticamente. Ciò indica che i metodi utilizzati per identificare e trattare i valori anomali devono dipendere dall'analisi prevista.

— whuber

Negli insiemi di dati economici la pratica standard è solo quella di dire "We Windsorize l'insieme di dati al 2,5% e 97,5%", o in alternativa 1% e 99%. Quindi eliminano solo le osservazioni che non rientrano in tale intervallo quantile.

@Harokitty Winsorising sembra significare ritagliare i valori piuttosto che scartarli.

— Peter Wood,

Consiglierei di segnalare anche il diagramma a dispersione inedito a parte eventuali errori nella registrazione dei dati. È possibile che vi siano una o più popolazioni distinte aggiuntive. Per un esempio, vedere la voce di Wikipedia per il diagramma Hertzsprung – Russell su en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram

— Robert Jones

21

Non esiste un modo semplice per rimuovere valori anomali. I valori anomali possono essere di due tipi:

1) Errori di inserimento dati. Questi sono spesso i più facili da individuare e sempre i più facili da gestire. Se riesci a trovare i dati giusti, correggili; in caso contrario, eliminalo.

2) Dati legittimi insoliti. Questo è molto più complicato. Per dati bivariati come i tuoi, il valore anomalo potrebbe essere univariato o bivariato.

a) univariato. Innanzitutto, "insolito" dipende dalla distribuzione e dalla dimensione del campione. Ci dai la dimensione del campione di 350, ma qual è la distribuzione? Chiaramente non è normale, poiché è un numero intero relativamente piccolo. Ciò che è insolito sotto un Poisson non sarebbe sotto un binomio negativo. Sospetterei una relazione binomiale negativa a zero inflazione.

Ma anche quando hai la distribuzione, i (possibili) valori anomali influenzeranno i parametri. Puoi guardare le distribuzioni "tralasciane una", dove verifichi se il punto dati q sarebbe un valore anomalo se i dati avessero tutti i punti tranne q. Anche allora, e se ci fossero più valori anomali?

b) bivariato. Questo è dove il valore di nessuna variabile è insolito in sé, ma insieme sono dispari. C'è forse un rapporto apocrifo secondo cui il censimento una volta affermava che c'erano 20.000 vedove di 12 anni negli Stati Uniti. I bambini di 12 anni non sono insoliti, le vedove non lo sono neanche, ma lo sono le vedove di 12 anni.

Alla luce di tutto ciò, potrebbe essere più semplice segnalare una solida relazione.

— Peter Flom - Ripristina Monica
fonte

Grazie. Penso che forse un'ellisse di confidenza sarebbe un buon indicatore di valori anomali in quanto mostrerebbe la percentuale di dati che rientrerebbe in un certo livello di confidenza (data la normale distribuzione bivariata).

— Amarald,

I tuoi dati non possono essere normali bivariati, poiché sono composti da numeri interi non negativi

— Peter Flom - Ripristina Monica

18

Ho fatto molte ricerche sugli outlier, in particolare quando ho lavorato alla validazione dei dati energetici a Oak Ridge dal 1978 al 1980. Esistono test formali per outlier univariati per dati normali (ad esempio test di Grubbs e test di rapporto di Dixon). Esistono test per valori anomali multivariati e serie temporali. Il libro di Barnett e Lewis su "Valori anomali dei dati statistici" è la bibbia dei valori anomali e copre quasi tutto.

Quando lavoravo alla validazione dei dati di Oak Ridge, disponevamo di grandi set di dati multivariati. Per i valori anomali univariati esiste una direzione per gli estremi (molto al di sopra della media e molto al di sotto della media). Ma per gli outlier multivariati ci sono molte direzioni per cercare gli outlier. La nostra filosofia era di considerare quale fosse l'uso previsto dei dati. Se si sta tentando di stimare determinati parametri come una correlazione bivariata o un coefficiente di regressione, si desidera guardare nella direzione che fornisce l'effetto maggiore sul parametro di interesse. A quel tempo avevo letto il documento inedito di Mallows sulle funzioni di influenza. L'uso delle funzioni di influenza per rilevare valori anomali è trattato nel libro di analisi multivariata di Gnanadesikan. Naturalmente puoi trovarlo anche a Barnett e Lewis.

La funzione di influenza per un parametro è definita in punti nello spazio multivariato delle osservazioni e essenzialmente misura la differenza tra la stima del parametro quando viene incluso il punto dati rispetto a quando viene lasciato fuori. Puoi fare tali stime con ogni punto campione ma di solito puoi ricavare una bella forma funzionale per la funzione influenza che fornisce approfondimenti e calcolo più veloce.

Ad esempio nel mio articolo sull'American Journal of Mathematical and Management Science del 1982 "La funzione di influenza e la sua applicazione alla convalida dei dati" mostro la formula analitica per la funzione di influenza per la correlazione bivariata e che i contorni di influenza costante sono iperbole. Quindi i contorni mostrano la direzione nel piano in cui la funzione di influenza aumenta più velocemente.

Nel mio documento mostro come abbiamo applicato la funzione di influenza per la correlazione bivariata con i dati FPC Form 4 su generazione e consumo di energia. Esiste una chiara correlazione positiva elevata tra i due e abbiamo trovato alcuni valori anomali che sono stati molto influenti sulla stima della correlazione. Ulteriori indagini hanno dimostrato che almeno uno dei punti era in errore e siamo riusciti a correggerlo.

Ma un punto importante che menziono sempre quando parlo di valori anomali è che il rifiuto automatico è sbagliato. Il valore anomalo non è sempre un errore e talvolta fornisce informazioni importanti sui dati. I dati validi non dovrebbero essere rimossi solo perché non sono conformi alla nostra teoria della realtà. Indipendentemente dal fatto che sia difficile da fare, si dovrebbe sempre indagare sul motivo per cui si è verificato il valore anomalo.

Vorrei ricordare che questa non è la prima volta che in questo sito vengono discussi valori anomali multivariati. Una ricerca di valori anomali porterebbe probabilmente a diverse domande in cui sono stati discussi valori anomali multivariati. So di aver già fatto riferimento al mio documento e a questi libri e di avermi fornito dei collegamenti.

Inoltre, quando si discute di un rifiuto anomalo, molti di noi su questo sito lo hanno sconsigliato, specialmente se si basa esclusivamente su un test statistico. Peter Huber cita spesso una stima robusta come alternativa al rifiuto anomalo. L'idea è che procedure solide ridimensionino i valori anomali riducendo il loro effetto sulla stima senza il passo pesante di respingerli e utilizzare uno stimatore non robusto.

La funzione di influenza è stata originariamente sviluppata da Frank Hampel nella sua tesi di dottorato nei primi anni '70 (credo nel 1974). La sua idea era in realtà quella di utilizzare le funzioni di influenza per identificare gli stimatori che non erano robusti rispetto ai valori anomali e per aiutare a sviluppare stimatori robusti.

Ecco un link a una precedente discussione su questo argomento in cui ho citato alcuni miei lavori sul rilevamento di valori anomali nelle serie temporali utilizzando le funzioni di influenza.

— Michael R. Chernick
fonte

2

Un altro semplice approccio alla gestione dei valori anomali consiste nell'utilizzare statistiche non parametriche. Probabilmente con la dimensione del campione un rho di Spearman funzionerebbe bene come indice della correlazione. (Si noti, tuttavia, che le statistiche non parametriche dell'ordine di rango non aiutano molto con le relazioni non lineari.)

Se si desidera utilizzare una r di Pearson (una statistica parametrica) e se non si è in grado di calcolare la distanza di Cook, è possibile utilizzare una regola empirica standard che indica che qualsiasi dato indica più di 2,67 deviazioni standard (sd) dalla media , o 4.67 sd dalla media è rispettivamente un valore anomalo o estremo. Questi sono valori di cutoff tipici per valori anomali e punti di dati estremi utilizzati in un programma di analisi statistica standard (SPSS).

Solo perché un punto dati è un valore anomalo non significa che si debbano scartare dati errati. Potresti calcolare la tua correlazione con e senza punti estremi e andare da lì.

— Joel W.
fonte

1

Potresti provare Cook's Distance. Vedi l'articolo di Wikipedia per i tagli suggeriti. Inoltre, se ti stai dirigendo verso un modello di regressione, potresti provare una regressione robusta.

— Eric Brown
fonte

1

Sembra più un commento che una risposta; le risposte sono generalmente più lunghe e più dettagliate. Ad esempio, se hai incluso un ragionamento sul perché la distanza di Cook è un buon test per i valori anomali e così uno, questa sarebbe una risposta.

— Peter Flom - Ripristina Monica

1

In primo luogo, non rimuovere i valori atipici a meno che non si sia sicuri che siano fuori dallo studio! Possono contenere alcune informazioni importanti (variabilità). Dovresti lasciarli cadere se è ovvio che il valore anomalo è dovuto a dati immessi o misurati in modo errato. Se non conosci il metodo di campionamento utilizzato per ottenere i tuoi dati, dovresti identificare i valori atipici e i loro effetti come segue:

Grado di anomalia: si prevede un 5% delle osservazioni con residui standardizzati ( $e_i*$ )> 2. Se hai alcuni residui più alti puoi sospettare valori anomali.
Grado di distanza dalla gravità centrale nello spazio di x: $h_{ii}$ (leva). Quando alcuni $h_{ii}$ è molto alto hai un'osservazione che può distorcere il tuo modello perché è fuori dal raggio del tuo studio.
Grado di influenza sul modello montato: i punti influenti sono quelli che hanno abbastanza peso per cambiare il modello. Quindi, i clienti del modello montato che utilizzano tutte le n osservazioni sono molto diversi dai coefficienti del modello montato che utilizzano tutti i punti ma non questa osservazione $i$ -esimo.
La distanza di Cook o D di Cook è una stima comunemente usata dell'influenza di un punto dati. : $DC_i=ei*^2·h_{ii}/[(1-h_{ii})·p]$

Possibili soluzioni:

Trasformazione di variabili e / o aggiunta di nuove variabili al modello.
Per osservazioni influenti che non sono altro che valori anomali, se non molti, puoi rimuovere quegli individui.

— user7334982
fonte