Se eliminare i casi contrassegnati come anomali dal software statistico quando si esegue la regressione multipla?

23

Sto eseguendo analisi di regressione multipla e non sono sicuro che i valori anomali nei miei dati debbano essere eliminati. I dati di cui mi preoccupo appaiono come "cerchi" sui grafici a scatola SPSS, tuttavia non ci sono asterischi (il che mi fa pensare che non siano "così cattivi"). I casi di cui mi preoccupo compaiono nella tabella "Diagnostica casewise" nell'output, quindi dovrei eliminare questi casi?

regression outliers

— subito
fonte

Grazie mille Charlie ed Epigrad. Potresti suggerire quale grafico in SPSS guardo per valutare se ci sono valori anomali nei residui? Il grafico a dispersione sembra piuttosto disordinato! Non c'è alcun problema con i dati in quanto tali (poiché non sono stati inseriti in modo errato) Penso solo che alcuni dei miei partecipanti avevano punteggi molto più alti su alcune delle mie scale, vale a dire perché erano molto più socialmente ansiosi che il resto del campione.

— Anon,

3

Dovresti tracciare il valore previsto di y (quello dato in base al modello stimato) sull'asse xe i residui sull'asse y. Invece del valore previsto di y, potresti mettere uno dei tuoi predittori / variabili indipendenti sull'asse x. È possibile creare diversi grafici, ciascuno con un predittore diverso sull'asse x per vedere quale valore x sta portando al comportamento anomalo. Ancora una volta, vorrei mettere in guardia contro la rimozione anomala; invece, analizzare perché si sta verificando il valore anomalo.

— Charlie,

1

Facendo eco all'affermazione di Charlie, è il "perché" che conta, piuttosto che il "se", e anch'io metterei in guardia contro la loro rimozione. Non ho familiarità con SPSS, ma qualunque funzionalità tu abbia usato per eseguire la regressione dovrebbe essere in grado di darti anche una trama di residui, o almeno il loro valore che puoi usare per fare la trama suggerita da Charlie.

— Fomite,

@Anon ho unito i tuoi due account. Per favore registrati per poter aggiornare e / o commentare la tua domanda.

— chl,

3

@ user603 No, non mi leggi correttamente. "Outlier" non significa nulla, specialmente se contrassegnato da una procedura automatica nel software statistico. Esistono altrettanti esempi delle importanti scoperte di uno studio nei "valori anomali". Ogni volta che hai dati che stai eliminando, dovrebbe essere per un motivo. "Sono scomodi" non è un motivo.

— Fomite,

25

La segnalazione di valori anomali non è una chiamata di giudizio (o comunque non è necessario che sia una richiesta). Dato un modello statistico, i valori anomali hanno una definizione precisa e obiettiva: sono osservazioni che non seguono il modello della maggior parte dei dati. Tali osservazioni devono essere messe a punto all'inizio di qualsiasi analisi semplicemente perché la loro distanza dalla maggior parte dei dati garantisce che eserciteranno una spinta sproporzionata su qualsiasi modello multivariabile dotato della massima probabilità (o in effetti qualsiasi altra funzione di perdita convessa).

È importante sottolineare che multivariabile valore anomalo s può semplicemente non essere rilevato in modo affidabile con residui da una misura minimi quadrati (o qualsiasi altro modello stimato da ML, o qualsiasi altra funzione perdita convessa). In poche parole, i valori anomali multivariabili possono essere rilevati in modo affidabile solo usando i loro residui da un modello montato usando una procedura di stima non suscettibile di essere influenzati da essi.

La convinzione che i valori anomali dovranno emergere nei residui di un adattamento classico si colloca da qualche parte lassù con altri no-no statistici difficili da sfatare come l'interpretazione dei valori di p come misura di evidenza o trarre inferenza su una popolazione da un campione distorto. Tranne forse per il fatto che questo potrebbe essere molto più vecchio: lo stesso Gauss ha raccomandato l'uso di uno stimatore robusto come la media e la folle (invece della media classica e deviazioni standard) per stimare i parametri di una distribuzione normale da osservazioni rumorose (anche andando per quanto riguarda derivare il fattore di coerenza del matto (1)).

Per dare un semplice esempio visivo basato su dati reali, considera i famigerati dati a stella del CYG . La linea rossa qui rappresenta la misura meno quadrata, la linea blu la misura ottenuta usando una robusta misura di regressione lineare. L'adattamento robusto qui è in particolare l'adattamento FastLTS (2), un'alternativa all'accoppiamento LS che può essere utilizzato per rilevare valori anomali (perché utilizza una procedura di stima che assicura che l'influenza di qualsiasi osservazione sul coefficiente stimato sia limitata). Il codice R per riprodurlo è:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

dati starsCYG

È interessante notare che le 4 osservazioni periferiche a sinistra non hanno nemmeno i residui più grandi rispetto all'adattamento LS e al diagramma QQ dei residui dell'adattamento LS (o qualsiasi degli strumenti diagnostici derivati da essi come la distanza di Cook o il dfbeta) non riesce a mostrare nessuno di loro come problematico. Questa è in realtà la norma: non sono necessari più di due valori anomali (indipendentemente dalle dimensioni del campione) per estrarre le stime LS in modo tale che i valori anomali non si distinguano in un diagramma residuo. Questo si chiama effetto di mascheramentoed è ben documentato. Forse l'unica cosa degna di nota nel set di dati di CYGstars è che è bivariato (quindi possiamo usare l'ispezione visiva per confermare il risultato dell'aderenza robusta) e che in realtà c'è una buona spiegazione del perché queste quattro osservazioni a sinistra sono così anormali.

Questa è, a proposito, l'eccezione più che la regola: tranne negli studi pilota di piccole dimensioni che coinvolgono piccoli campioni e poche variabili e in cui la persona che ha fatto l'analisi statistica è stata anche coinvolta nel processo di raccolta dei dati, non ho mai sperimentato un caso in cui credenze precedenti l'identità dei valori anomali era effettivamente vera. Questo è comunque facile da verificare. Indipendentemente dal fatto che i valori anomali siano stati identificati utilizzando un algoritmo di rilevazione anomalo o la sensazione dell'intestino del ricercatore, i valori anomali sono, per definizione, osservazioni che hanno una leva anormale (o "pull") sui coefficienti ottenuti da un adattamento LS. In altre parole, i valori anomali sono osservazioni la cui rimozione dal campione dovrebbe avere un forte impatto sull'adattamento LS.

Anche se non l'ho mai sperimentato personalmente, ci sono alcuni casi ben documentati in letteratura in cui le osservazioni contrassegnate come anomalie da un algoritmo di rilevamento anomalo sono state riscontrate come errori grossolani o generati da un processo diverso. In ogni caso, non è né scientificamente garantito né saggio rimuovere gli outlier solo se possono in qualche modo essere compresi o spiegati. Se una piccola serie di osservazioni è così lontana dal corpo principale dei dati che può estrarre da sola i risultati di una procedura statistica da sola, è saggio (e potrei aggiungere naturale) trattarla separatamente indipendentemente dal fatto che o non sembra che questi punti dati siano sospetti anche per altri motivi.

(1): vedi Stephen M. Stigler, La storia della statistica: la misurazione dell'incertezza prima del 1900.

(2): Calcolo della regressione LTS per grandi serie di dati (2006) PJ Rousseeuw, K. van Driessen.

(3): Metodi multivariati robusti ad alta ripartizione (2008). Hubert M., Rousseeuw PJ e Van Aelst S. Fonte: Statista. Sci. Volume 23, 92-119.

— user603
fonte

6

Questa è roba buona (+1). Tuttavia, penso che tu abbia abusato della terminologia convenzionale e abbia cooptato "valori anomali" per riferirsi a "osservazioni influenti". I concetti sono entrambi preziosi e qui trattate bene questi ultimi, ma non sono intercambiabili come sembrate indicare. Ad esempio, un'osservazione influente che è coerente con la maggior parte dei dati si adatterebbe alla tua caratterizzazione di "osservazioni che hanno una leva anormale (o" pull ") sui coefficienti ottenuti da un adattamento LS" ma non verrebbero prese in considerazione dalla maggior parte degli autori essere un "outlier" di per sé.

— whuber

2

@whuber: buon punto. In effetti, considero, così come i recenti libri di testo su statistiche affidabili (ad esempio, Robust Statistics: Theory and Methods. Wiley) tali osservazioni (i cosiddetti "buoni punti di leva") come dannose. La giustificazione è che deflazionano l'errore standard dei coefficienti stimati, facendo sì che l'utente riponga una fiducia ingiustificata nella forza della relazione osservata. Considerare i buoni punti di leva come valori anomali rende anche più coerente l'approccio formale: dopo tutto un buon punto di leva ha un'influenza fuori misura sul se che sono un componente dell'adattamento LS / ML.

— user603

3

+1 Esempio molto bello. Dati reali che mostrano due adattamenti quasi ortogonali e in cui i quattro altamente influenti nella parte superiore sinistra non avranno i residui più grandi dopo un adattamento OLS.

— Wayne,

19

In generale, sono cauto nel rimuovere "valori anomali". L'analisi di regressione può essere correttamente applicata in presenza di errori non distribuiti normalmente, errori che presentano eteroschedasticità o valori dei predittori / variabili indipendenti che sono "lontani" dal resto. Il vero problema con gli outlier è che non seguono il modello lineare seguito da ogni altro punto dati. Come fai a sapere se è così? Non

Semmai, non vuoi cercare valori delle tue variabili che sono anomali; invece, vuoi cercare i valori dei tuoi residui che sono anomali. Guarda questi punti dati. Le loro variabili sono registrate correttamente? C'è qualche motivo per non seguire lo stesso modello del resto dei tuoi dati?

Naturalmente, il motivo per cui queste osservazioni possono apparire come valori anomali (secondo la diagnostica residua) potrebbe essere dovuto al fatto che il modello è sbagliato. Ho un professore a cui piaceva dire che, se avessimo gettato via i valori anomali, avremmo ancora creduto che i pianeti ruotassero attorno al sole in cerchi perfetti. Keplero avrebbe potuto buttare via Marte e la storia dell'orbita circolare sarebbe sembrata piuttosto buona. Marte ha fornito la chiave intuizione che questo modello era errato e avrebbe perso questo risultato se avesse ignorato quel pianeta.

Hai detto che la rimozione dei valori anomali non modifica molto i risultati. O questo perché hai solo un numero molto piccolo di osservazioni rimosse rispetto al tuo campione o sono ragionevolmente coerenti con il tuo modello. Ciò potrebbe suggerire che, mentre le variabili stesse possono apparire diverse dalle altre, i loro residui non sono poi così eccezionali. Li lascerei entrare e non proverei a giustificare la mia decisione di rimuovere alcuni punti dai miei critici.

— Charlie
fonte

6

+1 Non gettare i dati perché è un valore anomalo. Scopri perché alcuni dati sono periferici.

— Fomite,

2

questo è un consiglio terribile. È molto comune che i valori anomali siano così lontani dal resto dei dati da spingere la linea di regressione verso di loro in modo tale da non spiccare su un diagramma residuo (o peggio: produrre grandi residui per il vero punti dati). In effetti, si può dimostrare che non appena si ha più di un singolo valore anomalo, non può essere rilevato in modo affidabile usando un diagramma residuo di una regressione classica. Questo è chiamato effetto di mascheramento e ho ben documentato in particolare in molti esempi di dati reali.

— user603

A proposito, questo è anche il motivo per cui eviterei di usare l'esempio di Marte: illustra una procedura che funziona solo se hai a che fare con un singolo outlier. Nella maggior parte delle applicazioni non esiste tale garanzia. Dà un senso di fiducia sbagliato in una metodologia generalmente imperfetta (che come statistico è davvero ciò che dovremmo prosperare per prevenire).

— user603

15

+1 a @Charlie e @PeterFlom; stai ricevendo buone informazioni lì. Forse posso dare un piccolo contributo qui sfidando la premessa della domanda. Un boxplot tipicamente (il software può variare e non so con certezza cosa stia facendo SPSS) etichetta i punti più di 1,5 volte l'intervallo inter-quartile sopra (sotto) il terzo (primo) quartile come "valori anomali". Tuttavia, possiamo chiederci quanto spesso dovremmo aspettarci di trovare almeno uno di questi punti quando sappiamo per certo che tutti i punti provengono dalla stessa distribuzione? Una semplice simulazione può aiutarci a rispondere a questa domanda:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Ciò dimostra che ci si può aspettare che tali punti si verifichino comunemente (> 50% delle volte) con campioni di dimensioni 100, anche quando non c'è nulla di sbagliato. Come suggerisce l'ultima frase, la probabilità di trovare un "valore anomalo" falso tramite la strategia del diagramma a scatole dipenderà dalla dimensione del campione:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Esistono altre strategie per identificare automaticamente i valori anomali, ma a volte tale metodo identificherà erroneamente i punti validi come "valori anomali" e talvolta identificherà erroneamente i valori erratici reali come "punti validi". (Puoi considerarli come errori di tipo I e di tipo II .) Il mio pensiero su questo problema (per quello che vale) è di concentrarmi sugli effetti dell'inclusione / esclusione dei punti in questione. Se il tuo obiettivo è la previsione, puoi utilizzare la convalida incrociata per determinare se / quanto l'inclusione dei punti in questione aumenta l' errore di previsione al quadrato della radice . Se il tuo obiettivo è la spiegazione, puoi guardare dfBeta(ad esempio, guarda quanto cambiano le stime beta del tuo modello a seconda che siano inclusi o meno i punti in questione). Un'altra prospettiva (probabilmente la migliore) è quella di evitare di dover scegliere se eliminare i punti aberranti e utilizzare invece solide analisi .

— gung - Ripristina Monica
fonte

Le procedure consigliate funzionano in modo affidabile solo se esiste al massimo un valore anomalo singolo (indipendentemente dalle dimensioni del set di dati) che è un presupposto non realistico. Tukey ha calibrato la regola del baffo per escludere all'incirca l'1% delle osservazioni su ciascuna estremità se i dati sono estratti da una distribuzione gaussiana. Le tue simulazioni lo confermano. L'opinione di Tukey era che le perdite causate dall'inosservanza di una parte così piccola dei dati nei casi in cui le osservazioni sono ben gestite è irrilevante per tutte le questioni pratiche. Soprattutto per quanto riguarda i benefici nei casi in cui i dati non lo sono.

— user603

2

Grazie per il tuo commento, @ user603; è una posizione stimolante. Quali procedure che raccomando stai obiettando: usare, ad esempio, dfbeta per rilevare possibili valori anomali, o usare analisi robuste (prototipo del bisquare di Tukey come funzione di perdita alternativa) come protezione contro la loro influenza invece di scegliere quali punti dati lanciare?

— gung - Ripristina Monica

grazie per aver sottolineato la mancanza di chiarezza nel mio commento (ero vincolato dal limite di lunghezza). Naturalmente, intendo specificamente i primi: dfbeta e cross validation (quest'ultima è problematica solo se le osservazioni usate per eseguire la validazione incrociata sono tratte casualmente dal campione originale. Un esempio di caso in cui si potrebbe usare la validazione incrociata sarebbe essere nella cosiddetta impostazione del controllo di qualità in cui le osservazioni utilizzate per i test sono tratte da un campione temporalmente disgiunto).

— user603

Grazie per il chiarimento, @ user603. Dovrò giocare con queste idee per capirle più a fondo. La mia intuizione è che sarebbe piuttosto difficile non notare valori anomali che distorcono i risultati; sembra che avresti bisogno di avere valori anomali che distorcano equamente i tuoi risultati su entrambi i lati, nel qual caso i tuoi beta sarebbero approssimativamente imparziali e i tuoi risultati sarebbero semplicemente meno "significativi".

— gung - Ripristina Monica

1

La mia intuizione è che sarebbe piuttosto difficile non notare valori anomali che stanno distorcendo i risultati, ma sfortunatamente, il fatto è che non è così. Guarda anche l'esempio che fornisco nella mia risposta.

— user603

12

Dovresti prima guardare i grafici dei residui: seguono (approssimativamente) una distribuzione normale? Mostrano segni di eteroschedasticità? Guarda anche altri grafici (non uso SPSS, quindi non posso dire esattamente come farlo in quel programma, né quali grafici stai guardando; tuttavia, è difficile immaginare che gli asterischi significino "non così male" che probabilmente significano che questi sono punti molto insoliti per alcuni criteri).

Quindi, se hai dei valori anomali, guardali e prova a capire perché.

Quindi puoi provare la regressione con e senza i valori anomali. Se i risultati sono simili, la vita è buona. Segnala i risultati completi con una nota a piè di pagina. Se non simile, allora dovresti spiegare entrambe le regressioni.

— Peter Flom - Ripristina Monica
fonte

1

Grazie mille Peter. Ho esaminato i grafici QQ e i dati non sembrano essere assolutamente normali. Quando elimino gli outlier, non sembrano fare molta differenza per i risultati. Quindi, quindi, dovrei lasciarli dentro? Sarei comunque interessato a sentire i pensieri degli altri sulla tabella di diagnostica casewise in SPSS. Grazie molto.

— Anon,

1

Sì, li lascerei con una nota a piè di pagina simile a "L'analisi con diversi valori anomali eliminati ha mostrato risultati molto simili"

— Peter Flom - Reinstalla Monica

2

Anche supponendo che si possano trovare valori anomali affidabili usando una tale procedura (e la maggior parte delle volte, non si può ) che lascia ancora stranamente irrisolto il problema di cosa fare quando non si riesce a "capire" / spiegare i valori erratici. Secondo il consiglio di stare alla larga da SPSS. -

— user603