Regressione quando i residui OLS non sono normalmente distribuiti

45

Esistono diversi thread su questo sito che discutono su come determinare se i residui di OLS sono distribuiti asintoticamente normalmente. Un altro modo per valutare la normalità dei residui con il codice R è fornito in questa eccellente risposta . Questa è un'altra discussione sulla differenza pratica tra residui standardizzati e osservati.

Ma supponiamo che i residui non vengano distribuiti normalmente, come in questo esempio . Qui abbiamo diverse migliaia di osservazioni e chiaramente dobbiamo respingere il presupposto dei residui normalmente distribuiti. Un modo per affrontare il problema è utilizzare una qualche forma di stimatore robusto, come spiegato nella risposta. Tuttavia non sono limitato a OLS e in realtà vorrei comprendere i vantaggi di altre metodologie glm o non lineari.

Qual è il modo più efficiente per modellare i dati che violano la normalità OLS dell'assunzione di residui? O almeno quale dovrebbe essere il primo passo per sviluppare una solida metodologia di analisi della regressione?

— Robert Kubrick
fonte

5

Ci sono anche diversi thread che discutono di come la normalità sia essenzialmente irrilevante per molti scopi. Se si hanno osservazioni indipendenti e dimensioni del campione almeno moderate, l'unica cosa che conta per l'inferenza OLS è che tutti i residui hanno la stessa varianza. Non la normalità. Se si utilizzano stime robuste / coerenti con l'eteroschedasticità / sandwich / Huber-Eicker-White dell'errore standard, non è richiesto nemmeno il requisito di varianza costante.

— ospite

@guest Sto solo leggendo sull'efficienza del test di normalità in quel thread. L'analisi di regressione non è nemmeno taggata.

— Robert Kubrick,

Prova questo . Ecco un link esterno . E vedere i capitoli OLS, ad esempio Stock e Watson, Introduzione all'economia . Giuro che non sto inventando questa roba!

— ospite

@guest I due collegamenti riguardano la distribuzione della normalità dei risultati, non i residui.

— Robert Kubrick,

1

No non lo fanno. Gli autori spesso fanno riferimento alla "distribuzione di Y" come una scorciatoia per la "distribuzione di Y condizionata a X". Per tornare alla domanda originale; a meno che non si disponga di un piccolo campione o di dati dalla coda pesante, l'uso di OLS con solidi errori standard è un buon primo passo. In questi casi la normalità è solo un problema.

— ospite

54

La stima dei minimi quadrati ordinari è ancora uno stimatore ragionevole di fronte a errori non normali. In particolare, il teorema di Gauss-Markov afferma che la stima dei minimi quadrati ordinari è il miglior stimatore lineare imparziale (BLU) dei coefficienti di regressione ("migliore" che significa ottimale in termini di minimizzazione dell'errore al quadrato medio ) fintanto che gli errori

(1) hanno zero medio

(2) non sono correlati

(3) hanno una varianza costante

Si noti che qui non esiste alcuna condizione di normalità (o addirittura alcuna condizione che gli errori siano IID ).

$p$ $M$

$t$ $2.01$ long tailed rispetto agli errori riscontrati nei dati del PO), le stime dei coefficienti sono distribuite asintoticamente normalmente, ma ci vuole molto più tempo per "dare il via" rispetto ad altre distribuzioni dalla coda più breve.

R $y_{i} = 1 + 2x_{i} + \varepsilon_i$ $\varepsilon_{i} \sim t_{2.01}$ $\hat{\beta}_{1}$ $n=4000$

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

inserisci qui la descrizione dell'immagine

— macro
fonte

2

d f = 2.01

$df=2.01$

2

d f = 2.01

$df=2.01$

t

$t$

d f \leq 2

$df \leq 2$

1

t_{2.01}

$t_{2.01}$

2

p

$p$

2

@guest, non ho mai discusso contro OLS. In effetti, penso che gran parte della mia risposta sia stata che OLS era una cosa ragionevole da fare, indipendentemente da qualsiasi ipotesi distributiva. Inoltre, non ho mai sostenuto che la normale normalità deve essere rispettata per fare l'inferenza - quello che sto dicendo è che, quando si hanno errori a coda lunga, l'inferenza basata sulla normale approssimazione può essere fuorviante (non sono sicuro di come / se questo non è d'accordo tutto con quello che stai dicendo) e si consiglia di prendere in considerazione un'alternativa (ad esempio bootstrap). .

— Macro

10

Penso che tu voglia esaminare tutte le proprietà dei residui.

normalità
varianza costante
correlato a una covariata.
combinazioni di quanto sopra

Se è solo 1 ed è a causa di pesanti o asimmetria a causa di una coda pesante, una forte regressione potrebbe essere un buon approccio o forse una trasformazione alla normalità. Se si tratta di una varianza non costante, provare una variazione di stabilizzazione della varianza o tentare di modellare la funzione di varianza. Se sono solo 3 che suggerisce una diversa forma di modello che coinvolge quella covariata. Qualunque sia il problema, il bootstrap dei vettori o dei reidual è sempre un'opzione.

— Michael Chernick
fonte

Per 1, puoi approfondire un po 'la trasformazione in normalità per i residui dalla coda pesante?

— Robert Kubrick,

2

trasformazione del tronco o Box-Cox con piccola lambda restringono le code. Questo può funzionare per una distribuzione pesante e inclinata. Non so cosa succederebbe se qualche trasformazione funzionasse per distribuzioni dalla coda molto pesante.

— Michael Chernick,

3

Nice risponde Michael. Ho iniziato a utilizzare più regolarmente il bootstrap per intervalli di confidenza che coinvolgono stime di regressione e contrasti generali, e ho reso questo facile da fare nel mio rmspacchetto R. Ma come hai suggerito, trovare una trasformazione che migliora la stabilità della varianza e talvolta migliora la normalità dei residui presenta spesso diversi vantaggi, anche se eseguiamo il bootstrap. Le stime dei minimi quadrati che utilizzano la trasformazione "errata" possono essere molto inefficienti e portare a grandi errori assoluti medi e assoluti medi nelle previsioni. Mi piace anche usare modelli di regressione semiparametrica.

— Frank Harrell,

2

La mia esperienza è completamente in accordo con Michael Chernick. L'applicazione della trasformazione dei dati non solo rende l'errore di modellazione normalmente distribuito, ma può anche correggere l'eteroschedasticità.

Mi dispiace, ma suggerire altrimenti come raccogliere una quantità folle di dati o utilizzare metodi di regressione robusti meno efficienti, è fuorviante, secondo me, avere pratica di questa scienza / arte.

— AJKOER
fonte

1

Macro (jsut sopra) ha dichiarato la risposta corretta. Solo un po 'di precisione perché avevo la stessa domanda

La condizione di normalità dei residui è utile quando anche i residui sono omoschedastici. Il risultato è quindi che OLS ha la più piccola varianza tra tutti gli stimatori (lineari o non lineari).

I presupposti OLS estesi:

$E(u|X_i = x) = 0$
$(X_i,Y_i), i=1,…,n,$
I valori anomali di grandi dimensioni sono rari
sei omoschedastico
$N(0,σ^2)$

se 1-5 verificato, allora OLS ha la più piccola varianza tra tutto lo stimatore (lineare O non lineare) .

se solo 1-4 verificato, quindi da Gauss-Markov, OLS è il miglior stimatore lineare (solo!) (BLU).

Fonte: Stock and Watson, Econometrics + my course (EPFL, Econometrics)

— FIREPOD
fonte

Non è richiesta la normalità per i minimi quadrati ordinari in y residui, sebbene la normalità conferisca alcune proprietà desiderabili, ad esempio, per l'analisi della massima verosimiglianza. Quest'ultimo è spesso usato per il criterio informativo di Akaike. Tuttavia, questo è inutilmente restrittivo, incontrato di rado, e il requisito più formale è per l'omoscedasticità, non la normalità, il che è fortunato poiché, nel caso contrario, ci sarebbe poco uso per i minimi quadrati ordinari in y.

— Carl,

@Carl: a rigor di termini non è richiesto alcun tipo di OLS, nemmeno 1 o 2 (chiedi a Excel di eseguire una regressione e non verranno poste domande): la normalità è una delle diverse proprietà che rendono sensata l'inferenza, ad es. Previsione, fiducia intervalli, prove.

— Patrick,

@PatrickT La capacità di calcolare qualcosa non conferisce significato. Ad esempio, la regressione lineare OLS su una linea con errori -value distribuiti da Cauchy aumenta gli elementi di configurazione della pendenza e intercetta per ammettere praticamente qualsiasi cosa, non restituisce la linea o la pendenza originale. Si potrebbe chiamare questo un calcolo pirrico.

y

$y$

— Carl

Dobbiamo dire la stessa cosa. Forse il fraseggio del tuo primo commento mi ha confuso.

— Patrick,

1

Per condizioni non normali a volte si ricorre a una forte regressione , in particolare utilizzando i collegamenti ai metodi .

Al fine di presentare il contesto di non normalità, può essere utile rivedere i presupposti per la regressione OLS lineare , che sono:

Debole esogeneità . Ciò significa essenzialmente che le variabili predittive, x , possono essere trattate come valori fissi, piuttosto che variabili casuali. Ciò significa, ad esempio, che si presume che le variabili predittive siano prive di errori, ovvero non contaminate da errori di misurazione. Questa ipotesi è quella che viene violata più frequentemente e porta a errori come elencato seguendo questo elenco di ipotesi.
Linearità. Ciò significa che la media della variabile di risposta è una combinazione lineare dei parametri (coefficienti di regressione) e delle variabili predittive. Si noti che questa ipotesi è molto meno restrittiva di quanto possa sembrare a prima vista. Poiché le variabili predittive sono trattate come valori fissi (vedi sopra), la linearità è in realtà solo una limitazione dei parametri. Le variabili predittive stesse possono essere arbitrariamente trasformate e in effetti è possibile aggiungere più copie della stessa variabile predittiva sottostante, ognuna trasformata in modo diverso.
Varianza costante (aka omoscedasticità). Ciò significa che valori diversi della variabile di risposta hanno la stessa varianza nei loro errori, indipendentemente dai valori delle variabili predittive. In pratica questo assunto non è valido (ovvero gli errori sono eteroscedastici) se la variabile di risposta può variare su larga scala. Al fine di verificare la varianza eterogenea dell'errore o quando un modello di residui viola le assunzioni del modello di omoscedasticità (l'errore è ugualmente variabile attorno alla "linea più adatta" per tutti i punti di x), è prudente cercare un "effetto ventaglio" tra errore residuo e valori previsti. Questo per dire che ci sarà un cambiamento sistematico nei residui assoluti o quadrati quando viene tracciato rispetto alle variabili predittive. Gli errori non verranno distribuiti uniformemente sulla linea di regressione. L'eteroscedasticità comporterà la media delle varianze distinguibili attorno ai punti per ottenere una singola varianza che rappresenta in modo impreciso tutte le varianze della linea. In effetti, i residui appaiono raggruppati e divisi sui loro diagrammi previsti per valori sempre più piccoli per i punti lungo la linea di regressione lineare e l'errore quadratico medio per il modello sarà errato.
Indipendenza dagli errori. Ciò presuppone che gli errori delle variabili di risposta non siano correlati tra loro. (L'indipendenza statistica effettiva è una condizione più forte della mera mancanza di correlazione e spesso non è necessaria, anche se può essere sfruttata se si ritiene che sia valida. Quest'ultima può essere esaminata con analisi di cluster e correzione per l'interazione.) Alcuni metodi (ad esempio generalizzati minimi quadrati) sono in grado di gestire errori correlati, sebbene in genere richiedano molti più dati a meno che non venga utilizzata una sorta di regolarizzazione per orientare il modello verso l'assunzione di errori non correlati. La regressione lineare bayesiana è un modo generale di gestire questo problema.
La relazione statistica tra i termini di errore e i regressori svolge un ruolo importante nel determinare se una procedura di stima ha proprietà di campionamento desiderabili come essere imparziali e coerenti.
La disposizione o distribuzione di probabilità delle variabili predittive x ha una grande influenza sulla precisione delle stime di β. Il campionamento e la progettazione di esperimenti sono sottocampi di statistiche altamente sviluppati che forniscono indicazioni per la raccolta di dati in modo da ottenere una stima precisa di β.

$t$ $y$ $df$ $df=1$ $t$ $(-\infty,+\infty)$

È arbitrario invocare la distribuzione di Cauchy rispetto ai residui, nel senso che quando gli errori generatori sono distribuiti da Cauchy, i residui OLS da una linea spuria attraverso i dati sarebbero ancora meno affidabili, vale a dire, immondizia in --- immondizia. In questi casi, si può usare la regressione di Theil-Sen . Theil-Sen è sicuramente più robusto di OLS per i residui non normali, ad esempio, l'errore distribuito di Cauchy non degraderebbe gli intervalli di confidenza e, a differenza di OLS, è anche una regressione bivariata, tuttavia nel caso bivariata è ancora parziale. La regressione di Passing-Bablok può essere più obiettiva bivariata, ma non si applica alle pendenze di regressione negativa. È più comunemente usato per studi di confronto dei metodi. Si dovrebbe menzionare la regressione Demingqui, a differenza delle regressioni di Theil-Sen e Passing-Bablok, è una soluzione effettiva al problema bivariato, ma manca della solidità di quelle altre regressioni. La robustezza può essere aumentata troncando i dati per includere i valori più centrali, ad esempio il consenso casuale del campione (RANSAC) è un metodo iterativo per stimare i parametri di un modello matematico da un insieme di dati osservati che contiene valori anomali.

$x$ $^1$ $x$ $y$ $x$ $y$ $y$ $^2$ $x$ $y$ $x$ $y=f(x)$

Longford, NT (2001). "Corrispondenza". Giornale della Royal Statistical Society, Serie A. 164: 565. doi: 10.1111 / 1467-985x.00219

— Carl
fonte