Qual è un elenco completo dei soliti presupposti per la regressione lineare?


72

Quali sono i soliti presupposti per la regressione lineare?

Includono:

  1. una relazione lineare tra la variabile indipendente e dipendente
  2. errori indipendenti
  3. normale distribuzione degli errori
  4. omoschedasticità

Ce ne sono altri?


3
Puoi trovare un elenco piuttosto completo nel piccolo libro di William Berry su "Comprendere i

3
Mentre gli intervistati hanno elencato alcune buone risorse, è difficile rispondere a questa domanda in questo formato e (molti) libri sono stati dedicati esclusivamente a questo argomento. Non esiste un libro di cucina, né dovrebbe essere data la potenziale varietà di situazioni che la regressione lineare potrebbe comprendere.
Andy W,

3
Tecnicamente, la regressione lineare (ordinaria) è un modello della forma , iid. Quella semplice affermazione matematica comprende tutte le ipotesi. Questo mi porta a pensare, @Andy W, che potresti interpretare la domanda in modo più ampio, forse nel senso dell'arte e della pratica della regressione. I tuoi ulteriori pensieri al riguardo potrebbero essere utili qui. Y iE[Yi]=XiβYi
whuber

2
@Andy W non stavo cercando di suggerire che la tua interpretazione fosse errata. Il tuo commento ha suggerito un modo di pensare alla domanda che va oltre le ipotesi tecniche, forse indicando ciò che potrebbe essere necessario per una valida interpretazione dei risultati della regressione. Non sarebbe necessario scrivere un trattato in risposta, ma anche un elenco di alcuni di questi problemi più ampi potrebbe essere illuminante e potrebbe ampliare la portata e l'interesse di questo thread.
whuber

1
@whuber, se significa che i mezzi sono diversi per diversi , quindi non può essere iid :)i Y iEYi=XiβiYi
mpiktas

Risposte:


78

La risposta dipende fortemente da come definisci completo e normale. Supponiamo che scriviamo modello di regressione lineare nel seguente modo:

yi=xiβ+ui

dove è il vettore delle variabili predittive, è il parametro di interesse, è la variabile di risposta e è il disturbo. Una delle possibili stime di è la stima dei minimi quadrati: xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

Ora praticamente tutti i libri di testo trattano le ipotesi quando questa stima ha proprietà desiderabili, come imparzialità, coerenza, efficienza, alcune proprietà distributive, ecc.β^

Ognuna di queste proprietà richiede determinati presupposti, che non sono gli stessi. Quindi la domanda migliore sarebbe quella di chiedere quali ipotesi sono necessarie per le proprietà desiderate della stima LS.

Le proprietà che menziono sopra richiedono un modello di probabilità per la regressione. E qui abbiamo la situazione in cui vengono utilizzati diversi modelli in diversi campi applicati.

Il semplice caso è trattare come variabili casuali indipendenti, con non casuale. Non mi piace la parola solito, ma possiamo dire che questo è il solito caso nella maggior parte dei campi applicati (per quanto ne so).yixi

Ecco l'elenco di alcune delle proprietà desiderabili delle stime statistiche:

  1. Il preventivo esiste.
  2. Impedenza: .Eβ^=β
  3. Coerenza: come ( qui è la dimensione di un campione di dati).β^βnn
  4. Efficienza: è inferiore a per stime alternative of .Var(β^)Var(β~)β~β
  5. La capacità di approssimare o calcolare la funzione di distribuzione di .β^

Esistenza

La proprietà dell'esistenza può sembrare strana, ma è molto importante. Nella definizione di invertiamo la matrice β^xixi.

Non è garantito che esiste l'inverso di questa matrice per tutte le possibili varianti di . Quindi otteniamo immediatamente la nostra prima ipotesi:xi

Matrix dovrebbe essere di rango massimo, cioè invertibile.xixi

non distorsione

Abbiamo se

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

Possiamo considerarlo il secondo presupposto, ma potremmo averlo dichiarato apertamente, poiché questo è uno dei modi naturali per definire la relazione lineare.

Si noti che per ottenere imparzialità è necessario solo che per tutti e siano costanti. Non è richiesta la proprietà di indipendenza.Eyi=xiβixi

Consistenza

Per ottenere le ipotesi di coerenza, dobbiamo dichiarare più chiaramente cosa intendiamo per . Per le sequenze di variabili casuali abbiamo diverse modalità di convergenza: in probabilità, quasi sicuramente, nella distribuzione e nel senso del momento -esimo. Supponiamo di voler ottenere la convergenza in probabilità. Possiamo usare la legge di grandi numeri o direttamente la disuguaglianza multivariata di Chebyshev (utilizzando il fatto che ):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(Questa variante della disuguaglianza deriva direttamente dall'applicazione della disuguaglianza di Markov a , notando che .)β^β2Eβ^β2=TrVar(β^)

Poiché la convergenza in probabilità significa che il termine della mano sinistra deve svanire per qualsiasi come , abbiamo bisogno che come . Questo è perfettamente ragionevole poiché con più dati dovrebbe aumentare la precisione con cui stimiamo .ε>0nVar(β^)0nβ

Abbiamo che

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

L'indipendenza assicura che , quindi l'espressione si semplifica in Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

Ora assume , quindi Var(yi)=const

Var(β^)=(xixi)1Var(yi).

Ora, se richiediamo inoltre che sia limitato per ogni , otteniamo immediatamente 1nxixin

Var(β)0 as n.

Quindi, per ottenere la coerenza, abbiamo assunto che non ci fosse autocorrelazione ( ), la varianza è costante e non cresce troppo. Il primo presupposto è soddisfatto se proviene da campioni indipendenti.Cov(yi,yj)=0Var(yi)xiyi

Efficienza

Il risultato classico è il teorema di Gauss-Markov . Le condizioni sono esattamente le prime due condizioni per coerenza e condizione per imparzialità.

Proprietà distributive

Se è normale, si ottiene immediatamente che è normale, poiché è una combinazione lineare di normali variabili casuali. Se assumiamo ipotesi precedenti di indipendenza, non correlazione e varianza costante otteniamo che dove .yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

Se non è normale, ma indipendente, possiamo ottenere una distribuzione approssimativa di grazie al teorema del limite centrale. Per questo abbiamo bisogno di assumere che per un po' di matrice . La varianza costante per la normalità asintotica non è richiesta se assumiamo che yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

Si noti che con costante varianza di , abbiamo che . Il teorema del limite centrale ci dà quindi il seguente risultato:yB=σ2A

n(β^β)N(0,A1BA1).

Quindi da questo vediamo che l'indipendenza e la varianza costante per e alcuni presupposti per ci danno molte proprietà utili per la stima LS .yixiβ^

Il fatto è che queste ipotesi possono essere rilassate. Ad esempio abbiamo richiesto che non siano variabili casuali. Questo presupposto non è fattibile nelle applicazioni econometriche. Se lasciamo casuale, possiamo ottenere risultati simili se utilizziamo le aspettative condizionali e prendiamo in considerazione la casualità di . Anche l'assunzione di indipendenza può essere rilassata. Abbiamo già dimostrato che a volte è necessaria solo la non correlazione. Anche questo può essere ulteriormente rilassato ed è ancora possibile dimostrare che la stima LS sarà coerente e asintoticamente normale. Vedi ad esempio il libro di White per maggiori dettagli.xixixi


Un commento sul teorema di Gauss-Markov. Afferma solo che OLS è migliore di altri stimatori che sono funzioni lineari dei dati. Tuttavia, molti stimatori di uso comune, in particolare la massima verosimiglianza (ML), in particolare, non sono funzioni lineari dei dati e possono essere molto più efficienti di OLS nelle condizioni del teorema di Gauss-Markov.
Peter Westfall,

@PeterWestfall Per errori normali gaussiani, MLE è OLS :) E non puoi ottenere più efficiente di MLE. Ho cercato di essere leggero con dettagli matematici in questo post.
mpiktas,

1
Il mio punto era che ci sono molti stimatori più efficienti di OLS in distribuzioni non normali quando valgono le condizioni GM. GM è essenzialmente inutile come affermazione che OLS è "buono" in non normalità, perché i migliori stimatori in casi non normali sono funzioni non lineari dei dati.
Peter Westfall,

@mpiktas Quindi o prendiamo come non casuale e usiamo lo stimatore o prendiamo come casuale e usiamo lo stimatore ? xY^xY|x^
Parthiban Rajendran,

16

Ci sono una serie di buone risposte qui. Mi viene in mente che esiste un presupposto che non è stato dichiarato tuttavia (almeno non esplicitamente). In particolare, un modello di regressione presuppone che (i valori delle variabili esplicative / predittive) sia fisso e noto e che tutta l'incertezza nella situazione esista all'interno della variabileInoltre, si presume che questa incertezza sia solo un errore di campionamento . XY

Ecco due modi per pensarci: se stai costruendo un modello esplicativo (modellando risultati sperimentali), sai esattamente quali sono i livelli delle variabili indipendenti, perché le hai manipolate / amministrate. Inoltre, hai deciso quali sarebbero questi livelli prima di iniziare a raccogliere dati. Quindi stai concettualizzando tutta l'incertezza nella relazione come esistente all'interno della risposta. D'altra parte, se si sta costruendo un modello predittivo, è vero che la situazione differisce, ma si trattano ancora i predittori come se fossero fissi e noti, perché, in futuro, quando si utilizza il modello per fare una previsione circa il probabile valore di , avrai un vettore,yxe il modello è progettato per trattare quei valori come se fossero corretti. Cioè, concepirai l'incertezza come il valore sconosciuto di . y

Queste ipotesi possono essere viste nell'equazione di un modello di regressione prototipico: Un modello con incertezza (forse a causa di un errore di misurazione) in potrebbe avere lo stesso processo di generazione dei dati, ma il modello che è stimato apparirebbe così: dove rappresenta un errore di misurazione casuale. (Situazioni come quest'ultima hanno portato a lavorare su errori nei modelli di variabili ; un risultato di base è che se c'è un errore di misurazione in , l'ingenuo

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1verrebbe attenuato - più vicino a 0 del suo valore reale e che se ci fosse un errore di misurazione in , i test statistici dei sarebbero sottodimensionati, ma altrimenti imparziali.) yβ^

Una conseguenza pratica dell'asimmetria intrinseca nell'assunto tipico è che regredire su è diverso da regredire su . (Vedi la mia risposta qui: qual è la differenza tra fare una regressione lineare su y con x rispetto a x con y? Per una discussione più dettagliata di questo fatto.)yxxy


Cosa significa "risolto" | "casuale" in un linguaggio semplice? E come distinguere tra effetti fissi e casuali (= fattori)? Penso che nel mio progetto ci sia 1 fattore noto fisso con 5 livelli. Giusto?
Stan

1
@stan, riconosco la tua confusione. La terminologia nelle statistiche è spesso confusa e inutile. In questo caso, "fixed" non è esattamente lo stesso di fixed in "effetti fissi ed effetti casuali" (sebbene siano correlati). Qui, non stiamo parlando di effetti - stiamo parlando dei dati , ovvero delle variabili predittive / esplicative. Il modo più semplice per capire l'idea che i tuoi dati vengano riparati è pensare a un esperimento pianificato. Prima di fare qualsiasi cosa, quando progetti l'esperimento, decidi quali saranno i livelli della tua spiegazione, non li scopri lungo la strada. XX
gung - Ripristina Monica

Con la modellazione predittiva, non è del tutto vero, ma tratteremo i nostri dati quel modo in futuro, quando useremo il modello per fare previsioni. X
gung - Ripristina Monica

Perché βs e ε hanno un cappello nell'equazione inferiore, ma non in quella superiore?
user1205901

2
@ user1205901, il modello principale è il processo di generazione dei dati, il fondo è la stima di esso.
gung - Ripristina Monica

8

Le ipotesi del modello di regressione lineare classica includono:

  1. Parametro lineare e specifica del modello corretta
  2. Grado completo della matrice X.
  3. Le variabili esplicative devono essere esogene
  4. Termini di errore indipendenti e distribuiti in modo identico
  5. Termini di errore distribuiti normali nella popolazione

Sebbene le risposte qui forniscano già una buona panoramica dell'assunto OLS classico, è possibile trovare una descrizione più completa dell'assunzione del modello di regressione lineare classica qui:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Inoltre, l'articolo descrive le conseguenze nel caso in cui si violino determinati presupposti.


6

Diverse ipotesi possono essere utilizzate per giustificare OLS

  • In alcune situazioni, un autore verifica i residui per la normalità.
    • Ma in altre situazioni, i residui non sono normali e l'autore usa comunque OLS!
  • Vedrai testi che affermano che l'omoscedasticità è un presupposto.
    • Ma vedi ricercatori che usano OLS quando l'omoscedasticità è violata.

Cosa dà ?!

Una risposta è che si possono usare insiemi alquanto diversi di ipotesi per giustificare l'uso della stima dei minimi quadrati ordinari (OLS). OLS è uno strumento simile a un martello: puoi usare un martello sulle unghie ma puoi anche usarlo su pioli, per rompere il ghiaccio, ecc ...

Due grandi categorie di ipotesi sono quelle che si applicano ai piccoli campioni e quelle che si basano su campioni di grandi dimensioni in modo da poter applicare il teorema del limite centrale .

1. Piccoli presupposti del campione

Piccoli assunti di esempio come discusso in Hayashi (2000) sono:

  1. Linearità
  2. Esogeneità rigorosa
  3. Nessuna multicollinearità
  4. Errori sferici (omoscedasticità)

Sotto (1) - (4), si applica il teorema di Gauss-Markov e lo stimatore dei minimi quadrati ordinario è il miglior stimatore lineare imparziale.

  1. Normalità dei termini di errore

Supponendo inoltre che i normali termini di errore consentano di verificare le ipotesi . Se i termini di errore sono condizionatamente normali, anche la distribuzione dello stimatore OLS è condizionalmente normale.

Un altro punto degno di nota è che, con la normalità, lo stimatore OLS è anche lo stimatore della massima verosimiglianza .

2. Grandi ipotesi di esempio

Queste ipotesi possono essere modificate / rilassate se disponiamo di un campione sufficientemente ampio in modo da poterci appoggiare alla legge di grandi numeri (per coerenza dello stimatore OLS) e al teorema del limite centrale (in modo che la distribuzione campionaria dello stimatore OLS converga a la distribuzione normale e possiamo fare test di ipotesi, parlare di valori p ecc.).

Hayashi è un ragazzo di macroeconomia e i suoi grandi assunti di esempio sono formulati tenendo presente il contesto delle serie temporali:

  1. linearità
  2. stazionarietà ergodica
  3. regressori predeterminati: i termini di errore sono ortogonali ai loro termini di errore contemporanei.
  4. E[xx] è al completo
  5. xiϵi è una sequenza di differenze martingala con secondi momenti finiti.
  6. Quarti momenti finiti di regressori

Potresti incontrare versioni più forti di questi presupposti, ad esempio che i termini di errore sono indipendenti.

Le ipotesi di campionamento adeguate consentono di ottenere una distribuzione campionaria dello stimatore OLS che è asintoticamente normale.

Riferimenti

Hayashi, Fumio, 2000, Econometria


5

È tutto su ciò che vuoi fare con il tuo modello. Immagina se i tuoi errori fossero positivamente distorti / non normali. Se volessi fare un intervallo di predizione, potresti fare di meglio che usare la distribuzione t. Se la tua varianza è minore con valori previsti più piccoli, di nuovo, faresti un intervallo di previsione che è troppo grande.

È meglio capire perché ci sono le ipotesi.


4

I seguenti diagrammi mostrano quali ipotesi sono necessarie per ottenere quali implicazioni negli scenari finiti e asintotici.

Presupposti OLS finiti

ipotesi OLS asintotiche

Penso che sia importante pensare non solo alle ipotesi, ma anche alle implicazioni di tali ipotesi. Ad esempio, se ti interessa solo avere coefficienti imparziali, non hai bisogno di omoschedasticità.


2

Di seguito sono riportati i presupposti dell'analisi della regressione lineare.

Specifica corretta . La forma funzionale lineare è specificata correttamente.

Esogeneità rigorosa . Gli errori nella regressione dovrebbero avere zero medio condizionale.

Nessuna multicollinearità . I regressori in X devono essere tutti linearmente indipendenti.

Omoscedasticità che significa che il termine di errore ha la stessa varianza in ogni osservazione.

Nessuna autocorrelazione : gli errori non sono correlati tra le osservazioni.

Normalità. Talvolta si suppone inoltre che gli errori abbiano una distribuzione normale subordinata ai regressori.

Osservazioni Iid : è indipendente da, e ha la stessa distribuzione di, per tutti .(xi,yi)(xj,yj)ij

Per maggiori informazioni visita questa pagina .


4
Piuttosto che "nessuna multicolinearità" direi "nessuna dipendenza lineare". La collinearità è spesso usata come misura continua piuttosto che categorica. È vietata solo la collinearità rigorosa o esatta.
Peter Flom - Ripristina Monica

2
Che dire della regressione delle serie storiche? Che dire dei minimi quadrati generalizzati? La tua lista è un po 'come la lista dei comandamenti quando in realtà le ultime 4 ipotesi possono essere troppo restrittive se ci preoccupiamo solo della coerenza e della normalità asintotica della stima dei minimi quadrati.
mpiktas,

1
La multicollinearità solleva problemi di interpretazione (legati all'identificabilità di alcuni parametri) ma sicuramente non è un'ipotesi standard di modelli di regressione lineare. La quasi multicollinearità è principalmente un problema computazionale , ma solleva anche problemi di interpretazione simili.
whuber

@whuber & Peter Flom: Come ho letto nel libro del Gujarati alla pagina n. 65-75. tiny.cc/cwb2g Conta il "no multicollinearity" come un'ipotesi di analisi di regressione.
Statistiche d'amore

@mpiktas: se visiti l'URL indicato nella risposta, troverai ipotesi sulla regressione delle serie storiche.
Statistiche d'amore

2

Non esiste un unico elenco di ipotesi, ci saranno almeno 2: una per la matrice di progettazione fissa e una per la progettazione casuale. Inoltre, potresti voler esaminare le ipotesi per le regressioni delle serie temporali (vedi p.13)

Il caso in cui la matrice di progettazione è fissa potrebbe essere il più comune e i suoi presupposti sono spesso espressi come teorema di Gauss-Markov . Il design fisso significa che controlli veramente i regressori. Ad esempio, conduci un esperimento e puoi impostare parametri come temperatura, pressione, ecc. Vedi anche p.13 qui .X

Sfortunatamente, nelle scienze sociali come l'economia raramente puoi controllare i parametri dell'esperimento. Di solito, osservi cosa succede nell'economia, registri le metriche ambientali, quindi regredisci su di esse. Si scopre che si tratta di una situazione molto diversa e più difficile, chiamata design casuale . In questo caso il teorema di Gauss-Markov viene modificato anche vedi p.12 qui . Puoi vedere come le condizioni sono ora espresse in termini di probabilità condizionate , che non è un cambiamento innocuo.

In econometria le assunzioni hanno nomi:

  • linearità
  • rigorosa esogeneità
  • nessuna multicollinearità
  • varianza sferica dell'errore (include omoscedasticità e nessuna correlazione)

Si noti che non ho mai menzionato la normalità. Non è un presupposto standard. Viene spesso utilizzato nei corsi di regressione introduttiva perché semplifica alcune derivazioni, ma non è necessario che la regressione funzioni e abbia proprietà piacevoli.


1

Il presupposto della linearità è che il modello sia lineare nei parametri. Va bene avere un modello di regressione con effetti di ordine quadratico o superiore purché la funzione di potenza della variabile indipendente faccia parte di un modello di additivo lineare. Se il modello non contiene termini di ordine superiore quando dovrebbe, la mancanza di adattamento sarà evidente nella trama dei residui. Tuttavia, i modelli di regressione standard non incorporano modelli in cui la variabile indipendente viene elevata alla potenza di un parametro (sebbene esistano altri approcci che possono essere utilizzati per valutare tali modelli). Tali modelli contengono parametri non lineari.


1

Il coefficiente di regressione dei minimi quadrati fornisce un modo per sintetizzare la tendenza del primo ordine in qualsiasi tipo di dati. La risposta di @mpiktas è un trattamento approfondito delle condizioni in cui i minimi quadrati sono sempre più ottimali. Mi piacerebbe andare dall'altra parte e mostrare il caso più generale quando funzionano i minimi quadrati. Vediamo la formulazione più generale dell'equazione dei minimi quadrati:

E[Y|X]=α+βX

È solo un modello lineare per la media condizionale della risposta.

Nota: ho annullato il termine di errore. Se desideri riassumere l'incertezza di , allora devi fare appello al teorema del limite centrale. La classe più generale di stimatori dei minimi quadrati converge alla normalità quando viene soddisfatta la condizione di Lindeberg : ridotta, la condizione di Lindeberg per i minimi quadrati richiede che la frazione del residuo quadrato più grande alla somma della somma dei residui quadrati debba andare a 0 come . Se il tuo progetto continuerà a campionare residui sempre più grandi, allora l'esperimento è "morto nell'acqua".βn

Quando viene soddisfatta la condizione di Lindeberg, il parametro di regressione è ben definito e lo stimatore è uno stimatore imparziale che ha una distribuzione approssimativa nota. Stimatori più efficienti possono esistere. In altri casi di eteroscedasticità, o dati correlati, di solito uno stimatore ponderato è più efficiente . Ecco perché non consiglierei mai di usare i metodi ingenui quando sono disponibili metodi migliori. Ma spesso non lo sono!ββ^


1
Per gli econometrici: vale la pena sottolineare che questa condizione implica una rigorosa esogeneità, pertanto non è necessario affermare una rigida esogeneità come presupposto nel modello medio condizionale. È automaticamente vero, matematicamente. (Teoria parlante qui, non stime.)
Peter Westfall,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.