Quali sono i soliti presupposti per la regressione lineare?
Includono:
- una relazione lineare tra la variabile indipendente e dipendente
- errori indipendenti
- normale distribuzione degli errori
- omoschedasticità
Ce ne sono altri?
Quali sono i soliti presupposti per la regressione lineare?
Includono:
Ce ne sono altri?
Risposte:
La risposta dipende fortemente da come definisci completo e normale. Supponiamo che scriviamo modello di regressione lineare nel seguente modo:
dove è il vettore delle variabili predittive, è il parametro di interesse, è la variabile di risposta e è il disturbo. Una delle possibili stime di è la stima dei minimi quadrati:
Ora praticamente tutti i libri di testo trattano le ipotesi quando questa stima ha proprietà desiderabili, come imparzialità, coerenza, efficienza, alcune proprietà distributive, ecc.
Ognuna di queste proprietà richiede determinati presupposti, che non sono gli stessi. Quindi la domanda migliore sarebbe quella di chiedere quali ipotesi sono necessarie per le proprietà desiderate della stima LS.
Le proprietà che menziono sopra richiedono un modello di probabilità per la regressione. E qui abbiamo la situazione in cui vengono utilizzati diversi modelli in diversi campi applicati.
Il semplice caso è trattare come variabili casuali indipendenti, con non casuale. Non mi piace la parola solito, ma possiamo dire che questo è il solito caso nella maggior parte dei campi applicati (per quanto ne so).
Ecco l'elenco di alcune delle proprietà desiderabili delle stime statistiche:
Esistenza
La proprietà dell'esistenza può sembrare strana, ma è molto importante. Nella definizione di invertiamo la matrice
Non è garantito che esiste l'inverso di questa matrice per tutte le possibili varianti di . Quindi otteniamo immediatamente la nostra prima ipotesi:
Matrix dovrebbe essere di rango massimo, cioè invertibile.
non distorsione
Abbiamo
se
Possiamo considerarlo il secondo presupposto, ma potremmo averlo dichiarato apertamente, poiché questo è uno dei modi naturali per definire la relazione lineare.
Si noti che per ottenere imparzialità è necessario solo che per tutti e siano costanti. Non è richiesta la proprietà di indipendenza.
Consistenza
Per ottenere le ipotesi di coerenza, dobbiamo dichiarare più chiaramente cosa intendiamo per . Per le sequenze di variabili casuali abbiamo diverse modalità di convergenza: in probabilità, quasi sicuramente, nella distribuzione e nel senso del momento -esimo. Supponiamo di voler ottenere la convergenza in probabilità. Possiamo usare la legge di grandi numeri o direttamente la disuguaglianza multivariata di Chebyshev (utilizzando il fatto che ):
(Questa variante della disuguaglianza deriva direttamente dall'applicazione della disuguaglianza di Markov a , notando che .)
Poiché la convergenza in probabilità significa che il termine della mano sinistra deve svanire per qualsiasi come , abbiamo bisogno che come . Questo è perfettamente ragionevole poiché con più dati dovrebbe aumentare la precisione con cui stimiamo .
Abbiamo che
L'indipendenza assicura che , quindi l'espressione si semplifica in
Ora assume , quindi
Ora, se richiediamo inoltre che sia limitato per ogni , otteniamo immediatamente
Quindi, per ottenere la coerenza, abbiamo assunto che non ci fosse autocorrelazione ( ), la varianza è costante e non cresce troppo. Il primo presupposto è soddisfatto se proviene da campioni indipendenti.
Efficienza
Il risultato classico è il teorema di Gauss-Markov . Le condizioni sono esattamente le prime due condizioni per coerenza e condizione per imparzialità.
Proprietà distributive
Se è normale, si ottiene immediatamente che è normale, poiché è una combinazione lineare di normali variabili casuali. Se assumiamo ipotesi precedenti di indipendenza, non correlazione e varianza costante otteniamo che
dove .
Se non è normale, ma indipendente, possiamo ottenere una distribuzione approssimativa di grazie al teorema del limite centrale. Per questo abbiamo bisogno di assumere che
per un po' di matrice . La varianza costante per la normalità asintotica non è richiesta se assumiamo che
Si noti che con costante varianza di , abbiamo che . Il teorema del limite centrale ci dà quindi il seguente risultato:
Quindi da questo vediamo che l'indipendenza e la varianza costante per e alcuni presupposti per ci danno molte proprietà utili per la stima LS .
Il fatto è che queste ipotesi possono essere rilassate. Ad esempio abbiamo richiesto che non siano variabili casuali. Questo presupposto non è fattibile nelle applicazioni econometriche. Se lasciamo casuale, possiamo ottenere risultati simili se utilizziamo le aspettative condizionali e prendiamo in considerazione la casualità di . Anche l'assunzione di indipendenza può essere rilassata. Abbiamo già dimostrato che a volte è necessaria solo la non correlazione. Anche questo può essere ulteriormente rilassato ed è ancora possibile dimostrare che la stima LS sarà coerente e asintoticamente normale. Vedi ad esempio il libro di White per maggiori dettagli.
Ci sono una serie di buone risposte qui. Mi viene in mente che esiste un presupposto che non è stato dichiarato tuttavia (almeno non esplicitamente). In particolare, un modello di regressione presuppone che (i valori delle variabili esplicative / predittive) sia fisso e noto e che tutta l'incertezza nella situazione esista all'interno della variabileInoltre, si presume che questa incertezza sia solo un errore di campionamento .
Ecco due modi per pensarci: se stai costruendo un modello esplicativo (modellando risultati sperimentali), sai esattamente quali sono i livelli delle variabili indipendenti, perché le hai manipolate / amministrate. Inoltre, hai deciso quali sarebbero questi livelli prima di iniziare a raccogliere dati. Quindi stai concettualizzando tutta l'incertezza nella relazione come esistente all'interno della risposta. D'altra parte, se si sta costruendo un modello predittivo, è vero che la situazione differisce, ma si trattano ancora i predittori come se fossero fissi e noti, perché, in futuro, quando si utilizza il modello per fare una previsione circa il probabile valore di , avrai un vettore,e il modello è progettato per trattare quei valori come se fossero corretti. Cioè, concepirai l'incertezza come il valore sconosciuto di .
Queste ipotesi possono essere viste nell'equazione di un modello di regressione prototipico: Un modello con incertezza (forse a causa di un errore di misurazione) in potrebbe avere lo stesso processo di generazione dei dati, ma il modello che è stimato apparirebbe così: dove rappresenta un errore di misurazione casuale. (Situazioni come quest'ultima hanno portato a lavorare su errori nei modelli di variabili ; un risultato di base è che se c'è un errore di misurazione in , l'ingenuo
Una conseguenza pratica dell'asimmetria intrinseca nell'assunto tipico è che regredire su è diverso da regredire su . (Vedi la mia risposta qui: qual è la differenza tra fare una regressione lineare su y con x rispetto a x con y? Per una discussione più dettagliata di questo fatto.)
Le ipotesi del modello di regressione lineare classica includono:
Sebbene le risposte qui forniscano già una buona panoramica dell'assunto OLS classico, è possibile trovare una descrizione più completa dell'assunzione del modello di regressione lineare classica qui:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
Inoltre, l'articolo descrive le conseguenze nel caso in cui si violino determinati presupposti.
Cosa dà ?!
Una risposta è che si possono usare insiemi alquanto diversi di ipotesi per giustificare l'uso della stima dei minimi quadrati ordinari (OLS). OLS è uno strumento simile a un martello: puoi usare un martello sulle unghie ma puoi anche usarlo su pioli, per rompere il ghiaccio, ecc ...
Due grandi categorie di ipotesi sono quelle che si applicano ai piccoli campioni e quelle che si basano su campioni di grandi dimensioni in modo da poter applicare il teorema del limite centrale .
Piccoli assunti di esempio come discusso in Hayashi (2000) sono:
Sotto (1) - (4), si applica il teorema di Gauss-Markov e lo stimatore dei minimi quadrati ordinario è il miglior stimatore lineare imparziale.
Supponendo inoltre che i normali termini di errore consentano di verificare le ipotesi . Se i termini di errore sono condizionatamente normali, anche la distribuzione dello stimatore OLS è condizionalmente normale.
Un altro punto degno di nota è che, con la normalità, lo stimatore OLS è anche lo stimatore della massima verosimiglianza .
Queste ipotesi possono essere modificate / rilassate se disponiamo di un campione sufficientemente ampio in modo da poterci appoggiare alla legge di grandi numeri (per coerenza dello stimatore OLS) e al teorema del limite centrale (in modo che la distribuzione campionaria dello stimatore OLS converga a la distribuzione normale e possiamo fare test di ipotesi, parlare di valori p ecc.).
Hayashi è un ragazzo di macroeconomia e i suoi grandi assunti di esempio sono formulati tenendo presente il contesto delle serie temporali:
Potresti incontrare versioni più forti di questi presupposti, ad esempio che i termini di errore sono indipendenti.
Le ipotesi di campionamento adeguate consentono di ottenere una distribuzione campionaria dello stimatore OLS che è asintoticamente normale.
Hayashi, Fumio, 2000, Econometria
È tutto su ciò che vuoi fare con il tuo modello. Immagina se i tuoi errori fossero positivamente distorti / non normali. Se volessi fare un intervallo di predizione, potresti fare di meglio che usare la distribuzione t. Se la tua varianza è minore con valori previsti più piccoli, di nuovo, faresti un intervallo di previsione che è troppo grande.
È meglio capire perché ci sono le ipotesi.
I seguenti diagrammi mostrano quali ipotesi sono necessarie per ottenere quali implicazioni negli scenari finiti e asintotici.
Penso che sia importante pensare non solo alle ipotesi, ma anche alle implicazioni di tali ipotesi. Ad esempio, se ti interessa solo avere coefficienti imparziali, non hai bisogno di omoschedasticità.
Di seguito sono riportati i presupposti dell'analisi della regressione lineare.
Specifica corretta . La forma funzionale lineare è specificata correttamente.
Esogeneità rigorosa . Gli errori nella regressione dovrebbero avere zero medio condizionale.
Nessuna multicollinearità . I regressori in X devono essere tutti linearmente indipendenti.
Omoscedasticità che significa che il termine di errore ha la stessa varianza in ogni osservazione.
Nessuna autocorrelazione : gli errori non sono correlati tra le osservazioni.
Normalità. Talvolta si suppone inoltre che gli errori abbiano una distribuzione normale subordinata ai regressori.
Osservazioni Iid : è indipendente da, e ha la stessa distribuzione di, per tutti .
Per maggiori informazioni visita questa pagina .
Non esiste un unico elenco di ipotesi, ci saranno almeno 2: una per la matrice di progettazione fissa e una per la progettazione casuale. Inoltre, potresti voler esaminare le ipotesi per le regressioni delle serie temporali (vedi p.13)
Il caso in cui la matrice di progettazione è fissa potrebbe essere il più comune e i suoi presupposti sono spesso espressi come teorema di Gauss-Markov . Il design fisso significa che controlli veramente i regressori. Ad esempio, conduci un esperimento e puoi impostare parametri come temperatura, pressione, ecc. Vedi anche p.13 qui .
Sfortunatamente, nelle scienze sociali come l'economia raramente puoi controllare i parametri dell'esperimento. Di solito, osservi cosa succede nell'economia, registri le metriche ambientali, quindi regredisci su di esse. Si scopre che si tratta di una situazione molto diversa e più difficile, chiamata design casuale . In questo caso il teorema di Gauss-Markov viene modificato anche vedi p.12 qui . Puoi vedere come le condizioni sono ora espresse in termini di probabilità condizionate , che non è un cambiamento innocuo.
In econometria le assunzioni hanno nomi:
Si noti che non ho mai menzionato la normalità. Non è un presupposto standard. Viene spesso utilizzato nei corsi di regressione introduttiva perché semplifica alcune derivazioni, ma non è necessario che la regressione funzioni e abbia proprietà piacevoli.
Il presupposto della linearità è che il modello sia lineare nei parametri. Va bene avere un modello di regressione con effetti di ordine quadratico o superiore purché la funzione di potenza della variabile indipendente faccia parte di un modello di additivo lineare. Se il modello non contiene termini di ordine superiore quando dovrebbe, la mancanza di adattamento sarà evidente nella trama dei residui. Tuttavia, i modelli di regressione standard non incorporano modelli in cui la variabile indipendente viene elevata alla potenza di un parametro (sebbene esistano altri approcci che possono essere utilizzati per valutare tali modelli). Tali modelli contengono parametri non lineari.
Il coefficiente di regressione dei minimi quadrati fornisce un modo per sintetizzare la tendenza del primo ordine in qualsiasi tipo di dati. La risposta di @mpiktas è un trattamento approfondito delle condizioni in cui i minimi quadrati sono sempre più ottimali. Mi piacerebbe andare dall'altra parte e mostrare il caso più generale quando funzionano i minimi quadrati. Vediamo la formulazione più generale dell'equazione dei minimi quadrati:
È solo un modello lineare per la media condizionale della risposta.
Nota: ho annullato il termine di errore. Se desideri riassumere l'incertezza di , allora devi fare appello al teorema del limite centrale. La classe più generale di stimatori dei minimi quadrati converge alla normalità quando viene soddisfatta la condizione di Lindeberg : ridotta, la condizione di Lindeberg per i minimi quadrati richiede che la frazione del residuo quadrato più grande alla somma della somma dei residui quadrati debba andare a 0 come . Se il tuo progetto continuerà a campionare residui sempre più grandi, allora l'esperimento è "morto nell'acqua".
Quando viene soddisfatta la condizione di Lindeberg, il parametro di regressione è ben definito e lo stimatore è uno stimatore imparziale che ha una distribuzione approssimativa nota. Stimatori più efficienti possono esistere. In altri casi di eteroscedasticità, o dati correlati, di solito uno stimatore ponderato è più efficiente . Ecco perché non consiglierei mai di usare i metodi ingenui quando sono disponibili metodi migliori. Ma spesso non lo sono!