L'assunzione di linearità nella regressione lineare è semplicemente una definizione di


10

Sto rivedendo la regressione lineare.

Il libro di testo di Greene afferma:

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

Ora, naturalmente, ci saranno altre ipotesi sul modello di regressione lineare, come E(ϵ|X)=0 . Questa assunzione combinata con l'assunzione di linearità (che in effetti definisce ϵ ), mette la struttura sul modello.

Tuttavia, l'assunto di linearità di per sé non pone alcuna struttura sul nostro modello, poiché ϵ può essere completamente arbitrario. Per ogni variabile X,y qualunque, qualunque sia la relazione tra i due, potremmo definire ϵ tale che il presupposto di linearità vale. Pertanto, la "assunzione" della linearità dovrebbe in realtà essere definita una definizione di ϵ , piuttosto che un'assunzione.

Pertanto mi chiedo :

  1. Greene è sciatto? Avrebbe dovuto effettivamente scrivere: ? Questa è una "ipotesi di linearità" che in realtà mette la struttura sul modello.E(y|X)=Xβ

  2. O devo accettare che l'assunto di linearità non pone la struttura sul modello ma definisce solo un , dove le altre assunzioni useranno quella definizione di ϵ per mettere la struttura sul modello?ϵϵ


Modifica : poiché sembra esserci un po 'di confusione attorno alle altre assunzioni, vorrei aggiungere qui la serie completa di assunzioni:

inserisci qui la descrizione dell'immagine

Questo è di Greene, Analisi econometrica, 7 ° ed. p. 16.


4
Queste sono osservazioni percettive (+1). In tutta onestà, tuttavia, credo che la maggior parte degli autori (se non tutti) stiano lavorando in un contesto in cui il significato stesso di un errore additivo come include l'assunto che la sua distribuzione è centrata su 0 . ϵ0
whuber

2
@whuber, ho aggiunto l'intera serie di ipotesi. guarda A3. A3 rende esplicito che è centrato su 0, il che implicherebbe che Greene non lo assume in A1, il che mi lascia a chiedermi se A1 abbia qualche contenuto logico, a parte definire . ϵ
user56834

2
Il significato inteso di un elenco di ipotesi è che detengono collettivamente, non separatamente. Questo non mostra alcuna "sciattezza".
whuber

2
@AdamO, la parola "corretto" sembra non avere un significato preciso per me. Sto cercando di capire più esattamente questo. Mi sembra che la formulazione più precisa di tutto ciò sia quella di dire che il presupposto 1 dovrebbe essere chiamato "definizione di ", e quindi tutto ha un senso. O in realtà mi manca qualcosa, motivo per cui ho posto questa domanda. Sfortunatamente finora non ho visto una risposta diretta a questa domandaϵ
user56834

2
@ Programmer2134 stai ricevendo risposte imprecise perché stai ponendo una domanda imprecisa. Uno non "mette la struttura su un modello" come dici tu. Se il modello medio è sbagliato ( viene usato), allora la risposta è caratterizzata come Y = f ( x ) + polarizzazione + errore . e i residui sono considerati come la somma della distorsione e dell'errore. f(x)Y=f(x)+bias+error
AdamO

Risposte:


8
  1. Greene è sciatto? Avrebbe dovuto effettivamente scrivere: ? Questa è una "ipotesi di linearità" che in realtà mette la struttura sul modello.E(y|X)=Xβ

In un certo senso, sì e no. Da un lato, sì, data l'attuale ricerca sulla causalità moderna , è sciatto, ma proprio come la maggior parte dei libri di testo di econometria, nel senso che non fanno una chiara distinzione di quantità causali e osservative, portando a confusioni comuni come questa stessa domanda. D'altra parte, no, questa ipotesi non è sciatta nel senso che è effettivamente diversa dalla semplice assunzione di .E(y|X)=Xβ

Il nocciolo della questione qui è la differenza tra l'attesa condizionale, e quella strutturaleE(y|X) equazione (causale) di , così come la sua aspettativa strutturale (causale) E [ Y | d o ( X ) ]yE[Y|do(X)] . L'ipotesi di linearità in Greene è un'ipotesi strutturale . Vediamo un semplice esempio. Immagina che l'equazione strutturale sia:

y=βx+γx2+ϵ

Adesso molla . Quindi avremmo:E[ϵ|x]=δxγx2

E[y|x]=βx

dove . Inoltre, possiamo scrivere y = β x + ϵ e avremmo E [ ϵ | Xβ=β+δy=βx+ϵ . Questo dimostra che possiamo avere un'aspettativa condizionale linearecorrettamente specificata E [ y | x ] che per definizione avrà un disturbo ortogonale, tuttavia l'equazione strutturale sarebbe non lineare.E[ϵ|x]=0E[y|x]

  1. O devo accettare che l'assunto di linearità non pone la struttura sul modello ma definisce solo un , dove le altre assunzioni useranno quella definizione di ϵ per mettere la struttura sul modello?ϵϵ

L'assunto di linearità definisce un , cioè ϵ : = y - X β = y - E [ Y | d o ( X ) ] per definizione, dove ϵ consente di identificare l'aspettativa strutturale E [ Y | d o ( X ) ]ϵϵ:=yXβ=yE[Y|do(X)]ϵ rappresenta le deviazioni di dalla sua aspettativa quando sperimentalmente set X ( vedere sezione Pearl 5.4 ). Le altre assunzioni vengono utilizzate per identificare i parametri strutturali (ad esempio, l'assunzione di esogeneità di ϵy XϵE[Y|do(X)] con l'aspettativa condizionale ) o per la derivazione di proprietà statistiche degli stimatori (per esempio, l'assunzione di omoschedasticità garantisce che OLS sia BLU, l'assunzione di normalità rende facile derivare risultati "campione finito" per inferenza ecc.).E[Y|X]

Tuttavia, l'assunto di linearità di per sé non pone alcuna struttura sul nostro modello, da allora può essere completamente arbitrario. Per ogni variabile X , y qualunque, qualunque sia la relazione tra i due, potremmo definire ϵ tale che il presupposto di linearità vale.ϵX,yϵ

La tua affermazione qui entra nel problema principale dell'inferenza causale in generale! Come mostrato nel semplice esempio sopra, possiamo preparare disturbi strutturali che potrebbero rendere l'aspettativa condizionata di y lineare dato . In generale, diversi modelli strutturali (causali) possono avere la stessa distribuzione osservativa, puoi persino avere causalità senza associazione osservata. Pertanto, in questo senso, hai ragione --- abbiamo bisogno di più ipotesi su ϵ per mettere "più struttura" nel problema e identificare i parametri strutturali β con dati osservativi.xϵβ

Nota a margine

Vale la pena ricordare che la maggior parte dei libri di testo di econometria sono confusi quando si tratta della distinzione tra regressione ed equazioni strutturali e il loro significato. Questo è stato documentato di recente. Puoi consultare un articolo di Chen e Pearl qui e un sondaggio esteso di Chris Auld . Greene è uno dei libri esaminati.


Grazie, questa è la risposta che stavo cercando. Quindi quando dici che l'assunzione di linearità è un'ipotesi strutturale, allora cosa comporta esattamente la relazione causale tra e x ? Può esserci ancora una relazione causale corretta? È solo che la relazione causale diretta da x a y è lineare, vero? Può esserci ancora un effetto causale altamente non lineare di x su y attraverso ϵ ? ϵxxyxy ϵ
user56834

1
@ Programmer2134 è un'altra area in cui i libri di testo di econometria sono sciatti, troverai pochi riferimenti a effetti diretti / indiretti, mediazione ecc. Se l'equazione è strutturale, allora possiamo avere una definizione operativa del disturbo strutturale come la differenza di con l'atteso effetto causale di X , ovvero ϵ : = y - E [ Y | d o ( X ) ] = y - X β . Quindi, in questo senso, la strutturale ε non è "causato" di X . Tuttavia, questo non ci dice nulla sulyXϵ:=yE[Y|do(X)]=yXβϵXassociazione di e X , poiché potrebbero avere cause comuni. ϵX
Carlos Cinelli,

@ Programmer2134 a proposito, le tue preoccupazioni sono sulla buona strada, penso che il Primer di Pearl sull'inferenza causale potrebbe essere un compagno interessante di Greene!
Carlos Cinelli,

Per inciso, ho iniziato a leggere "Causality: Models, Reasoning and Inference" di Pearl qualche tempo fa. Ho pensato che fosse molto interessante, ma per me era in qualche modo astratto. Non sono andato oltre il capitolo 2. Pensi che "primer sull'inferenza causale" sarà più adatto? (cioè introdurre concetti in modo più intuitivo).
user56834

1
@ColorStatistics è possibile utilizzare la regressione per le previsioni, certo, ma l'assunto di esogeneità non ha alcun ruolo. Questo è ciò che l'OP ha iniziato a sospettare da solo, chiedendosi perché Greene non abbia semplicemente scritto l'assunto poiché è lineare. E(Y|x)
Carlos Cinelli,

0

a cura di commenti di OP e Matthew Drury

Per rispondere a questa domanda suppongo che Greene e OP abbiano in mente la seguente definizione di linearità: Linearità significa che per ogni aumento di unità in questo predittore, il risultato viene aumentato di beta ( ), ovunque sulla gamma dei possibili valori di predittore si verifica questo aumento di una unità. Vale a dire la funzione y = f ( x ) è y = a + b x e non ad es. Y = a + b x 2 o y = a + s i nβy=f(x)y=a+bxy=a+bx2y=a+sin(x). Inoltre, questa ipotesi è focalizzata sui beta e quindi si applica ai predittori (ovvero variabili indipendenti).

L'aspettativa dei residui subordinata al modello è qualcos'altro. Sì, è vero che la matematica dietro una regressione lineare definisce / tenta di definire E ( ϵ | X ) = 0 . Tuttavia, questo è generalmente impostato sull'intero intervallo di valori adattati / previsti per y . Se si osservano parti specifiche del predittore lineare e il valore previsto di y , è possibile notare l' eteroscedasticità (aree in cui la variazione di ϵ è maggiore rispetto a qualsiasi altra parte) o aree in cui E ( ϵ | X )E(ϵ|X)E(ϵ|X)=0yyϵ . Un'associazione non lineare tra le xe le y potrebbe essere la causa di ciò, ma non è l'unica ragione per cuipotrebbero verificarsi l'eteroscedasticità o E ( ϵ | X ) 0 (vedere ad esempio la distorsione predittiva mancante).E(ϵ|X)0xyE(ϵ|X)0

Dai commenti: OP afferma "il presupposto della linearità non limita in alcun modo il modello, dato che epsilon è arbitrario e può avere qualsiasi funzione di XX", su cui concordo. Penso che ciò sia chiarito dal fatto che le regressioni lineari sono in grado di adattarsi a qualsiasi dato, indipendentemente dal fatto che il presupposto della linearità sia o meno violato. Sto speculando qui, ma questo potrebbe essere il motivo per cui Greene ha scelto di mantenere l'errore nella formula - salvando E ( ϵ | X ) = 0 per dopo - per indicare che nell'assumere la linearità, y (e non l'atteso y ) può essere definito in base a X ma mantiene alcuni erroriϵE(ϵ|X)=0yyXϵ, indipendentemente da quali valori assume. Posso solo sperare che in seguito continui a dichiarare la pertinenza di E ( ϵ | X ) = 0ϵE(ϵ|X)=0 .

In breve (è vero, senza aver letto completamente il libro di Greene e senza averne verificato l'argomentazione):

  1. Greene probabilmente si riferisce al fatto che i beta sono costanti per l'intero intervallo del predittore (l'enfasi dovrebbe essere posta sulla beta in o E ( ϵ | X ) = X βy=Xβ+ϵE(ϵ|X)=Xβ equazioni ;
  2. L'ipotesi di linearità mette una struttura sul modello. Si noti tuttavia che trasformazioni o aggiunte come spline prima della modellazione possono rendere le associazioni non lineari conformi al quadro di regressione lineare.

3
Questo è utile, ma non è necessario in alcun senso l'appello alla continuità. Il macchinario funziona allo stesso modo se si basa solo su ( 0 , 1 ) predittori. X(0,1)
Nick Cox,

1
Hai scritto , ma penso che si intende f ( x ) ,. f(y)f(x)
Nick Cox,

@NickCox Ho modificato questi punti.
IWS,

1
Cosa intendi per normalità? Se intendi normalità, allora non è corretto perché epsilon non deve essere normale perché abbia un'aspettativa condizionale di zero. Ma vuoi dire qualcos'altro? Inoltre, si presuppone che la beta sia costante per tutte le osservazioni. E cosa pensi sia sbagliato nel mio argomento secondo cui l'assunto di linearità non limita in alcun modo il modello, dato che epsilon è arbitrario e può essere una qualsiasi funzione di ? Nota che so cos'è l'eteroschedasticità e che la linearità significa lineare nei parametri, non nelle variabili. X
user56834

3
Non sono d'accordo con questo. L'ipotesi di aspettativa non è correlata alla normalità, ma è assolutamente necessaria per dare un senso all'assunto di linearità strutturale. Altrimenti, come notato dall'op, l'assunto di linearità non ha senso. Un'ipotesi di normalità è una bestia abbastanza diversa e spesso non è necessaria.
Matthew Drury,

-1

Ero un po 'confuso dalla risposta sopra, quindi ci darò un altro tentativo. Penso che la domanda non riguardi in realtà la regressione lineare "classica", ma lo stile di quella particolare fonte. Sulla parte di regressione classica:

Tuttavia, l'assunto di linearità di per sé non pone alcuna struttura sul nostro modello

Questo è assolutamente corretto. Come hai affermato, potrebbe anche uccidere la relazione lineare e aggiungere qualcosa di completamente indipendente da XϵX modo da non poter calcolare alcun modello.

Greene è sciatto? In realtà avrebbe dovuto scrivere: E(y|X)=Xβ

Non voglio rispondere alla prima domanda, ma vorrei riassumere i presupposti necessari per la normale regressione lineare:

Supponiamo che osservi (ti vengono dati) punti dati e yxiRd per i = 1 , . . . , n . Devi presumere che i dati ( x i , y i ) che hai osservato provengano da variabili casuali distribuite in modo indipendente e identico ( X i , Y i ) tali che ...yiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Esiste un fisso (indipendente da ) β R d tale che Y i = β X i + ϵ i per tutti i e le variabili casuali ϵ i sono tali cheiβRdYi=βXi+ϵiiϵi

  2. Anche sono iid e ϵ i è distribuito come N ( 0 , σ ) ( σ deve essere indipendente anche da i )ϵiϵiN(0,σ)σi

  3. Per eX=(X1,...,Xn) le variabili X , Y hanno una densità comune, cioè la variabile casuale singolo ( X , Y ) ha una densità f X , YY=(Y1,...,Yn)X,Y(X,Y)fX,Y

Ora puoi percorrere il solito percorso e calcolare

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

in modo che con la solita "dualità" tra apprendimento automatico (minimizzazione delle funzioni di errore) e teoria della probabilità (massimizzazione delle probabilità) si massimizza in β che in effetti ti dà la solita roba "RMSE".logfY|X(y|x)β

Ora, come affermato: se l'autore del libro che stai citando vuole fare questo punto (cosa che devi fare se vuoi essere in grado di calcolare la linea di regressione "migliore possibile" nell'impostazione di base), allora sì, deve fare questo presupposto sulla normalità del da qualche parte nel libro.ϵ

Adesso ci sono diverse possibilità:

  • Non scrive questo assunto nel libro. Quindi è un errore nel libro.

  • Lo scrive sotto forma di un'osservazione 'globale' come 'ogni volta che scrivo allora i ϵ sono normalmente distribuiti con zero medio se non diversamente specificato'. Quindi IMHO è un cattivo stile perché causa esattamente la confusione che provi in ​​questo momento. Ecco perché tendo a scrivere le assunzioni in una forma abbreviata in ogni teorema. Solo così ogni blocco può essere visualizzato in modo pulito a sé stante.+ϵϵ

    • Lo scrive da vicino alla parte che stai citando e non ci siamo accorti (anche una possibilità :-))

Tuttavia, anche in un rigoroso senso matematico, l'errore normale è qualcosa di canonico (la distribuzione con l'entropia più elevata [una volta che la varianza è stata risolta], quindi, producendo i modelli più forti) in modo che alcuni autori tendano a saltare questa ipotesi ma utilizzino comunque . Formalmente, hai assolutamente ragione: usano la matematica nel "modo sbagliato". Ogni volta che vogliono trovare l'equazione per la densità come detto sopra, allora devono conoscere ϵ abbastanza bene, altrimenti ne hai solo le proprietà che volano in giro in ogni equazione sensata che provi a scrivere.fY|Xϵ


3
non è necessario distribuire normalmente gli errori per utilizzare OLS.
user56834

(-1) Gli errori non devono essere normalmente distribuiti. In effetti, non devono neppure essere indipendenti o distribuiti in modo identico perché la stima dei parametri sia imparziale e affinché i test siano coerenti. Le tue specifiche molto più rigorose sono necessarie affinché OLS sia un test esatto.
AdamO

@AdamO: Ah? Quindi come calcoli la probabilità allora? O meglio ... se ti viene chiesto di implementare la regressione lineare: quale linea di regressione selezioni se l'errore non è normalmente distribuito e il singolo non è indipendente? ϵi
Fabian Werner il

1
@FabianWerner la mia scelta del modello dipende dalla domanda da porre. La regressione lineare stima una tendenza del primo ordine in un insieme di dati, una "regola empirica" ​​che collega una differenza in X a una differenza in Y. Se gli errori non sono normalmente distribuiti, il CLT Lindeberg Feller garantisce che gli IC e gli IP sono approssimativamente corretti anche in campioni molto piccoli. Se gli errori non sono indipendenti (e la struttura delle dipendenze è sconosciuta), le stime non sono distorte sebbene gli ES possano essere errati. La stima dell'errore sandwich attenua questo problema.
AdamO
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.