Presupposti sulla distribuzione residua della regressione


12

Perché è necessario porre l'assunto distributivo sugli errori, ad es

ϵ iN ( 0 , σ 2 )yi=Xβ+ϵi , con .ϵiN(0,σ2)

Perché non scrivere

y i ~ N ( X β , σ 2 )yi=Xβ+ϵi , con ,yiN(Xβ^,σ2)

dove in entrambi i casi . Ho visto sottolineato che le ipotesi distributive sono poste sugli errori, non sui dati, ma senza spiegazioni. ϵi=yiy^

Non capisco davvero la differenza tra queste due formulazioni. In alcuni punti in cui vedo le ipotesi distributive posizionate sui dati (Bayesian acceso. Sembra principalmente), ma la maggior parte delle volte le ipotesi sono poste sugli errori.

Quando si modella, perché / si dovrebbe scegliere di iniziare con ipotesi sull'uno o sull'altro?


Innanzitutto, non è "necessario", dipende da cosa intendi fare. Ci sono alcune buone risposte, ma penso che il punto cruciale sia l'assunto sottostante della causalità, nel senso che le X "causano" la y, e se la guardi in quel modo vedi che la distribuzione di y è "causata" da la distribuzione di rhs, vale a dire le X e gli errori (se presenti). Puoi fare molti econometrici con ipotesi distributive molto limitate e, in particolare, senza normalità. Grazie Dio.
Patrick,

3
non èXβ, e la media della popolazioney's non è la stessa della stima campione di essa. Vale a dire che la seconda cosa che non è in realtà la stessa cosa come il primo, ma se non viene sostituito con la sua aspettativa (E( Y )=E(Y)=Xβ), i due sarebbero equivalenti. y^XβyE(y^)=E(y)=Xβ
Glen_b

Che cosa è y ? E se y mi varia con i , perché non fa X β varia? Per favore, decidi quale notazione vuoi usare, il vettore o la matrice. Ora, se si assume che y = X β vostra notazione è più bizzare: y i ~ N ( x ' i ( Σ x j x ' j ) - 1 Σ x j y j , σ 2 )y^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2), cioè tu definisci la distribuzione di in termini di se stesso e di tutte le altre osservazioni y j ! yiyj
mpiktas,

1
Ho sottovalutato la domanda perché penso che la notazione sia confusa e questo ha già portato a diverse risposte sottilmente contrastanti.
mpiktas,

Risposte:


9

In un'impostazione di regressione lineare è comune fare analisi e derivare i risultati in base a , ovvero in base ai "dati". Quindi, ciò di cui hai bisogno è che y X sia normale, cioè che tu abbia bisogno di ϵ per essere normale. Come dimostra l'esempio di Peter Flom, si può avere la normalità di ϵ senza avere la normalità di y , e quindi, poiché ciò di cui si ha bisogno è la normalità di ϵ , questa è l'assunzione ragionevole.XyXϵϵyϵ


9

Vorrei scrivere la seconda definizione come

yiN(Xiβ,σ2)

o (come suggerisce Karl Oskar +1)

yi|XiN(Xiβ,σ2)

cioè l'assunto di modellizzazione è che la variabile di risposta è normalmente distribuita attorno alla linea di regressione (che è una stima della media condizionale), con varianza costante . Questa non è la stessa cosa suggerendo che y i siano distribuiti normalmente, perché la media della distribuzione dipende X i .σ2yiXi

Penso di aver visto formulazioni simili a questa nella letteratura sull'apprendimento automatico; per quanto posso vedere che è equivalente alla prima definizione, tutto ciò che ho fatto è di rexpress seconda formulazione un po 'diverso per eliminare l' 's e la y ' s.ϵiy^


3

La differenza è più semplice da illustrare con un esempio. Eccone uno semplice:

Supponiamo che Y sia bimodale, con la modalità spiegata da una variabile indipendente. Ad esempio, supponiamo che Y sia altezza e che il tuo campione (per qualsiasi motivo) sia composto da fantini e giocatori di basket. ad esR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

la prima densità è molto non normale. Ma i residui del modello sono estremamente vicini alla normalità.

Sul motivo per cui le restrizioni sono poste in questo modo - Lascerò che qualcun altro risponda a quello.


1
Grazie! Capisco cosa intendi con una distribuzione bimodale. Domanda di follow-up: cosa succede se le variazioni dei dati sono diverse, (eteroscedasticità?) Dire ... tutti i fantini sono piccoli, ma le altezze dei giocatori di basket variano molto. Forse per loro, alto <- rnorm (100,78,10). In che modo una situazione come questa cambia le tue assunzioni su o ϵ i ? yiϵi
bill_e,

In tal caso, l'eteroscedasticità sarebbe un problema e dovresti usare un'altra forma di regressione, o forse una trasformazione, oppure potresti aggiungere un'altra variabile (in questo esempio sciocco, la posizione giocata nel basket potrebbe farlo).
Peter Flom - Ripristina Monica

Non sono sicuro che la formulazione abbia lo scopo di suggerire che gli y sono normalmente distribuiti, solo che hanno una distribuzione condizionale normale.
Dikran Marsupial,

2


yiN(y^i,σε2)
y^xi

y^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]

Quindi la domanda diventa, c'è un motivo per preferire presentare l'idea usando la prima formulazione?

Penso che la risposta sia per due motivi:

  1. YXY|Xε
  2. Y|XY|X

Credo che queste confusioni siano più probabili utilizzando la seconda formulazione rispetto alla prima.


1
y^Xβy^ixiβ^iy^ixiβ^Y

@Glen_b se fosse l'esempio significa che sarebbe anziché . Inizialmente ho trovato confusa anche la notazione, ma il fatto che deriva dalle affermazioni che e . Perché entrambe queste cose siano vere, può essere solo . y y =Xβyi=Xβ+εiεi=yi - y y Xβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Dikran Marsupial,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.