In che modo la distribuzione del termine di errore influisce sulla distribuzione della risposta?


14

Quindi, quando presumo che i termini di errore siano normalmente distribuiti in una regressione lineare, cosa significa per la variabile di risposta, y ?

Risposte:


7

Forse sono fuori ma penso che dovremmo chiederci di , che è come ho letto l'OP. Nel caso più semplice di regressione lineare se il tuo modello è y = X β + ϵ, l'unico componente stocastico nel tuo modello è il termine di errore. Come tale determina la distribuzione campionaria di y . Se ϵ N ( 0 , σ 2 I ) allora y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . Ciò che dice @Aniko è certamente vero per f ( y ) (marginalmente sopra X , β ), tuttavia. Così com'è la domanda è leggermente vaga.y|X,βN(Xβ,σ2I)f(y)X,β


Mi piacciono tutti i commenti! E sembrano tutti avere ragione. Ma stavo solo cercando la risposta più semplice :) Cosa succede quando supponi che il termine errer sia normalmente distribuito. Che ciò avvenga ora molto spesso nella realtà si evince dalle altre risposte! Molte grazie!
MarkDollar,

17

La risposta breve è che non puoi concludere nulla sulla distribuzione di , perché dipende dalla distribuzione delle x e dalla forza e dalla forma della relazione. Più formalmente, y avrà una "miscela di normali" distribuzione, che in pratica può essere praticamente qualsiasi cosa.yxy

Ecco due esempi estremi per illustrare questo:

  1. Supponiamo che ci siano solo due possibili valori , 0 an 1, e y = 10 x + N ( 0 , 1 ) . Quindi y avrà una distribuzione fortemente bimodale con dossi a 0 e 10.xy=10x+N(0,1)y
  2. Ora assume la stessa relazione, ma lascia che sia distribuito uniformemente sull'intervallo 0-1 con molti valori. Quindi y sarà distribuito quasi uniformemente nell'intervallo 0-10 (con alcune code semi-normali ai bordi).xy

In effetti, poiché ogni distribuzione può essere approssimata arbitrariamente bene con una miscela di normali, puoi davvero ottenere qualsiasi distribuzione per .y


8
+1 Per l'ultima affermazione: una volta ho commesso l'errore di pensare anche quello. Matematicamente hai ragione, ma in pratica è quasi impossibile approssimare un picco non differenziabile con le normali (come le distribuzioni a forma di J o di U): le normali sono semplicemente troppo piatte ai loro picchi per catturare la densità delle punte. Hai bisogno di troppi componenti. Le normali sono buone per approssimare le distribuzioni i cui pdf sono molto fluidi.
whuber

1
@whuber Concordato. Non suggerirei di usare un'approssimazione di miscela normale per qualsiasi distribuzione in pratica, stavo solo cercando di dare un contro-esempio estremo.
Aniko,

5

Inventiamo il termine di errore imponendo un modello fittizio su dati reali; la distribuzione del termine di errore non influisce sulla distribuzione della risposta.

Spesso assumiamo che l'errore sia distribuito normalmente e quindi cerchiamo di costruire il modello in modo tale che i nostri residui stimati siano normalmente distribuiti. Questo può essere difficile per alcune distribuzioni di . In questi casi, suppongo che si possa dire che la distribuzione della risposta influisce sul termine dell'errore.y


2
"Spesso cerchiamo di costruire il modello in modo tale che il nostro termine di errore è normalmente distribuito" - per essere precisi, credo che lei si riferisca alla residui . Queste sono stime dei termini di errore nella stessa maniera che X β è una stima di E ( y ) = X β . Vorremmo che i residui sembrassero normali perché è quello che abbiamo ipotizzato sui termini di errore per cominciare. "Inventiamo" il termine di errore specificando un modello, non adattandolo. yXβ^Xβ^E(y)=Xβ
JMS,

Sono d'accordo con la tua precisione, JMS. +1 e aggiusterò la mia risposta.
Thomas Levine,

2

Se scrivi la risposta come Dove m è il "modello" (la previsione per y ) ed e sono gli "errori", allora questo può essere riorganizzato per indicare y - m = e . Quindi assegnare una distribuzione per gli errori è la stessa cosa che indica i modi in cui il modello è incompleto. Per dirla in altro modo è che indica fino a che punto non si sa perché la risposta osservata fosse il valore che era in realtà e non ciò che il modello aveva previsto. Se sapessi che il tuo modello era perfetto, assegneresti una distribuzione di probabilità con tutta la sua massa a zero per gli errori. Assegnare una N (

y=m+e
myeym=e dice sostanzialmente che gli errori sono piccoli in unità di σ . L'idea è che le previsioni del modello tendono ad essere "sbagliate" da importi simili per osservazioni diverse, ed è "circa giusto" sulla scala di σ . Al contrario, un'assegnazione alternativa è C a u c h y ( 0 , γ ) che dice che la maggior parte degli errori sono piccoli, ma alcuni errori sono piuttosto grandi - il modello ha occasionalmente "errore" o "shocker" di prevedere la risposta.N(0,σ2)σσCauchy(0,γ)

In un certo senso, la distribuzione degli errori è più strettamente legata al modello che alla risposta. Ciò può essere visto dalla non identificabilità dell'equazione di cui sopra, poiché se ed e sono sconosciuti, l'aggiunta di un vettore arbitrario a m e la sottrazione da e porta allo stesso valore di y , y = m + e = ( m + b ) + ( e - b ) = m + e memeyy=m+e=(m+b)+(eb)=m+e. L'assegnazione di una distribuzione dell'errore e un'equazione del modello dice sostanzialmente quali vettori arbitrari sono più plausibili di altri.


"Questo sembra strano perché osserverai y una volta e una sola volta (y è il vettore / matrice / ecc. Completo delle risposte). Come può essere" distribuito "? A mio avviso, può essere distribuito solo in un insieme immaginario, nulla a che fare con la tua effettiva risposta osservata. Almeno, una tale presunzione della risposta "essere distribuito" non è verificabile "Sono confuso; stai dicendo che non possiamo testare vs H 1 : y f 1 ? H0:yf0H1:yf1
JMS,

no, scusa, non può essere quello che stai dicendo. Sono comunque confuso. Forse è leggermente impreciso, ma il modo in cui lo leggo ha campioni di y i da Y con fisso x i , il suo modello è Y = X β + ϵ , e si sta chiedendo cosa implichi la distribuzione presunta di ϵ sulla distribuzione di Y | β , X sotto il suo modello . Qui implicherebbe che è normale; possiamo provarlo con il nostro campionenyiYxiY=Xβ+ϵϵY|β,X
JMS,

@JMS - Penso che potrei cancellare quel primo paragrafo. Non penso che aggiunga nulla alla mia risposta (oltre alla confusione).
probabilityislogic

una delle mie cose preferite da aggiungere alle mie risposte :)
JMS,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.