Quindi, quando presumo che i termini di errore siano normalmente distribuiti in una regressione lineare, cosa significa per la variabile di risposta, ?
Quindi, quando presumo che i termini di errore siano normalmente distribuiti in una regressione lineare, cosa significa per la variabile di risposta, ?
Risposte:
Forse sono fuori ma penso che dovremmo chiederci di , che è come ho letto l'OP. Nel caso più semplice di regressione lineare se il tuo modello è y = X β + ϵ, l'unico componente stocastico nel tuo modello è il termine di errore. Come tale determina la distribuzione campionaria di y . Se ϵ ∼ N ( 0 , σ 2 I ) allora y | X , β ∼ N ( X β , . Ciò che dice @Aniko è certamente vero per f ( y ) (marginalmente sopra X , β ), tuttavia. Così com'è la domanda è leggermente vaga.
La risposta breve è che non puoi concludere nulla sulla distribuzione di , perché dipende dalla distribuzione delle x e dalla forza e dalla forma della relazione. Più formalmente, y avrà una "miscela di normali" distribuzione, che in pratica può essere praticamente qualsiasi cosa.
Ecco due esempi estremi per illustrare questo:
In effetti, poiché ogni distribuzione può essere approssimata arbitrariamente bene con una miscela di normali, puoi davvero ottenere qualsiasi distribuzione per .
Inventiamo il termine di errore imponendo un modello fittizio su dati reali; la distribuzione del termine di errore non influisce sulla distribuzione della risposta.
Spesso assumiamo che l'errore sia distribuito normalmente e quindi cerchiamo di costruire il modello in modo tale che i nostri residui stimati siano normalmente distribuiti. Questo può essere difficile per alcune distribuzioni di . In questi casi, suppongo che si possa dire che la distribuzione della risposta influisce sul termine dell'errore.
Se scrivi la risposta come Dove m è il "modello" (la previsione per y ) ed e sono gli "errori", allora questo può essere riorganizzato per indicare y - m = e . Quindi assegnare una distribuzione per gli errori è la stessa cosa che indica i modi in cui il modello è incompleto. Per dirla in altro modo è che indica fino a che punto non si sa perché la risposta osservata fosse il valore che era in realtà e non ciò che il modello aveva previsto. Se sapessi che il tuo modello era perfetto, assegneresti una distribuzione di probabilità con tutta la sua massa a zero per gli errori. Assegnare una N (
In un certo senso, la distribuzione degli errori è più strettamente legata al modello che alla risposta. Ciò può essere visto dalla non identificabilità dell'equazione di cui sopra, poiché se ed e sono sconosciuti, l'aggiunta di un vettore arbitrario a m e la sottrazione da e porta allo stesso valore di y , y = m + e = ( m + b ) + ( e - b ) = m ′ + e ′. L'assegnazione di una distribuzione dell'errore e un'equazione del modello dice sostanzialmente quali vettori arbitrari sono più plausibili di altri.