'Y deve essere normalmente distribuito'
dovere?
Nei casi in cui dici che è un linguaggio sciatto (abbreviando "l'errore in Y deve essere normalmente distribuito" ), ma in realtà non dicono (fortemente) che la risposta deve essere normalmente distribuita, o almeno non sembra che le loro parole fossero intese in quel modo.
Il materiale del corso Penn State
YYiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
YYi
YiY
La pagina web di statssolutions
è una descrizione estremamente breve, semplificata e stilizzata. Non sono sicuro che dovresti prenderlo sul serio. Ad esempio, ne parla
.. richiede che tutte le variabili siano normali multivariate ...
quindi questa non è solo la variabile di risposta,
e anche il descrittore "multivariato" è vago. Non sono sicuro di come interpretarlo.
L'articolo di Wikipedia
ha un contesto aggiuntivo spiegato tra parentesi:
La regressione lineare ordinaria prevede il valore atteso di una determinata quantità sconosciuta (la variabile di risposta, una variabile casuale) come una combinazione lineare di un insieme di valori osservati (predittori) . Ciò implica che un cambiamento costante in un predittore porta a un cambiamento costante nella variabile di risposta (cioè un modello di risposta lineare). Ciò è appropriato quando la variabile di risposta ha una distribuzione normale (intuitivamente, quando una variabile di risposta può variare sostanzialmente indefinitamente in entrambe le direzioni senza "valore zero" fisso, o più in generale per qualsiasi quantità che varia solo di una quantità relativamente piccola, ad esempio umana altezza).
y+ϵϵ∼N(0,σ)
La riga particolare è stata aggiunta l' 8 marzo 2012 , ma si noti che la prima riga dell'articolo di Wikipedia legge ancora "una generalizzazione flessibile della regressione lineare ordinaria che consente variabili di risposta che hanno modelli di distribuzione dell'errore diversi da una distribuzione normale" e non è così tanto (non ovunque) sbagliato.
Conclusione
Quindi, sulla base di questi tre esempi (che in effetti potrebbero generare idee sbagliate, o almeno potrebbero essere fraintesi) non direi che "questa idea sbagliata si è diffusa" . O almeno non mi sembra che l'intenzione di questi tre esempi sia quella di sostenere che Y deve essere normalmente distribuito (anche se ricordo che questo problema è sorto prima qui su stackexchange, lo scambio tra errori normalmente distribuiti e variabili di risposta normalmente distribuite è facile da realizzare).
Quindi, il presupposto che "Y debba essere normalmente distribuito" non mi sembra una credenza / idea sbagliata diffusa (come in qualcosa che si diffonde come un'aringa rossa), ma più come un errore comune (che non viene diffuso ma fatto in modo indipendente ogni volta ).
Commento aggiuntivo
Un esempio dell'errore su questo sito Web è nella seguente domanda
Cosa succede se i residui sono normalmente distribuiti, ma y non lo è?
Considererei questo come una domanda per principianti. Non è presente nei materiali come il materiale del corso Penn State, il sito Web di Wikipedia, e recentemente ha notato nei commenti il libro "Estendere la regressione lineare con R".
Gli autori di tali lavori comprendono correttamente il materiale. In effetti, usano frasi come "Y deve essere normalmente distribuita", ma in base al contesto e alle formule utilizzate puoi vedere che significano tutti "Y, subordinato a X, deve essere normalmente distribuito" e non "Y marginale deve essere distribuito normalmente ". Non intendono male l'idea stessa, e almeno l'idea non è diffusa tra gli statistici e le persone che scrivono libri e altro materiale didattico. Ma interpretare male le loro parole ambigue può effettivamente causare l'idea sbagliata.