Risposte:
La regressione lineare modella infatti i valori attesi condizionati del risultato. Ciò significa: se conoscessi i veri valori dei parametri di regressione (diciamo e β 1 ), dato un valore del tuo predittore X, compilandolo nell'equazione E [ Y | X ] = β 0 + β 1 X avrà si calcola il valore atteso per Y su tutte le (possibili) osservazioni che hanno questo dato valore per X .
Tuttavia: non ti aspetti che un singolo valore per quel dato valore X sia esattamente uguale alla media (condizionale). Non perché il tuo modello è sbagliato, ma perché ci sono alcuni effetti di cui non hai tenuto conto (ad es. Errore di misurazione). Quindi questi valori Y per un dato valore X fluttueranno attorno al valore medio (cioè geometricamente: attorno al punto della linea di regressione per quella X ).
Il presupposto della normalità, ora, afferma che la differenza tra gli e la loro corrispondenza E [ Y | X ] segue una distribuzione normale con zero medio. Ciò significa che se si dispone di un valore X , è possibile campionare un valore Y calcolando prima β 0 + β 1 X (ovvero di nuovo E [ Y | X ] , il punto sulla linea di regressione), campionamento successivo ϵ da quella normale distribuzione e aggiunta: Y ′ = E [ Y | X
In breve: questa distribuzione normale rappresenta la variabilità dei risultati oltre alla variabilità spiegata dal modello.
Nota: nella maggior parte dei set di dati, non hai più valori per ogni X (a meno che il tuo set di predittori non sia categorico), ma questa normalità vale per l'intera popolazione, non solo per le osservazioni nel set di dati.
Nota: ho ragionato per la regressione lineare con un predittore, ma lo stesso vale per altri: basta sostituire "linea" con "iperpiano" in precedenza.
Potrebbe significare molto o potrebbe non significare nulla. Se si adatta un modello per ottenere il R-quadrato più alto, ciò potrebbe significare che sei stato sciocco. Se si adatta un modello per essere parsimonioso in quanto le variabili sono necessarie e necessarie e la cura di identificare i valori anomali, allora hai fatto un buon lavoro. Dai un'occhiata qui per ulteriori informazioni su questo http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
La normalità dei residui è un'ipotesi di esecuzione di un modello lineare. Quindi, se i tuoi residui sono normali, significa che la tua assunzione è valida e che l'inferenza del modello (intervalli di confidenza, previsioni del modello) dovrebbe essere valida. È così semplice!