Cosa significano i residui normali e cosa mi dice questo sui miei dati?


13

Domanda piuttosto semplice:

Cosa significa una normale distribuzione di residui da una regressione lineare? In termini di, come si riflette sui miei dati originali dalla regressione?

Sono totalmente perplesso, grazie ragazzi

Risposte:


5

La regressione lineare modella infatti i valori attesi condizionati del risultato. Ciò significa: se conoscessi i veri valori dei parametri di regressione (diciamo e β 1 ), dato un valore del tuo predittore X, compilandolo nell'equazione E [ Y | X ] = β 0 + β 1 X avrà si calcola il valore atteso per Y su tutte le (possibili) osservazioni che hanno questo dato valore per X .β0β1

E[Y|X]=β0+β1X
YX

Tuttavia: non ti aspetti che un singolo valore per quel dato valore X sia esattamente uguale alla media (condizionale). Non perché il tuo modello è sbagliato, ma perché ci sono alcuni effetti di cui non hai tenuto conto (ad es. Errore di misurazione). Quindi questi valori Y per un dato valore X fluttueranno attorno al valore medio (cioè geometricamente: attorno al punto della linea di regressione per quella X ).YXYXX

Il presupposto della normalità, ora, afferma che la differenza tra gli e la loro corrispondenza E [ Y | X ] segue una distribuzione normale con zero medio. Ciò significa che se si dispone di un valore X , è possibile campionare un valore Y calcolando prima β 0 + β 1 X (ovvero di nuovo E [ Y | X ] , il punto sulla linea di regressione), campionamento successivo ϵ da quella normale distribuzione e aggiunta: Y = E [ Y | XYE[Y|X]XYβ0+β1XE[Y|X]ε

Y'=E[Y|X]+ε

In breve: questa distribuzione normale rappresenta la variabilità dei risultati oltre alla variabilità spiegata dal modello.

Nota: nella maggior parte dei set di dati, non hai più valori per ogni X (a meno che il tuo set di predittori non sia categorico), ma questa normalità vale per l'intera popolazione, non solo per le osservazioni nel set di dati.YX

Nota: ho ragionato per la regressione lineare con un predittore, ma lo stesso vale per altri: basta sostituire "linea" con "iperpiano" in precedenza.


Questa è un'ottima spiegazione! Una domanda però: e essere distribuito normalmente significherebbe che si presume che i valori più probabili per e siano compresi tra -1 e +1 (dopo che sono stati standardizzati)? Quindi in pratica usi una distribuzione normale anziché, per esempio, una distribuzione poisson, perché la distribuzione normale modella meglio come si comportano questi valori nella vita reale?
user3813234

1

Potrebbe significare molto o potrebbe non significare nulla. Se si adatta un modello per ottenere il R-quadrato più alto, ciò potrebbe significare che sei stato sciocco. Se si adatta un modello per essere parsimonioso in quanto le variabili sono necessarie e necessarie e la cura di identificare i valori anomali, allora hai fatto un buon lavoro. Dai un'occhiata qui per ulteriori informazioni su questo http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175


0

La normalità dei residui è un'ipotesi di esecuzione di un modello lineare. Quindi, se i tuoi residui sono normali, significa che la tua assunzione è valida e che l'inferenza del modello (intervalli di confidenza, previsioni del modello) dovrebbe essere valida. È così semplice!


Il presupposto della normalità riguarda l'errore inosservabile (da qui la necessità di un presupposto), non i residui osservabili.
DL Dahly,

2
Sì, ma usi i residui per testare la tua ipotesi sull'errore non osservabile.
wcampbell

- per 
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.