Perché è necessario verificare la normalità?
L'ipotesi standard nella regressione lineare è che i residui teorici siano indipendenti e normalmente distribuiti. I residui osservati sono una stima dei residui teorici, ma non sono indipendenti (ci sono trasformazioni sui residui che rimuovono parte della dipendenza, ma forniscono ancora solo un'approssimazione dei residui reali). Quindi un test sui residui osservati non garantisce che i residui teorici corrispondano.
Se i residui teorici non sono esattamente distribuiti normalmente, ma le dimensioni del campione sono sufficientemente grandi, il Teorema del limite centrale afferma che l'inferenza normale (test e intervalli di confidenza, ma non necessariamente intervalli di predizione) basata sull'assunzione della normalità sarà comunque approssimativamente corretta .
Si noti inoltre che i test di normalità sono test di esclusione, possono dirti che è improbabile che i dati provengano da una distribuzione normale. Ma se il test non è significativo, ciò non significa che i dati provengano da una distribuzione normale, potrebbe anche significare che non hai abbastanza potenza per vedere la differenza. Le dimensioni di campioni più grandi danno più potenza per rilevare la non normalità, ma campioni più grandi e il CLT significano che la non normalità è meno importante. Quindi per campioni di piccole dimensioni l'assunzione di normalità è importante ma i test non hanno senso, per campioni di grandi dimensioni i test possono essere più accurati, ma la questione dell'esatta normalità diventa insignificante.
Quindi, combinando tutto quanto sopra, ciò che è più importante di un test di normalità esatta è una comprensione della scienza alla base dei dati per vedere se la popolazione è abbastanza vicina alla normalità. Grafici come i qqplot possono essere una buona diagnostica, ma è necessaria anche la comprensione della scienza. Se si teme che vi sia troppa inclinazione o potenziale per i valori anomali, sono disponibili metodi non parametrici che non richiedono il presupposto della normalità.