Perché la normalità dei residui è "a malapena importante" ai fini della stima della linea di regressione?


21

Gelman and Hill (2006) scrivono a p46 che:

L'ipotesi di regressione che è generalmente meno importante è che gli errori siano normalmente distribuiti. In effetti, allo scopo di stimare la linea di regressione (rispetto alla previsione dei singoli punti dati), l'assunzione della normalità è a malapena importante. Pertanto, contrariamente a molti libri di testo di regressione, non raccomandiamo la diagnostica della normalità dei residui di regressione.

Gelman e Hill non sembrano spiegare ulteriormente questo punto.

Gelman e Hill sono corretti? In tal caso, quindi:

  1. Perché "a malapena importante"? Perché non è né importante né completamente irrilevante?

  2. Perché la normalità dei residui è importante quando si prevedono singoli punti dati?

Gelman, A., & Hill, J. (2006). Analisi dei dati mediante regressione e modelli multilivello / gerarchici. Cambridge University Press

Risposte:


21

Per la stima la normalità non è esattamente un presupposto, ma una considerazione importante sarebbe l'efficienza; in molti casi un buon stimatore lineare andrà bene e in quel caso (di Gauss-Markov) la stima LS sarebbe la migliore di quelle cose che sarebbero andate bene. (Se le tue code sono piuttosto pesanti o molto leggere, potrebbe avere senso considerare qualcos'altro)

Nel caso di test e IC, mentre si presume la normalità, di solito non è poi così critico (di nuovo, purché le code non siano davvero pesanti o leggere, o forse una di ciascuna), in questo, almeno in non molto- piccoli campioni che i test e gli IC tipici tendono ad avere vicino alle loro proprietà nominali (non troppo lontani dal livello di significatività o copertura dichiarati) e si comportano bene (potenza ragionevole per situazioni tipiche o EC non molto più ampi delle alternative) - mentre ci si sposta più lontano dal normale caso, la potenza può essere più un problema, e in quel caso campioni di grandi dimensioni generalmente non miglioreranno l'efficienza relativa, quindi dove le dimensioni dell'effetto sono tali che la potenza si sta meditando in un test con una potenza relativamente buona, potrebbe essere molto scarsa per i test che assumono la normalità.

Questa tendenza ad avere vicino alle proprietà nominali per IC e livelli di significatività nei test è dovuta a diversi fattori che operano insieme (uno dei quali è la tendenza delle combinazioni lineari di variabili ad avere una distribuzione vicina alla normale purché siano coinvolti molti valori e nessuno di essi contribuisce in larga parte alla varianza totale).

Tuttavia, nel caso di un intervallo di previsione basato sul presupposto normale, la normalità è relativamente più critica, poiché la larghezza dell'intervallo dipende fortemente dalla distribuzione di un singolo valore. Tuttavia, anche lì, per la dimensione dell'intervallo più comune (intervallo del 95%), il fatto che molte distribuzioni unimodali abbiano un valore molto vicino al 95% della loro distribuzione entro circa 2 sds dalla media tende a determinare prestazioni ragionevoli di un normale intervallo di previsione anche quando la distribuzione non è normale. [Questo non si ripercuote così bene su intervalli molto più stretti o più ampi, ad esempio un intervallo del 50% o un intervallo del 99,9% -].


"La tendenza delle combinazioni lineari di variabili ad avere una distribuzione vicina alla normale." - Suppongo che questo non sia collegato al Teorema del limite centrale. È? In caso contrario, che tipo di "teorema" è questa affermazione?
Heisenberg,

1
@Heisenberg Ha una connessione con particolari versioni del CLT, sì. (vedi le versioni di Lyapunov e Lindeberg qui ). Se si desidera applicare un teorema per campioni finiti, stiamo esaminando una versione del teorema di Berry-Esseen. Ma l'affermazione era intesa più un'osservazione (da qui l'uso della parola "tendenza") che un teorema.
Glen_b

7

2: quando si prevedono singoli punti dati, l'intervallo di confidenza attorno a tale previsione presuppone che i residui siano normalmente distribuiti.

Questo non è molto diverso dall'assunto generale sugli intervalli di confidenza - per essere validi, dobbiamo capire la distribuzione e l'assunto più comune è la normalità. Ad esempio, un intervallo di confidenza standard attorno a una media funziona perché la distribuzione del campione si avvicina alla normalità, quindi possiamo usare la distribuzione az o t

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.