Cosa devo verificare per la normalità: dati grezzi o residui?


27

Ho imparato che devo verificare la normalità non sui dati grezzi ma sui loro residui. Devo calcolare i residui e quindi eseguire il test W di Shapiro-Wilk?

I residui sono calcolati come: ?Ximean

Si prega di consultare questa domanda precedente per i miei dati e il design.


Lo stai facendo usando un software (e in tal caso quale software) o stai provando a fare i calcoli a mano?
Chris Simokat,

@Chris Simokat: sto provando a farlo con R e Statistica ...
Stan

3
Questa domanda può essere interessante: che cosa succede se i residui sono normalmente distribuiti ma non lo sono ; copre anche la questione se sia richiesta la normalità dei dati grezzi o dei residui.
gung - Ripristina Monica

1
Siamo spiacenti, non sono abbastanza esperto w / SAS per sapere come farlo farlo automaticamente in diverse situazioni. Tuttavia, quando si esegue una regressione, si dovrebbe essere in grado di salvare i residui in un set di dati di output e quindi è possibile creare un diagramma qq.
gung - Ripristina Monica

1
Buone informazioni di Karen Grace-Martin: questo e questo
stan

Risposte:


37

Perché è necessario verificare la normalità?

L'ipotesi standard nella regressione lineare è che i residui teorici siano indipendenti e normalmente distribuiti. I residui osservati sono una stima dei residui teorici, ma non sono indipendenti (ci sono trasformazioni sui residui che rimuovono parte della dipendenza, ma forniscono ancora solo un'approssimazione dei residui reali). Quindi un test sui residui osservati non garantisce che i residui teorici corrispondano.

Se i residui teorici non sono esattamente distribuiti normalmente, ma le dimensioni del campione sono sufficientemente grandi, il Teorema del limite centrale afferma che l'inferenza normale (test e intervalli di confidenza, ma non necessariamente intervalli di predizione) basata sull'assunzione della normalità sarà comunque approssimativamente corretta .

Si noti inoltre che i test di normalità sono test di esclusione, possono dirti che è improbabile che i dati provengano da una distribuzione normale. Ma se il test non è significativo, ciò non significa che i dati provengano da una distribuzione normale, potrebbe anche significare che non hai abbastanza potenza per vedere la differenza. Le dimensioni di campioni più grandi danno più potenza per rilevare la non normalità, ma campioni più grandi e il CLT significano che la non normalità è meno importante. Quindi per campioni di piccole dimensioni l'assunzione di normalità è importante ma i test non hanno senso, per campioni di grandi dimensioni i test possono essere più accurati, ma la questione dell'esatta normalità diventa insignificante.

Quindi, combinando tutto quanto sopra, ciò che è più importante di un test di normalità esatta è una comprensione della scienza alla base dei dati per vedere se la popolazione è abbastanza vicina alla normalità. Grafici come i qqplot possono essere una buona diagnostica, ma è necessaria anche la comprensione della scienza. Se si teme che vi sia troppa inclinazione o potenziale per i valori anomali, sono disponibili metodi non parametrici che non richiedono il presupposto della normalità.


6
Per rispondere alla domanda sulla prima riga: la normalità approssimativa è cruciale per applicare i test F in ANOVA e per creare limiti di confidenza intorno alle varianze. (+1) per le buone idee.
whuber

4
@whuber, sì, la normalità approssimativa è importante, ma i test verificano la normalità esatta, non approssimativa. E per campioni di grandi dimensioni approssimativi non devono essere molto vicini (dove è più probabile che i test vengano respinti). Una buona trama e conoscenza della scienza che ha prodotto i dati sono molto più utili di un test formale di normalità se si giustifica l'uso di test F (o altre inferenze di base normale).
Greg Snow,

Greg, OK, sto adattando la distribuzione e vedo che i miei dati provengono, diciamo, dalla distribuzione Beta o Gamma e cosa dovrei fare allora? ANOVA che assume la legge gaussiana?
stan

2
(+1) Questo è andato bene tranne alla fine. Non è necessario scegliere tra (a) regressione basata su un'ipotesi di normalità e (b) procedure non parametriche. Le trasformazioni prima della regressione e / o modelli lineari generalizzati sono solo due principali alternative. Riconosco che qui non stai cercando di riassumere tutto sulla modellistica statistica, ma l'ultima parte potrebbe essere leggermente amplificata.
Nick Cox,

Quindi alla fine, in regressione lineare, dovremmo testare la normalità dei dati grezzi o la normalità dei residui?
vasili111

7

Le Asuumptions gaussiane si riferiscono ai residui del modello. Non ci sono ipotesi necessarie sui dati originali. Ad esempio, la distribuzione delle vendite giornaliere di birra inserisci qui la descrizione dell'immagine. Dopo che un modello ragionevole ha catturato il giorno della settimana, gli effetti delle vacanze / eventi, i cambiamenti di livello / le tendenze temporali otteniamoinserisci qui la descrizione dell'immagine


grazie per la tua risposta. Vuoi dire che possiamo trasformare i nostri dati in distribuzione gaussiana ...?
stan

3
Stan, il ruolo della modellistica è quello di fare esattamente ciò in modo da poter fare l'inferenza e verificare l'ipotesi.
IrishStat,

6

Per prima cosa puoi "guardarlo negli occhi" usando un diagramma QQ per avere un senso generale qui è come generarne uno in R.

Secondo il manuale R puoi inserire i tuoi dati direttamente nella funzione shapiro.test ().

Se desideri calcolare tu stesso i residui, sì, ogni residuo viene calcolato in questo modo sulla serie di osservazioni. Puoi vedere di più qui .


Quindi, per quanto ho capito, i metodi per la Normalità controllano effettivamente la normalità dei residui dei nostri dati grezzi. Lo fanno automaticamente e non dovremmo calcolare i residui e sottoporli al test. E nel linguaggio quotidiano di solito passiamo a "i miei dati sono normalmente distribuiti" supponendo che i residui dei miei dati siano "normali". Per favore, correggimi.
stan

6
Non sono d'accordo con il tuo ultimo punto. Le persone che dicono che i miei dati sono normalmente distribuiti di solito non si riferiscono ai residui. Penso che la gente lo dica perché pensano che ogni procedura statistica richieda che tutti i dati siano normali.
Glen,

@Glen, francamente, penso (falsamente) finora lo stesso ... Non riesco a capire (questo è il mio problema) se ho gamma o beta o qualsiasi dato distribuito dovrei fare statistiche per loro allo stesso modo in cui sono normalmente distribuito nonostante la loro distribuzione vera / naturale? E il fatto della distribuzione è solo indicativo? Ho conosciuto solo distribuzione gaussiana prima di questo sito ...
stan
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.