Normalità della variabile dipendente = normalità dei residui?


34

Questo problema sembra sollevare continuamente la sua brutta testa e sto cercando di decapitarlo per la mia comprensione delle statistiche (e della sanità mentale!).

Le assunzioni dei modelli lineari generali (t-test, ANOVA, regressione ecc.) Includono l '"assunzione della normalità", ma ho scoperto che raramente viene descritto chiaramente.

Mi capita spesso di imbattermi in libri di testo / manuali / statistiche, ecc. Affermando semplicemente che l '"assunzione della normalità" si applica a ciascun gruppo (ovvero, variabili X categoriche), e dovremmo esaminare le deviazioni dalla normalità per ciascun gruppo .

Domande :

  1. il presupposto si riferisce ai valori di Y o ai residui di Y?

  2. per un particolare gruppo , è possibile avere una distribuzione fortemente non normale di valori Y (ad esempio, obliqua) MA una distribuzione approssimativa (o almeno più normale) dei residui di Y?

    Altre fonti descrivono che il presupposto si riferisce ai residui del modello (nei casi in cui vi sono gruppi, ad esempio t-test / ANOVA), e dovremmo esaminare le deviazioni della normalità di questi residui (cioè, solo un diagramma QQ / test per correre).

  3. la normalità dei residui per il modello implica la normalità dei residui per i gruppi ? In altre parole, dovremmo semplicemente esaminare i residui del modello (contrariamente alle istruzioni in molti testi)?

    Per metterlo in un contesto, considera questo esempio ipotetico:

    • Voglio confrontare l'altezza dell'albero (Y) tra due popolazioni (X).
    • In una popolazione la distribuzione di Y è fortemente distorta (vale a dire, la maggior parte degli alberi è corta, pochissima), mentre l'altra è praticamente normale
    • L'altezza è complessivamente più elevata nella popolazione normalmente distribuita (suggerendo che potrebbe esserci una differenza "reale").
    • La trasformazione dei dati non migliora sostanzialmente la distribuzione della prima popolazione.
  4. In primo luogo, è valido confrontare i gruppi dati le distribuzioni di altezza radicalmente diverse?

  5. Come posso affrontare il "presupposto della normalità" qui? L'altezza di richiamo in una popolazione non è normalmente distribuita. Esamino i residui per entrambe le popolazioni separatamente O i residui per il modello (test t)?


Si prega di fare riferimento alle domande in base al numero nelle risposte, l'esperienza mi ha mostrato che le persone si perdono o si allontanano facilmente (specialmente io!). Tieni presente che non sono uno statistico; sebbene io abbia una comprensione ragionevolmente concettuale (cioè non tecnica!) delle statistiche.

PS, ho cercato negli archivi e letto i seguenti thread che non hanno cementato la mia comprensione:


2
" Domanda 1) il presupposto si riferisce ai valori di Y o ai residui di Y? " - A rigor di termini, nessuno dei due , sebbene la seconda sia la cosa che controlli . Ciò che si presume normale è o gli errori non osservabili , o equivalentemente la distribuzione condizionale di Y in ciascuna combinazione di predittori. La distribuzione incondizionata di Y non è considerata normale.
Glen_b -Restate Monica

1
+1 Grazie per aver fatto lo sforzo di organizzare e consolidare alcuni dei (molti) thread in cui si presenta questo problema; è sicuramente una FAQ.
whuber

Vorrei solo ringraziarvi per questa domanda. Sia per l'argomento che sta affrontando sia per quanto ben organizzato e collegato. Sono consapevole che l'hai fatto molto tempo fa, ma è solo un'ottima domanda!
hmmmm,

Risposte:


14

Un punto che può aiutarti a capire:

Se è normalmente distribuito e e sono costanti, allora è anche distribuito normalmente (ma con un diverso possibilmente media e varianza).a b y = x - axaby=xab

Poiché i residui sono solo i valori y meno la media stimata (anche i residui standardizzati sono divisi per una stima dell'errore standard), se i valori y sono normalmente distribuiti, anche i residui lo sono e viceversa. Quindi quando parliamo di teoria o ipotesi, non importa di cosa parliamo perché l'una implica l'altra.

Quindi per le domande questo porta a:

  1. sì, entrambi
  2. No, (tuttavia i singoli valori y provengono da normali con mezzi diversi che possono farli sembrare non normali se raggruppati insieme)
  3. Normalità dei residui significa normalità dei gruppi, tuttavia può essere utile esaminare i residui o i valori y per gruppo in alcuni casi (il raggruppamento può oscurare la non normalità che è ovvia in un gruppo) o guardare tutti insieme in altri casi (osservazioni insufficienti per gruppo per determinare, ma tutti insieme si può dire).
  4. Questo dipende da cosa intendi per confronto, da quanto è grande la dimensione del tuo campione e dai tuoi sentimenti su "Approssimativo". L'assunzione della normalità è richiesta solo per i test / intervalli sui risultati, è possibile adattare il modello e descrivere le stime puntuali se esiste o meno la normalità. Il teorema del limite centrale afferma che se la dimensione del campione è abbastanza grande, le stime saranno approssimativamente normali anche se i residui non lo sono.
  5. Dipende da quale domanda stai cercando di rispondere e da quanto "approssimativo" sei soddisfatto.

Un altro punto che è importante capire (ma è spesso confuso nell'apprendimento) è che qui ci sono 2 tipi di residui: i residui teorici che sono le differenze tra i valori osservati e il vero modello teorico e i residui osservati che sono le differenze tra i valori osservati e le stime dal modello attualmente montato. Partiamo dal presupposto che i residui teorici sono normali. I residui osservati non sono i, i o distribuiti normali (ma hanno una media di 0). Tuttavia, ai fini pratici i residui osservati stimano i residui teorici e sono quindi ancora utili per la diagnostica.


Per ulteriori informazioni su errori e residui, penso che sia utile leggere questo articolo su wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster,

1
Ciao, ti prego di approfondire, "i residui sono solo i valori y meno la media stimata"? Pensavo che i residui fossero ? È la stessa cosa in qualche modo? Mi scuso se mi manca qualcosa che dovrebbe essere ovvio. yy^
Austin,

@Jake, la tua equazione è solo il modo più compatto di affermare ciò che ho detto. è i "valori y" e è "la media stimata" dei valori y in quell'insieme di predittori (e è "meno"). y -yy^
Greg Snow,

Su Q1 (che è un po 'riconosciuto nella risposta a Q2): Chiaramente sono i residui e non gli Y, affatto. Quando le covariate differiscono tra le osservazioni, si potrebbe facilmente avere una distribuzione marginale bimodale anche se i residui sono normali. Quindi, non si può semplicemente guardare la Y, solo i residui.
Björn,

@Bjorn, questo è un buon chiarimento. Le variabili y sono normali, condizionate da x, quindi i valori y grezzi sono una miscela di normali e un diagramma dei soli valori y potrebbe non mostrare la normalità anche se si adattano al presupposto di essere normali rispetto a x. Per la diagnostica generalmente utilizziamo i residui (perché la parte condizionale è stata per lo più rimossa). L'assunzione della normalità (condizionale) si riferisce sia ai residui teorici che ai valori y.
Greg Snow,

7

Le brevi risposte:

  1. residui
  2. no
  3. dipende, entrambi gli approcci presentano vantaggi e svantaggi
  4. perchè no? Potrebbe essere più sensato confrontare le mediane invece che i mezzi.
  5. da quello che ci hai detto, il presupposto della normalità è probabilmente violato

La risposta più lunga:

Il presupposto è che la variabile dipendente (y) sia normalmente distribuita ma con mezzi diversi per gruppi diversi. Di conseguenza, se si traccia solo la distribuzione di y, può facilmente apparire molto diversa dalla normale curva a forma di campana. I residui rappresentano la distribuzione di y con quelle differenze nei mezzi "filtrati".

In alternativa, puoi guardare la distribuzione di y in ciascun gruppo separatamente. Ciò filtra anche le differenze di mezzi tra i gruppi. Il vantaggio è che in questo modo puoi anche ottenere informazioni sulla distribuzione in ciascun gruppo, il che nel tuo caso sembra rilevante. Lo svantaggio è che ogni gruppo contiene meno osservazioni rispetto al set di dati combinato che otterresti guardando i residui. Inoltre, non saresti in grado di confrontare significativamente i gruppi se disponi di molti gruppi, ad esempio perché hai inserito molte variabili predittive nel tuo modello o una variabile (quasi) continua nel tuo modello. Quindi, se il tuo modello è costituito da una sola variabile di predittore categoriale e il numero di osservazioni in ciascun gruppo è abbastanza grande, allora può essere significativo ispezionare la distribuzione di y in ciascun gruppo separatamente.


7
In senso stretto, i residui sono solo stime di errori o disturbi sconosciuti e inconoscibili, quindi anche se la normalità è corretta in linea di principio, non è possibile ottenere esattamente residui normali nella pratica. Ancora più importante, la normalità degli errori è il presupposto meno importante in questi metodi!
Nick Cox,

@NickCox (+1) concordato su entrambi i punti
Maarten Buis

1

Per definizione di ipotesi, la variabile casuale è una combinazione lineare di e dei residui, essendo tutte le altre cose costanti. Se non è stocastico e i termini di errore sono normali, allora è normale e lo sono anche i residui.X X YYX
XY

Domanda 1)
I presupposti si riferiscono a due cose. Innanzitutto, per la normalità dei termini di errore. In secondo luogo, la linearità e completezza del modello. Entrambe le cose sono necessarie per deduzione. Ma se sono soddisfatte queste ipotesi, allora entrambi i residui ed sono normalmente distribuiti e la soluzione può essere calcolato facilmente, in quanto dipendono i termini di errore , data . Ad esempio, la distribuzione di in un modello OLS normale potrebbe essere . Se il tuo gruppo non è normale, questo potenzialmente inclinerà incondizionatoY ϵ X Y Y | X - N ( X β , σ 2 ) X Y Y | XeYϵX
YY|XN(Xβ,σ2)
XY. In effetti è molto probabile che ciò accada. Tuttavia, l'importante è che la distribuzione di sia normale.Y|X

Domande 2)
Sì, è possibile avere valori inclinate per a causa della . Tuttavia, i residui saranno normali se tutte le ipotesi sono soddisfatte (in quale altro modo è possibile eseguire intervalli e test di ipotesi ?!). Per questa parte della tua domanda c'è una risposta abbastanza definitiva in questo thread: cosa succede se i residui sono normalmente distribuiti, ma non lo è?XYX

Domanda 3)
L'importante per l'uso di modelli lineari che richiedono la normalità è che i residui che non sono normali, nel loro insieme o meno, sono un indicatore importante del fatto che il modello potrebbe non adattarsi ai dati.
Se stai facendo ANOVA, ovviamente i tuoi residui complessivi non devono essere normali (o piuttosto omoscedastici), non avrebbe senso. In una regressione, però, è meglio avere un modello con i residui normali generali. In caso contrario, gli stimatori e i test degli intervalli saranno errati. Questo può essere il caso di alcune autocorrelazioni o di una distorsione variabile variabile. Se il modello è corretto al 100% (includendo forse rotture strutturali e ponderazione, se necessario), non è inverosimile assumere normali condizioni di errore, anche centrate attorno a 0. Praticamente la domanda diventa spesso: possiamo cavarcela con queste cose se il campione è abbastanza grande? Non esiste una risposta definitiva, ma per un approccio corretto al 100% sì, tutti i residui dovrebbero essere normali.

Domanda 4 e 5)
Dipende da cosa intendi per confronto. Data l'assunzione di normali termini di errore, è possibile eseguire il test in base all'assunzione di due diverse distribuzioni. Puoi anche utilizzare la stima GLS per una regressione per tenere conto dei diversi parametri di distribuzione - SE hai il modello giusto ... e immagino che i tuoi gruppi stessi funzionino come indicatore / variabile binaria?
Quindi sarebbe probabilmente molto difficile pensare che la distribuzione dei residui sarà normale - la conseguenza è che mentre puoi fare cose con i tuoi dati, non saranno sulla base di OLS regolari.
Ma dipende da cosa vuoi fare con i dati.

L'importante è però: non riesci ancora ad aggirare i presupposti del modello lineare che stai utilizzando. Puoi migliorare i problemi assumendo grandi proprietà asintotiche del campione, ma se immagino poiché stai chiedendo una risposta definitiva che non è ciò che hai in mente.
Nel caso del tuo esempio, se si dispone di dati che potrebbero spiegare lo skewedness si potranno ritrovare la normalità nei vostri residui e in . Ma se stai usando solo indicatori binari per una regressione, stai essenzialmente usando il modello sbagliato. Puoi davvero fare dei test con questo, ma quando si tratta di regressione i risultati del tuo intervallo non saranno validi, essenzialmente ti mancano i dati per un modello completo.Y|X

Penso che un buon approccio sarebbe quello di esaminare l'algebra del normale OLS con un focus sulle distribuzioni risultanti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.