Questo problema sembra sollevare continuamente la sua brutta testa e sto cercando di decapitarlo per la mia comprensione delle statistiche (e della sanità mentale!).
Le assunzioni dei modelli lineari generali (t-test, ANOVA, regressione ecc.) Includono l '"assunzione della normalità", ma ho scoperto che raramente viene descritto chiaramente.
Mi capita spesso di imbattermi in libri di testo / manuali / statistiche, ecc. Affermando semplicemente che l '"assunzione della normalità" si applica a ciascun gruppo (ovvero, variabili X categoriche), e dovremmo esaminare le deviazioni dalla normalità per ciascun gruppo .
Domande :
il presupposto si riferisce ai valori di Y o ai residui di Y?
per un particolare gruppo , è possibile avere una distribuzione fortemente non normale di valori Y (ad esempio, obliqua) MA una distribuzione approssimativa (o almeno più normale) dei residui di Y?
Altre fonti descrivono che il presupposto si riferisce ai residui del modello (nei casi in cui vi sono gruppi, ad esempio t-test / ANOVA), e dovremmo esaminare le deviazioni della normalità di questi residui (cioè, solo un diagramma QQ / test per correre).
la normalità dei residui per il modello implica la normalità dei residui per i gruppi ? In altre parole, dovremmo semplicemente esaminare i residui del modello (contrariamente alle istruzioni in molti testi)?
Per metterlo in un contesto, considera questo esempio ipotetico:
- Voglio confrontare l'altezza dell'albero (Y) tra due popolazioni (X).
- In una popolazione la distribuzione di Y è fortemente distorta (vale a dire, la maggior parte degli alberi è corta, pochissima), mentre l'altra è praticamente normale
- L'altezza è complessivamente più elevata nella popolazione normalmente distribuita (suggerendo che potrebbe esserci una differenza "reale").
- La trasformazione dei dati non migliora sostanzialmente la distribuzione della prima popolazione.
In primo luogo, è valido confrontare i gruppi dati le distribuzioni di altezza radicalmente diverse?
Come posso affrontare il "presupposto della normalità" qui? L'altezza di richiamo in una popolazione non è normalmente distribuita. Esamino i residui per entrambe le popolazioni separatamente O i residui per il modello (test t)?
Si prega di fare riferimento alle domande in base al numero nelle risposte, l'esperienza mi ha mostrato che le persone si perdono o si allontanano facilmente (specialmente io!). Tieni presente che non sono uno statistico; sebbene io abbia una comprensione ragionevolmente concettuale (cioè non tecnica!) delle statistiche.
PS, ho cercato negli archivi e letto i seguenti thread che non hanno cementato la mia comprensione:
- ANOVA ipotesi normalità / distribuzione normale dei residui
- Normalità dei residui rispetto ai dati del campione; che dire di t-test?
- Il test della normalità è "sostanzialmente inutile"?
- Test di normalità
- Valutare la normalità della distribuzione
- Quali test devo usare per confermare che i residui sono normalmente distribuiti?
- Cosa fare quando il test di Kolmogorov-Smirnov è significativo per i residui del test parametrico ma l'asimmetria e la curtosi sembrano normali?