Come verificare la normale distribuzione utilizzando Excel per eseguire un test t?


21

Voglio sapere come controllare un set di dati per la normalità in Excel, solo per verificare che siano soddisfatti i requisiti per l'utilizzo di un test t .

Per la coda destra, è appropriato calcolare solo una media e una deviazione standard, aggiungere 1, 2 e 3 deviazioni standard dalla media per creare un intervallo, quindi confrontarlo con il normale 68/95 / 99.7 per la distribuzione normale standard dopo l'uso la funzione norm.dist in Excel per testare ogni valore di deviazione standard.

O c'è un modo migliore per testare la normalità?


Risposte:


15

Hai l'idea giusta. Questo può essere fatto in modo sistematico, completo e con calcoli relativamente semplici. Un grafico dei risultati è chiamato un diagramma di probabilità normale (o talvolta un diagramma PP). Da esso puoi vedere molti più dettagli di quelli che appaiono in altre rappresentazioni grafiche, in particolare gli istogrammi , e con un po 'di pratica puoi persino imparare a determinare i modi per riesprimere i tuoi dati per renderli più vicini alla Normale in situazioni in cui ciò è giustificato.

Ecco un esempio:

Foglio di calcolo con grafico delle probabilità

I dati sono in colonna A(e denominati Data). Il resto è tutto calcolo, sebbene sia possibile controllare il valore "rango cerniera" utilizzato per adattare una linea di riferimento al grafico.

Questo diagramma è un diagramma a dispersione che confronta i dati con valori che sarebbero raggiunti da numeri estratti indipendentemente da una distribuzione normale standard. Quando i punti si allineano lungo la diagonale, sono vicini alla Normale; le partenze orizzontali (lungo l'asse dei dati) indicano le deviazioni dalla normalità. In questo esempio i punti sono notevolmente vicini alla linea di riferimento; la partenza più grande avviene al valore più alto, che è di circa 1.5 unità a sinistra della linea. Quindi vediamo a colpo d'occhio che questi dati sono molto simili a quelli normalmente distribuiti ma forse hanno una coda destra leggermente "leggera". Questo va perfettamente bene per l'applicazione di un test t.

I valori di confronto sull'asse verticale sono calcolati in due fasi. Innanzitutto ogni valore di dati viene classificato da 1 a n , la quantità di dati (mostrata nel Countcampo nella cella F2). Questi vengono convertiti proporzionalmente in valori nell'intervallo da 0 a 1 . Una buona formula da utilizzare è (rank1/6)/(n+2/3). (Vedi http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm per sapere da dove proviene.) Quindi questi vengono convertiti in valori normali standard tramite ilNormSInvfunzione. Questi valori vengono visualizzati nella Normal scorecolonna. La trama a destra è un diagramma a dispersione XY di Normal Scorecontro i dati. (In alcuni riferimenti vedrai la trasposizione di questo grafico, che forse è più naturale, ma Excel preferisce posizionare la colonna più a sinistra sull'asse orizzontale e la colonna più a destra sull'asse verticale, quindi gli ho lasciato fare ciò che preferisce. )

Foglio di calcolo: calcolo del punteggio normale

(Come puoi vedere, ho simulato questi dati con estrazioni casuali indipendenti da una distribuzione normale con media 5 e deviazione standard 2 Non sorprende quindi che il grafico delle probabilità appaia così bello.) Esistono davvero solo due formule da digitare, che si propaga verso il basso per abbinare i dati: appaiono nelle celle B2:C2e si basano sul Countvalore calcolato nella cella F2. Questo è davvero tutto ciò che c'è da fare, a parte la trama.

3Hinge RankF3

Per tracciare la linea di riferimento, vengono calcolati e aggiunti due punti estremi alla trama: il loro calcolo avviene in colonne I:J, etichettati Xe Y.

Foglio di calcolo: calcolo della linea di riferimento


Per le formule nel Col B, spiegheresti il ​​motivo per aggiungere 1 e dividere per 6 e 3 ("+ 1/6" e "+ 1/3")? C'è anche un motivo per cui hai scelto di dividere per 6 nella cella del rango di cerniera?

1/6100×1/6100×5/601/21/40.16

La formula (rango + 1/6) / (n + 1/3) non sembra essere simmetrica come potremmo anticipare. ad es. con l'osservazione centrale di 3 il grado è 2 e questo suggerirebbe un corrispondente percentile di 0,65 piuttosto che ciò che sembrerebbe naturale prendere per l'osservazione centrale (0,5). Mi sono perso qualcosa di ovvio? [Ho visto Tukey usare alcune formule diverse in luoghi diversi, tra cui (i-1/3) / (n + 1/3). La formula al tuo link si adatta allo schema comune (ia) / (n + 1-2a) ma la formula che dai nella risposta non lo fa]
Glen_b -Reinstate Monica

ran+12a
r1na011/6(r1/6)/(n+2/3)a=1/3
whuber

5

È possibile tracciare un istogramma utilizzando il toolpack di analisi dei dati in Excel . Gli approcci grafici hanno maggiori probabilità di comunicare il grado di non normalità, che in genere è più rilevante per i test di assunzione (vedi questa discussione sulla normalità ).

Il toolpack di analisi dei dati in Excel ti darà anche asimmetria e curtosi se chiedi statistiche descrittive e scegli l'opzione "statistiche riassuntive". Ad esempio, potresti considerare i valori di asimmetria più o meno uno come una forma di non normalità sostanziale.

Detto questo, il presupposto con i test t è che i residui sono normalmente distribuiti e non la variabile. Inoltre, sono anche abbastanza robusti in modo tale che anche con quantità abbastanza elevate di non normalità, i valori di p sono ancora abbastanza validi.


4

Questa domanda confina anche con la teoria statistica: testare la normalità con dati limitati può essere discutibile (anche se di tanto in tanto lo abbiamo fatto tutti).

In alternativa, puoi guardare a curtosi e coefficienti di asimmetria. Da Hahn e Shapiro: Modelli statistici in Ingegneria sono forniti alcuni retroscena sulle proprietà Beta1 e Beta2 (pagine da 42 a 49) e la Figura 6-1 di Pagina 197. Ulteriori ipotesi alla base possono essere trovate su Wikipedia (vedi distribuzione Pearson).

Fondamentalmente è necessario calcolare le cosiddette proprietà Beta1 e Beta2. A Beta1 = 0 e Beta2 = 3 suggeriscono che il set di dati si avvicina alla normalità. Questo è un test approssimativo ma con dati limitati si potrebbe sostenere che qualsiasi test potrebbe essere considerato approssimativo.

Beta1 è correlato ai momenti 2 e 3, o varianza e asimmetria , rispettivamente. In Excel, questi sono VAR e SKEW. Dove ... è il tuo array di dati, la formula è:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 è correlato ai momenti 2 e 4, o alla varianza e alla curtosi , rispettivamente. In Excel, questi sono VAR e KURT. Dove ... è il tuo array di dati, la formula è:

Beta2 = KURT(...)/VAR(...)^2

Quindi puoi verificarli con i valori di 0 e 3, rispettivamente. Ciò ha il vantaggio di identificare potenzialmente altre distribuzioni (comprese le distribuzioni Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Ad esempio, molte delle distribuzioni comunemente usate come Uniform, Normal, Student's t, Beta, Gamma, Exponential e Log-Normal possono essere indicate da queste proprietà:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

Questi sono illustrati in Hahn e Shapiro Fig 6-1.

Concesso, questo è un test molto approssimativo (con alcuni problemi) ma potresti voler considerarlo come un controllo preliminare prima di passare a un metodo più rigoroso.

Esistono anche meccanismi di regolazione per il calcolo di Beta1 e Beta2 in cui i dati sono limitati, ma questo va oltre questo post.


Molto di questo materiale può funzionare bene per set di dati di grandi dimensioni e sono d'accordo con la tua valutazione iniziale che i test di normalità possono essere limitati o discutibili con set di dati di piccole dimensioni. Ma data l' enorme variabilità dell'asimmetria e della curtosi, sembrerebbe che qualsiasi sforzo per identificare il tipo di distribuzione sottostante basato su queste statistiche sarebbe ancora più discutibile e meno sicuro. Di conseguenza, questo approccio non sarebbe (nella migliore delle ipotesi) fuorviante anche come controllo preliminare?
whuber

1
Forse è meglio qualificare ulteriormente il metodo: Hahn e Shapiro (come indicato sopra) consigliano di prestare attenzione, specialmente quando la dimensione del campione è inferiore a 200 - e raccomandano che questo sia seguito da un'ulteriore verifica, come una tabella di frequenza che confronta la distribuzione adattata con i dati effettivi. Ma dal mio punto di vista è un metodo utile che può suggerire dove potrebbero trovarsi i dati in uno spettro di possibilità. L'ho usato su set di dati non più piccoli di circa 3000 e l'ho integrato in un software di simulazione al computer dove si è rivelato utile.
AsymLabs

Vedo il tuo metodo fornire informazioni utili con set di dati di 3000 o superiore. Tuttavia, non è necessario eseguire test distributivi per valutare l'applicabilità di un test t della media.
whuber

Sia che uno lo consideri una tecnica utile, come me, o altrimenti, come sembra essere il tuo punto di vista, ciò nonostante è un'alternativa rapida e consolidata (di Pearson) ai test per la normalità (e l'applicazione Students-t) nel contesto di questa discussione. Per favore, non fraintendetemi, riconosco e sono d'accordo con le vostre preoccupazioni. Ma saremmo entrambi d'accordo, no, che senza informazioni preliminari, cercare di stabilire se un'intera popolazione può essere modellata su un gaussiano da un campione di dati molto piccolo è un colpo al buio nella migliore delle ipotesi con qualsiasi metodo, e nella peggiore delle ipotesi è pericoloso.
AsymLabs

1
Giusto. Tutto quello che sto dicendo è che se è pericoloso provare, da un piccolo campione, a verificare se la popolazione è gaussiana, allora deve essere almeno altrettanto pericoloso usare l'asimmetria e la curtosi per identificare quale potrebbe essere la distribuzione sottostante! In effetti, sembra che un simile tentativo sarebbe effettivamente peggiore perché si basa su statistiche instabili come la curtosi. Sebbene il sistema di Pearson possa essere una potente guida per aiutare le persone a identificare possibili distribuzioni, fornisce meno informazioni persino su display grafici limitati come gli istogrammi.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.