Quali sono i test statistici standard per vedere se i dati seguono distribuzioni esponenziali o normali?


12

Quali sono i test statistici standard per vedere se i dati seguono distribuzioni esponenziali o normali?


2
Il miglior test probabilmente dipende dal motivo per cui esattamente stai testando la normalità / esponenziale (quindi un po 'di background sarebbe utile) ma puoi sempre usare il test Kolmogorov Smirnov per testare se un determinato set di dati si adatta a qualsiasi distribuzione pre-specificata ( en.wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Esistono molti metodi usati per la distribuzione normale in particolare: en.wikipedia.org/wiki/Normality_test
Macro

È probabile che le variabili con cui ho a che fare seguano distribuzioni normali o esponenziali. Inoltre, ho un fattore che non mi interessa. Tuttavia, impone alcune variabilità sui miei dati. Quindi, vorrei normalizzare le variabili per sopprimere l'effetto di questo fattore di disturbo. Quindi, ho pensato che fosse meglio normalizzare ogni variabile in base alla loro distribuzione sottostante. Ecco perché ho bisogno di un test per decidere tra queste due distribuzioni.
sabato

1
Cosa significa normalizzare in questa frase: ho pensato che fosse meglio normalizzare ogni variabile in base alla loro distribuzione sottostante ?
Macro

2
Pur non essendo un test, i grafici QQ sono fantastici per fare una rapida ispezione intuitiva se i tuoi dati corrispondono a una distribuzione.
naught101

Risposte:


13

Sembra che tu stia cercando di decidere se modellare i tuoi dati usando la distribuzione normale o esponenziale. Mi sembra in qualche modo strano, poiché queste distribuzioni sono molto diverse l'una dall'altra.

La distribuzione normale è simmetrica mentre la distribuzione esponenziale è fortemente inclinata a destra, senza valori negativi. Tipicamente un campione dalla distribuzione esponenziale conterrà molte osservazioni relativamente vicine a e alcune obervazioni che si discostano molto a destra da . Questa differenza è spesso facile da vedere graficamente.000

Ecco un esempio in cui ho simulato osservazioni da una distribuzione normale con media e varianza e una distribuzione esponenziale con media e varianza :2 4 2 4n=1002424

Normale vs esponenziale: dati simulati

La simmetria della distribuzione normale e l'asimmetria dell'esponenziale possono essere viste usando istogrammi, grafici a scatole e diagrammi a dispersione, come illustrato nella figura sopra.

Un altro strumento molto utile è una trama QQ . Nell'esempio seguente, i punti dovrebbero seguire approssimativamente la linea se il campione proviene da una distribuzione normale. Come puoi vedere, questo è il caso dei dati normali, ma non dei dati esponenziali.

Grafici QQ per dati simulati

Se l'esame grafico per qualche motivo non è abbastanza per te, puoi comunque utilizzare un test per determinare se la tua distribuzione è normale o esponenziale. Poiché la distribuzione normale è una famiglia di scala e posizione, ti consigliamo di utilizzare un test invariante rispetto alle modifiche di scala e posizione (ad esempio, il risultato del test non dovrebbe cambiare se cambi le misure da pollici a centimetri o aggiungi a tutte le tue osservazioni).+1

Quando l'ipotesi nulla è che la distribuzione sia normale e l'ipotesi alternativa sia che sia esponenziale, il test invariante della posizione e della scala più potente è dato dalla statistica dove è la media del campione, è l'osservazione più piccola nel campione e è la deviazione standard del campione. La normalità viene respinta a favore dell'esponenzialità se è troppo grande.ˉ x x(1)sTE,N

TE,N=x¯x(1)s
x¯x(1)sTE,N

Questo test è in realtà una versione unilaterale del test di Grubbs per gli outlier . Lo troverai implementato nella maggior parte dei software statistici (ma assicurati di utilizzare la versione giusta - ci sono diverse statistiche di test alternative utilizzate per il test anomalo!).

Il riferimento per è il test più potente:TE,N Sezione 4.2.4 di Test per la normalità di HC Thode.


L'OP ha chiesto se testasse per normalità quale test scegliereste e in una situazione separata se testaste per esponenziale quale test usereste. Non ho letto per niente l'affermazione che stava suggerendo di provare entrambi i test sullo stesso set di dati.
Michael R. Chernick, l'

L'ho interpretato in questo modo, poiché in un commento di follow-up alla domanda, l'OP ha scritto "Le variabili con cui ho a che fare probabilmente seguiranno le distribuzioni normali o esponenziali. [...] Ecco perché ho bisogno di un test per decidere tra queste due distribuzioni ".
Martedì

Non me ne sono accorto. In tal caso la tua risposta è molto appropriata. Stavo rispondendo come se stesse testando uno alla volta.
Michael R. Chernick, l'

@Michael: l'ho interpretato in quel modo anche quando ho letto la domanda originale, ma ho deciso di scrivere la mia risposta dopo aver letto il commento. Altrimenti, non penso che ci sarebbe molto da aggiungere alla tua (+1) risposta (oltre alle piccole osservazioni che ho fatto in un commento lì).
Martedì

5

Per la distribuzione esponenziale, puoi usare un test chiamato test di Moran o Bartlett. La statistica di prova riguarda la media di esempio e la media di esempio della registrata Sotto l'ipotesi nulla abbiamo approssimativamente e un test su due lati funzionano. Questo test è progettato contro alternative gamma.¯ Y ¯ log Y Y i B n = b n × { log ˉ Y - ¯ log Y }BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Scopri l' affidabilità di KC Kapur e LR Lamberson nella progettazione tecnica . Wiley 1977.


2
Mi sono imbattuto in risorse più recenti ed estese sui test di esponenzialità. 1) Un articolo: A Henze, N. e Meintanis, SG (2005): "Test recenti e classici di esponenzialità: una revisione parziale con confronti". Metrika, vol. 61, pagg. 29–45. 2) Un pacchetto CRAN R denominato 'exptest' che implementa i test dell'articolo menzionato.
Yves,

La distribuzione di B_n non è molto chiara. È Chi quadrato con n-1 df o Chi quadrato con n-1 df moltiplicato per n-1?
Dovini Jayasinghe,

Funziona come scritto. Puoi controllarlo usando alcune righe di codice R.
Yves,

Grazie. Quindi dovrebbe essere la moltiplicazione come ho potuto vedere. Nel senso, i gradi di libertà dovrebbero essere n-1?
Dovini Jayasinghe,

Mi dispiace, ho perso il punto nella tua domanda sulla notazione. Quindi la statistica segue approssimativamente la distribuzione chi-quadro con grado di libertà. n - 1Bnn1
Yves,

4

Per normalità Anderson-Darling e Shapiro-Wilk sono considerati i migliori. Per l'esponenziale test di Lillerfors è progettato appositamente per questo.


5
questa risposta potrebbe essere migliorata con un piccolo dettaglio sul perché ogni test è considerato buono / migliore di altri.
naught101

Questi test sono migliori nel senso che sono i più potenti alle partenze dal normale (Anderson-Darling) e esponenziali (Lillefors). Non credo sia facile basarsi sulla forma del test per fornire una spiegazione intuitiva.
Michael R. Chernick l'

3
@Michael: Il test Anderson-Darling per la normalità (come lo Shapiro-Wilk dito) ha un potere rispettabile contro una vasta gamma di alternative, ma certamente non è il più potente (né in generale né in media). La scelta del test dovrebbe dipendere dall'alternativa a portata di mano. Non ho mai sentito parlare del test di Lillerfors - intendevi forse il test di Lilliefors (che in realtà è un test per la normalità e non un test per l'esponenzialità)?
Martedì

Ovviamente mi riferivo al test di Lillefors per esponenzialità in quanto era quello che stavo suggerendo per ipotesi di distribuzione esponenziale. Ho elencato Shapiro-Wilk e Anderson-Darling perché, per quanto ne so, sono tra i più potenti tra i test per la normalità. Quali sono i test più potenti a cui ti riferisci?
Michael R. Chernick, l'

1
Dipende dal tipo di alternativa che hai. Contro le alternative distorte, ad esempio, l'asimmetria del campione è spesso più potente di SW e AD. Questi ultimi sono test omnibus che sono abbastanza buoni in media, ma se sai di che tipo di non normalità ti preoccupi, è meglio usare un test diretto (come il test di skewness del campione, che è diretto a alternative distorte) .
Martedì

4

Hai considerato i metodi grafici per vedere come si comportano i dati?

Le tecniche del grafico di probabilità di solito comportano la classificazione dei dati, l'applicazione del CDF inverso e quindi la stampa dei risultati sul piano cartesiano. Ciò consente di vedere se diversi valori si discostano dalla distribuzione ipotizzata e probabilmente spiegano il motivo della deviazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.