Il test della normalità è "sostanzialmente inutile"?


298

Un ex collega una volta mi ha discusso come segue:

Solitamente applichiamo test di normalità ai risultati di processi che, sotto il nulla, generano variabili casuali che sono solo asintoticamente o quasi normali (con la parte "asintoticamente" dipendente da una quantità che non possiamo aumentare); Nell'era della memoria economica, dei big data e dei processori veloci, i test di normalità dovrebbero sempre rifiutare il valore nullo della distribuzione normale per campioni grandi (anche se non follemente grandi). E quindi, perversamente, i test di normalità dovrebbero essere usati solo per piccoli campioni, quando presumibilmente hanno una potenza inferiore e un controllo minore sulla frequenza di tipo I.

È un argomento valido? È un argomento ben noto? Esistono prove ben note per un'ipotesi nulla più "fuzzier" della normalità?


23
Per riferimento: non penso che questo debba essere wiki della comunità.
Shane,

2
Non ero sicuro che ci fosse una "risposta giusta" ...
shabbychef,

5
In un certo senso, questo vale per tutti i test di un numero finito di parametri. Con fisso (il numero di parametri su cui viene eseguito il test) e crescita senza limiti, qualsiasi differenza tra i due gruppi (non importa quanto piccolo) romperà sempre il nulla in qualche punto. In realtà, questo è un argomento a favore dei test bayesiani. nkn
user603

2
Per me, non è un argomento valido. Ad ogni modo, prima di dare una risposta devi formalizzare un po 'le cose. Potresti sbagliarti e potresti non esserlo, ma ora quello che hai non è altro che un'intuizione: per me la frase "Nell'era della memoria economica, dei big data e dei processori veloci, i test di normalità dovrebbero sempre rifiutare il nulla del normale" necessita di chiarimenti :) Penso che se provi a dare una precisione più formale la risposta sarà semplice.
Robin Girard,

8
Il thread in "I set di dati di grandi dimensioni non sono appropriati per il test delle ipotesi" discute una generalizzazione di questa domanda. ( stats.stackexchange.com/questions/2516/… )
whuber

Risposte:


229

Non è un argomento. È un fatto (un po 'fortemente affermato) che i test formali di normalità rifiutano sempre le enormi dimensioni del campione con cui lavoriamo oggi. È persino facile dimostrare che quando n diventa grande, anche la minima deviazione dalla perfetta normalità porterà a un risultato significativo. E poiché ogni set di dati ha un certo grado di casualità, nessun singolo set di dati sarà un campione perfettamente distribuito normalmente. Ma nelle statistiche applicate la domanda non è se i dati / i residui ... siano perfettamente normali, ma abbastanza normali da contenere le ipotesi.

Permettetemi di illustrare con il test di Shapiro-Wilk . Il codice seguente costruisce un insieme di distribuzioni che si avvicinano alla normalità ma non sono del tutto normali. Successivamente, verifichiamo shapiro.testse un campione di queste distribuzioni quasi normali si discosta dalla normalità. In R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

L'ultima riga controlla quale frazione delle simulazioni per ogni dimensione del campione si discosta significativamente dalla normalità. Quindi nell'87% dei casi, secondo Shapiro-Wilks, un campione di 5000 osservazioni si discosta significativamente dalla normalità. Tuttavia, se vedi le trame qq, non deciderai mai su una deviazione dalla normalità. Di seguito, vedi come esempio i grafici qq per un set di campioni casuali

testo alternativo

con valori p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
In una nota a margine, il teorema del limite centrale rende superfluo il controllo formale della normalità in molti casi quando n è grande.
Joris Meys,

31
sì, la vera domanda non è se i dati siano effettivamente distribuiti normalmente, ma siano sufficientemente normali perché il presupposto sottostante della normalità sia ragionevole ai fini pratici dell'analisi, e avrei pensato che l'argomento basato sul CLT sia normalmente [sic] sufficiente per quello.
Dikran Marsupial,

53
Questa risposta sembra non rispondere alla domanda: dimostra semplicemente che il test SW non raggiunge il suo livello di confidenza nominale, e quindi identifica un difetto in quel test (o almeno nella sua Rattuazione). Ma questo è tutto - non ha alcuna influenza sull'ambito di utilità dei test di normalità in generale. L'affermazione iniziale che i test di normalità rifiutano sempre su campioni di grandi dimensioni è semplicemente errata.
whuber

19
@whuber Questa risposta risponde alla domanda. Il punto centrale della domanda è il "vicino" in "quasi normalità". SW verifica qual è la probabilità che il campione venga estratto da una distribuzione normale. Dato che le distribuzioni che ho costruito non sono deliberatamente normali, ti aspetteresti che il test SW faccia ciò che promette: rifiuta il nulla. Il punto è che questo rifiuto non ha senso in grandi campioni, poiché la deviazione dalla normalità non comporta una perdita di potere lì. Quindi il test è corretto, ma privo di significato, come mostrato dai QQplots
Joris Meys,

11
Avevo fatto affidamento su ciò che hai scritto e frainteso ciò che intendevi con una distribuzione "quasi normale". Ora vedo - ma solo leggendo il codice e testandolo attentamente - che stai simulando da tre distribuzioni normali standard con mezzi a e e combinando i risultati in un rapporto . Non speri che un buon test di normalità respinga il nulla in questo caso? Ciò che hai effettivamente dimostrato è che i grafici QQ non sono molto bravi a rilevare tali miscele, tutto qui! 0, 1,22:2:1
whuber

172

Quando si pensa se il test della normalità sia "essenzialmente inutile", si deve prima pensare a cosa dovrebbe essere utile. Molte persone (beh ... almeno molti scienziati) fraintendono la domanda a cui risponde il test di normalità.

La domanda con cui i test di normalità rispondono: esistono prove convincenti di deviazioni dall'ideale gaussiano? Con insiemi di dati reali moderatamente grandi, la risposta è quasi sempre sì.

Alla domanda gli scienziati spesso si aspettano che il test di normalità risponda: i dati si discostano abbastanza dall'ideale gaussiano per "vietare" l'uso di un test che presuppone una distribuzione gaussiana? Gli scienziati spesso desiderano che il test di normalità sia l'arbitro che decide quando abbandonare i test convenzionali (ANOVA, ecc.) E invece analizza i dati trasformati o utilizza un test non parametrico basato sul rango o un approccio di ricampionamento o bootstrap. A tal fine, i test di normalità non sono molto utili.


16
+1 per una risposta valida e istruttiva. Trovo utile vedere una buona spiegazione per un malinteso comune (che per inciso ho sperimentato: stats.stackexchange.com/questions/7022/… ). Ciò che mi manca, tuttavia, è una soluzione alternativa a questo malinteso comune. Voglio dire, se i test di normalità sono la strada sbagliata, come si fa a verificare se un'approssimazione normale è accettabile / giustificata?
posdef,

6
Non c'è sostituto del senso (comune) dell'analista (o, beh, del ricercatore / scienziato). Ed esperienza (appreso provando e vedendo: quali conclusioni ottengo se presumo sia normale? Quali sono le differenze se no?). La grafica è la tua migliore amica.
FairMiles,

2
Mi piace questo documento, che sottolinea il punto che hai sollevato: Micceri, T. (1989). L'unicorno, la curva normale e altre creature improbabili. Bollettino psicologico, 105 (1), 156-166.
Jeremy Miles,

4
Guardare la grafica è fantastico, ma cosa succede se ce ne sono troppi da esaminare manualmente? Possiamo formulare procedure statistiche ragionevoli per evidenziare possibili punti problematici? Sto pensando a situazioni come gli sperimentatori A / B su larga scala: exp-platform.com/Pages/… .
dfrankow,

118

Penso che i test per la normalità possano essere utili come compagni per gli esami grafici. Devono essere usati nel modo giusto, però. Secondo me, ciò significa che non dovrebbero mai essere usati molti test popolari, come i test Shapiro-Wilk, Anderson-Darling e Jarque-Bera.

Prima di spiegare il mio punto di vista, vorrei fare alcune osservazioni:

  • In un interessante recente documento Rochon et al. studiato l'impatto del test Shapiro-Wilk sul test t a due campioni. La procedura in due fasi per verificare la normalità prima di eseguire ad esempio un test t non è priva di problemi. Inoltre, non è nemmeno la procedura in due passaggi per indagare graficamente la normalità prima di eseguire un test t. La differenza è che l'impatto di quest'ultimo è molto più difficile da indagare (in quanto richiederebbe uno statistico per indagare graficamente sulla normalità circa volte ...).100,000
  • È utile quantificare la non normalità , ad esempio calcolando l'asimmetria del campione, anche se non si desidera eseguire un test formale.
  • La normalità multivariata può essere difficile da valutare graficamente e la convergenza alle distribuzioni asintotiche può essere lenta per le statistiche multivariate. I test per la normalità sono quindi più utili in un contesto multivariato.
  • I test per la normalità sono forse particolarmente utili per i professionisti che usano le statistiche come un insieme di metodi di black-box . Quando la normalità viene respinta, il professionista dovrebbe essere allarmato e, piuttosto che eseguire una procedura standard basata sul presupposto della normalità, prendere in considerazione l'uso di una procedura non parametrica, l'applicazione di una trasformazione o la consultazione di uno statistico più esperto.
  • Come è stato sottolineato da altri, se è abbastanza grande, il CLT di solito salva la giornata. Tuttavia, ciò che è "abbastanza grande" differisce per le diverse classi di distribuzioni.n

(Nel mio caso) un test per la normalità è diretto contro una classe di alternative se è sensibile alle alternative di quella classe, ma non sensibile alle alternative di altre classi. Esempi tipici sono prove che sono dirette verso sghembi o kurtotic alternative. Gli esempi più semplici usano l'asimmetria del campione e la curtosi come statistiche di test.

I test diretti di normalità sono probabilmente preferibili ai test omnibus (come i test di Shapiro-Wilk e Jarque-Bera) poiché è comune che solo alcuni tipi di non-normalità siano fonte di preoccupazione per una particolare procedura inferenziale .

Consideriamo il test t di Student come esempio. Supponiamo di avere un campione iid da una distribuzione con asimmetria e (eccesso) kurtosisSe è simmetrica rispetto alla sua media, . Sia che sono 0 per la distribuzione normale.γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

Sotto ipotesi di regolarità, otteniamo la seguente espansione asintotica per il cdf della statistica test : Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

dove è il cdf e è il pdf della distribuzione normale standard.Φ()ϕ()

γ appare per la prima volta nel termine , mentre appare nel termine . La prestazione asintotica di è molto più sensibile alle deviazioni dalla normalità sotto forma di asimmetria che nella forma di curtosi.n1/2κn1 T nTn

Si può verificare usando le simulazioni che questo vale anche per le piccole . Pertanto il test t di Student è sensibile all'asimmetria ma relativamente robusto contro le code pesanti ed è ragionevole usare un test per la normalità che è diretto verso alternative distorte prima di applicare il test t .n

Come regola empirica ( non una legge della natura), l'inferenza sui mezzi è sensibile all'incertezza e l'inferenza sulle varianze è sensibile alla curtosi.

L'uso di un test diretto per la normalità ha il vantaggio di ottenere un potere maggiore contro alternative "pericolose" e un potere inferiore contro alternative che sono meno "pericolose", il che significa che abbiamo meno probabilità di rifiutare la normalità a causa delle deviazioni dalla normalità che hanno vinto non influisce sull'esecuzione della nostra procedura inferenziale. La non normalità è quantificata in modo rilevante per il problema in questione. Questo non è sempre facile da eseguire graficamente.

Man mano che si ingrandisce, l'asimmetria e la curtosi diventano meno importanti e è probabile che i test diretti rilevino se queste quantità si discostano da 0 anche di una piccola quantità. In tali casi, sembra ragionevole, ad esempio, verificare se o (guardando il primo termine dell'espansione sopra) anziché se . Questo risolve alcuni dei problemi che altrimenti dovremmo affrontare man mano che si ingrandisce.n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n


2
Questa è un'ottima risposta!
user603

10
Sì, questa dovrebbe essere la risposta accettata, davvero fantastica
jenesaisquoi,

2
"è comune che solo alcuni tipi di non normalità siano fonte di preoccupazione per una particolare procedura inferenziale". - ovviamente si dovrebbe quindi usare un test diretto verso quel tipo di non normalità. Ma il fatto che si stia utilizzando un test di normalità implica che si preoccupa di tutti gli aspetti della normalità. La domanda è: è un test di normalità in quel caso una buona opzione.
rbm

Test per la sufficienza delle ipotesi per test particolari stanno diventando comuni, il che per fortuna rimuove alcune delle congetture.
Carl

1
@Carl: puoi aggiungere alcuni riferimenti / esempi per questo?
kjetil b halvorsen,

58

I test di normalità IMHO sono assolutamente inutili per i seguenti motivi:

  1. Su piccoli campioni, ci sono buone probabilità che la vera distribuzione della popolazione sia sostanzialmente non normale, ma il test di normalità non è efficace per raccoglierlo.

  2. Su campioni di grandi dimensioni, cose come il T-test e ANOVA sono piuttosto robusti rispetto alla non normalità.

  3. L'intera idea di una popolazione normalmente distribuita è comunque solo una comoda approssimazione matematica. Nessuna delle quantità generalmente trattate statisticamente potrebbe plausibilmente avere distribuzioni con un supporto di tutti i numeri reali. Ad esempio, le persone non possono avere un'altezza negativa. Qualcosa non può avere massa negativa o più massa di quella che c'è nell'universo. Pertanto, è sicuro affermare che nulla è esattamente distribuito normalmente nel mondo reale.


2
La differenza di potenziale elettrico è un esempio di una quantità del mondo reale che può essere negativa.
nico,

16
@nico: Certo, può essere negativo, ma c'è un limite finito perché ci sono solo così tanti protoni ed elettroni nell'Universo. Naturalmente questo è irrilevante nella pratica, ma questo è il mio punto. Nulla è esattamente distribuito normalmente (il modello è sbagliato), ma ci sono molte cose abbastanza vicine (il modello è utile). Fondamentalmente, sapevi già che il modello era sbagliato e rifiutare o non rifiutare il nulla non fornisce sostanzialmente informazioni sul fatto che sia comunque utile.
dsimcha,

1
@dsimcha - Trovo che sia una risposta davvero perspicace e utile.
rolando2,

5
@dsimcha, -test e ANOVA non sono robusti per la non normalità. Vedi articoli di Rand Wilcox. t
Frank Harrell,

@dsimcha "il modello è sbagliato". TUTTI i modelli non sono "sbagliati" però?
Atirag,

30

Penso che il pre-test per la normalità (che include valutazioni informali usando la grafica) non rispecchi il punto.

  1. Gli utenti di questo approccio presumono che la valutazione della normalità abbia in effetti un potere vicino a 1.0.
  2. I test non parametrici come Wilcoxon, Spearman e Kruskal-Wallis hanno un'efficienza di 0,95 se la normalità è valida.
  3. Alla luce di 2. si può pre-specificare l'uso di un test non parametrico se si considera anche la possibilità che i dati non possano derivare da una distribuzione normale.
  4. I modelli di probabilità cumulativa ordinaria (il modello di probabilità proporzionale essendo un membro di questa classe) generalizzano i test standard non parametrici. Modelli ordinali sono completamente trasformazione-invariante rispetto a , sono robusti, potenti, e permettono di valutare quantili e media di .YYY

si noti che l'efficienza di 0,95 è asintotica : FWIW immagino che l'efficienza sia molto più bassa per le dimensioni dei campioni finiti tipici ... (anche se è vero che non l'ho visto studiato, né ho cercato di esplorarlo da solo)
Ben Bolker

16

Prima di chiedere se un test o qualsiasi tipo di controllo approssimativo per la normalità è "utile" devi rispondere alla domanda dietro la domanda: "Perché stai chiedendo?"

Ad esempio, se si desidera impostare un limite di confidenza solo attorno alla media di un insieme di dati, le deviazioni dalla normalità possono essere o meno importanti, a seconda della quantità di dati che si hanno e delle dimensioni delle partenze. Tuttavia, le deviazioni dalla normalità possono essere cruciali se si desidera prevedere quale sarà il valore più estremo nelle osservazioni future o nella popolazione da cui è stato effettuato il campionamento.


12

Consentitemi di aggiungere una piccola cosa: l'
esecuzione di un test di normalità senza tener conto dell'errore alfa aumenta la probabilità complessiva di eseguire un errore alfa.

Non dimenticherai mai che ogni test aggiuntivo lo fa purché non controlli l'accumulo di errori alfa. Quindi, un'altra buona ragione per chiudere i test di normalità.


Presumo che ti riferisca a una situazione in cui si fa prima un test di normalità, quindi si utilizza il risultato di quel test per decidere quale test eseguire successivamente.
Harvey Motulsky,

3
Mi riferisco all'utilità generale dei test di normalità quando usato come metodo per determinare se è appropriato utilizzare o meno un determinato metodo. Se li applichi in questi casi, è meglio, in termini di probabilità di commettere un errore alfa, eseguire un test più efficace per evitare l'accumulo di errori alfa.
Henrik,

4
Questo non ha senso per me. Anche se decidi, per esempio, un ANOVA o un metodo basato sul rango basato su un test di normalità (una cattiva idea ovviamente), alla fine della giornata eseguiresti comunque solo un test del confronto di interessi. Se rifiuti erroneamente la normalità, non hai ancora raggiunto una conclusione errata riguardo a questo particolare confronto. È possibile che si stiano eseguendo due test, ma l'unico caso in cui è possibile concludere che tale fattore abbia un effetto è quando il secondo test rifiuta anche , non quando solo il primo lo fa. Quindi, nessun accumulo di errori alfa ...H0
Gala

3
Un altro modo in cui un test di normalità potrebbe aumentare gli errori di tipo I è se stiamo parlando di "probabilità complessiva di eseguire un errore alfa". Il test stesso ha un tasso di errore, quindi nel complesso aumenta la nostra probabilità di commettere un errore. L'enfasi anche su una piccola cosa suppongo ...
Nick Stauner,

2
@NickStauner Questo è esattamente ciò che volevo trasmettere. Grazie per aver reso questo punto ancora più chiaro.
Henrik,

11

Le risposte qui hanno già affrontato diversi punti importanti. Per riassumere rapidamente:

  • Non esiste un test coerente in grado di determinare se un insieme di dati segue veramente una distribuzione o meno.
  • I test non sostituiscono l'ispezione visiva dei dati e dei modelli per identificare osservazioni ad alta leva, alta influenza e commentare i loro effetti sui modelli.
  • Le ipotesi per molte routine di regressione sono spesso erroneamente citate come richiedenti "dati" normalmente distribuiti [residui] e che questo è interpretato dagli statistici alle prime armi come richiedente che l'analista valuti formalmente questo in un certo senso prima di procedere con le analisi.

In primo luogo sto aggiungendo una risposta per citare uno dei miei articoli statistici a cui ho avuto accesso e letto più frequentemente, personalmente: " L'importanza delle ipotesi di normalità nei grandi set di dati sulla salute pubblica " di Lumley et. al. Vale la pena leggere per intero. Il riassunto afferma:

La regressione lineare del test t e dei minimi quadrati non richiede alcuna ipotesi di distribuzione normale in campioni sufficientemente grandi. Precedenti studi di simulazioni mostrano che "sufficientemente grande" è spesso inferiore a 100 e anche per i nostri dati sui costi medici estremamente non normali è inferiore a 500. Ciò significa che nella ricerca sulla salute pubblica, dove i campioni sono spesso sostanzialmente più grandi di questo, il t -test e il modello lineare sono utili strumenti predefiniti per analizzare differenze e tendenze in molti tipi di dati, non solo quelli con distribuzioni normali. I test statistici formali per la Normalità sono particolarmente indesiderabili in quanto avranno una bassa potenza nei piccoli campioni in cui la distribuzione conta e un'alta potenza solo in grandi campioni in cui la distribuzione non è importante.

Mentre le proprietà di campioni di grandi dimensioni della regressione lineare sono ben comprese, ci sono state poche ricerche sulle dimensioni del campione necessarie affinché l'assunto della Normalità non sia importante. In particolare, non è chiaro in che modo la dimensione del campione necessaria dipende dal numero di predittori nel modello.

L'attenzione alle distribuzioni normali può distrarre dalle ipotesi reali di questi metodi. La regressione lineare presuppone che la varianza della variabile di risultato sia approssimativamente costante, ma la principale restrizione su entrambi i metodi è che ritengono che sia sufficiente esaminare i cambiamenti nella media della variabile di risultato. Se qualche altro riassunto della distribuzione è di maggiore interesse, il test t e la regressione lineare potrebbero non essere appropriati.

Riassumendo: la normalità generalmente non vale la discussione o l'attenzione che riceve in contrasto con l'importanza di rispondere a una particolare domanda scientifica. Se il desiderio è di riassumere le differenze medie nei dati, allora il test t e ANOVA o la regressione lineare sono giustificati in un senso molto più ampio. I test basati su questi modelli rimangono del livello alfa corretto, anche quando le assunzioni distributive non sono soddisfatte, sebbene la potenza possa essere influenzata negativamente.

I motivi per cui le normali distribuzioni possono ricevere l'attenzione che fanno possono essere per ragioni classiche, dove si potrebbero ottenere test esatti basati su distribuzioni F per ANOVA e distribuzioni T per studenti per il test T. La verità è che, tra i molti progressi della scienza moderna, generalmente ci occupiamo di set di dati più grandi di quelli raccolti in precedenza. Se si ha effettivamente a che fare con un piccolo set di dati, la logica secondo cui tali dati sono normalmente distribuiti non può provenire da quei dati stessi: semplicemente non c'è abbastanza energia. Osservare altre ricerche, repliche o persino la biologia o la scienza del processo di misurazione è, a mio avviso, un approccio molto più giustificato per discutere un possibile modello di probabilità alla base dei dati osservati.

Per questo motivo, optando per un test basato sul rango come alternativa manca completamente il punto. Tuttavia, concorderò sul fatto che l'uso di stimatori di varianza robusti come il coltello a serramanico o il bootstrap offre importanti alternative computazionali che consentono di condurre test in una varietà di violazioni più importanti delle specifiche del modello, come l'indipendenza o la distribuzione identica di tali errori.


10

Ho usato a pensare che i test di normalità sono stati completamente inutili.

Tuttavia, ora faccio consulenza per altri ricercatori. Spesso ottenere campioni è estremamente costoso e quindi vorranno fare una deduzione con n = 8, diciamo.

In tal caso, è molto difficile trovare significatività statistica con test non parametrici, ma i test t con n = 8 sono sensibili alle deviazioni dalla normalità. Quindi quello che otteniamo è che possiamo dire "beh, a condizione che si assuma la normalità, troviamo una differenza statisticamente significativa" (non preoccuparti, questi sono di solito studi pilota ...).

Quindi abbiamo bisogno di un modo per valutare tale presupposto. Sono a metà strada nel campo che guardare le trame è un modo migliore per andare, ma a dire la verità ci può essere un sacco di disaccordo su questo, il che può essere molto problematico se una delle persone che non sono d'accordo con te è il revisore del tuo manoscritto.

In molti modi, penso ancora che ci siano molti difetti nei test di normalità: ad esempio, dovremmo pensare all'errore di tipo II più che al tipo I. Ma ce n'è bisogno.


Si noti che l'argomento qui è che i test sono solo inutili in teoria. In teoria, possiamo sempre ottenere tutti i campioni che vogliamo ... Avrai comunque bisogno dei test per dimostrare che i tuoi dati sono almeno in qualche modo vicini alla normalità.
SmallChess,

2
Buon punto. Penso che ciò che stai insinuando, e certamente ciò in cui credo, sia che una misura della deviazione dalla normalità è più importante di un test di ipotesi.
Cliff AB,

Fintanto che non passano a un test non parametrico e cercano di interpretare i valori p (che sono invalidati dal pre-test condizionale), forse va bene ?!
Björn,

2
La potenza di un test di normalità sarà molto bassa a n = 8; in particolare, le deviazioni dalla normalità che influiranno in modo sostanziale sulle proprietà di un test che presuppone che possa essere abbastanza difficile da rilevare a campioni di piccole dimensioni (sia tramite test che visivamente).
Glen_b,

1
@Glen_b: sono d'accordo; Penso che questo sentimento sia in linea con il prendersi più cura degli errori di tipo II piuttosto che di tipo I. Il mio punto è che esiste un mondo reale che deve testare la normalità. Se i nostri strumenti attuali soddisfino davvero tale esigenza è una domanda diversa.
Cliff AB,

10

Per quello che vale, una volta ho sviluppato un campionatore veloce per la distribuzione normale troncata e il test di normalità (KS) è stato molto utile nel debug della funzione. Questo campionatore supera il test con enormi dimensioni del campione ma, cosa interessante, il campionatore ziggurat della GSL non l'ha fatto.


8

L'argomento che hai dato è un'opinione. Penso che l'importanza del test di normalità sia di assicurarsi che i dati non si discostino gravemente dal normale. Lo uso a volte per decidere tra l'uso di un test parametrico rispetto a un test non parametrico per la mia procedura di inferenza. Penso che il test possa essere utile in campioni moderati e di grandi dimensioni (quando il teorema del limite centrale non entra in gioco). Tendo a usare i test di Wilk-Shapiro o Anderson-Darling, ma eseguendo SAS li ottengo tutti e generalmente sono abbastanza d'accordo. Da un altro punto di vista, penso che le procedure grafiche come i grafici QQ funzionino altrettanto bene. Il vantaggio di un test formale è che è obiettivo. In piccoli campioni è vero che questi test di bontà di adattamento non hanno praticamente alcun potere e questo ha un senso intuitivo perché un piccolo campione da una distribuzione normale potrebbe per caso apparire piuttosto non normale e questo è giustificato nel test. Inoltre, in piccoli campioni non si vedono facilmente alta asimmetria e curtosi che distinguono molte distribuzioni non normali dalle distribuzioni normali.


2
Sebbene possa certamente essere usato in questo modo, non penso che sarai più obiettivo che con un QQ-Plot. La parte soggettiva con i test è quando decidere che i tuoi dati sono non normali. Con un grande campione, il rifiuto a p = 0,05 potrebbe essere eccessivo.
Erik,

4
I pre-test (come suggerito qui) possono invalidare il tasso di errore di tipo I dell'intero processo; si dovrebbe tener conto del fatto che è stato eseguito un pre-test quando si interpretano i risultati di qualsiasi test selezionato. Più in generale, i test di ipotesi dovrebbero essere mantenuti per verificare l'ipotesi nulla di cui ci si preoccupi realmente, cioè che non vi è alcuna associazione tra variabili. L'ipotesi nulla che i dati siano esattamente normali non rientra in questa categoria.
ospite

1
(+1) Qui ci sono ottimi consigli. Erik, anche l'uso di "obiettivo" mi ha sorpreso, fino a quando ho capito che Michael ha ragione: due persone che conducono correttamente lo stesso test sugli stessi dati otterranno sempre lo stesso valore p, ma potrebbero interpretare lo stesso diagramma QQ in modo diverso. Ospite: grazie per la nota cautelativa sull'errore di tipo I. Ma perché non dovremmo preoccuparci della distribuzione dei dati? Spesso si tratta di informazioni interessanti e preziose. Almeno voglio sapere se i dati sono coerenti con le ipotesi che i miei test stanno facendo su di loro!
whuber

1
Sono fortemente in disaccordo. Entrambe le persone ottengono la stessa trama QQ e lo stesso valore p. Per interpretare il valore p è necessario tenere conto delle dimensioni del campione e delle violazioni della normalità a cui il test è particolarmente sensibile. Quindi decidere cosa fare del tuo valore p è altrettanto soggettivo. Il motivo per cui potresti preferire il valore p è che ritieni che i dati possano seguire una distribuzione normale perfetta, altrimenti è solo una domanda sulla velocità con cui il valore p scende con la dimensione del campione. Inoltre, data una dimensione del campione decente, la trama QQ è praticamente la stessa e rimane stabile con più campioni.
Erik,

1
Erik, sono d'accordo che i risultati dei test e la grafica richiedono interpretazione. Ma il risultato del test è un numero e non ci saranno controversie al riguardo. Il diagramma QQ, tuttavia, ammette più descrizioni. Sebbene ognuno possa obiettivamente essere corretto, la scelta di cosa prestare attenzione è ... una scelta. Questo significa "soggettivo": il risultato dipende dall'analista, non solo dalla procedura stessa. Questo è il motivo per cui, ad esempio, in contesti diversi come le carte di controllo e i regolamenti governativi in ​​cui l '"obiettività" è importante, i criteri si basano su test numerici e risultati mai grafici.
whuber

7

Penso che un approccio di entropia massima potrebbe essere utile qui. Possiamo assegnare una distribuzione normale perché riteniamo che i dati siano "normalmente distribuiti" (qualunque cosa ciò significhi) o perché ci aspettiamo di vedere solo deviazioni della stessa grandezza. Inoltre, poiché la distribuzione normale ha solo due statistiche sufficienti, è insensibile alle variazioni dei dati che non alterano queste quantità. Quindi, in un certo senso, puoi pensare a una distribuzione normale come una "media" su tutte le possibili distribuzioni con gli stessi primi e secondi momenti. questo fornisce uno dei motivi per cui i minimi quadrati dovrebbero funzionare bene come loro.


Bel ponte di concetti. Concordo anche sul fatto che nei casi in cui tale distribuzione è importante, è molto più illuminante pensare a come vengono generati i dati. Applichiamo questo principio nel montaggio di modelli misti. Concentrazioni o rapporti invece sono sempre distorti. Potrei aggiungere che per "il normale ... è insensibile ai cambiamenti" intendi invariante ai cambiamenti di forma / scala.
AdamO,

7

Non direi che è inutile, ma dipende davvero dall'applicazione. Nota, non conosci mai veramente la distribuzione da cui provengono i dati e tutto ciò che hai è un piccolo insieme di realizzazioni. La media del campione è sempre limitata nel campione, ma la media potrebbe essere indefinita o infinita per alcuni tipi di funzioni di densità di probabilità. Consideriamo i tre tipi di distribuzioni stabili di Levy: distribuzione normale, distribuzione di Levy e distribuzione di Cauchy. La maggior parte dei tuoi campioni non ha molte osservazioni alla coda (cioè lontano dalla media del campione). Così empiricamente è molto difficile distinguere tra i tre, quindi il Cauchy (ha una media indefinita) e il Levy (ha una media infinita) potrebbe facilmente mascherarsi come una distribuzione normale.


1
"... empiricamente è molto difficile ..." sembra discutere contro , piuttosto che per , i test distributivi. Questo è strano da leggere in un paragrafo la cui introduzione suggerisce che ci sono davvero degli usi per i test distributivi. Che cosa stai davvero cercando di dire qui?
whuber

3
Sono contrario, ma voglio anche stare attento a dire che è inutile in quanto non conosco l'intera serie di possibili scenari là fuori. Esistono molti test che dipendono dal presupposto della normalità. Dire che il test di normalità è inutile è essenzialmente il debug di tutti i test statistici in quanto si dice che non si è sicuri di utilizzare / fare la cosa giusta. In tal caso non dovresti farlo, non dovresti fare questa ampia sezione di statistiche.
Kolonel,

Grazie. Le osservazioni in quel commento sembrano essere più focalizzate sulla domanda rispetto alla tua risposta originale! Potresti considerare di aggiornare la tua risposta ad un certo punto per rendere più chiare le tue opinioni e i tuoi consigli.
whuber

@whuber Nessun problema. Mi può consigliare una modifica?
Kolonel,

Potresti iniziare combinando i due post - la risposta e il tuo commento - e poi pensare a eliminare (o retrocedere in un'appendice o chiarire) qualsiasi materiale che possa essere tangenziale. Ad esempio, il riferimento a undefined significa che non ha ancora una chiara influenza sulla questione e quindi rimane in qualche modo misterioso.
whuber

7

Penso che alle prime 2 domande sia stata data una risposta completa, ma non credo che la domanda 3 sia stata affrontata. Molti test confrontano la distribuzione empirica con una distribuzione ipotizzata nota. Il valore critico per il test di Kolmogorov-Smirnov si basa sulla completa specificazione di F. Può essere modificato per testare una distribuzione parametrica con parametri stimati. Quindi, se fuzzier significa stimare più di due parametri, allora la risposta alla domanda è sì. Questi test possono essere applicati a 3 o più famiglie di parametri. Alcuni test sono progettati per avere una potenza maggiore durante i test su una specifica famiglia di distribuzioni. Ad esempio, durante il test della normalità, il test Anderson-Darling o Shapiro-Wilk ha un potere maggiore di KS o chi square quando la distribuzione ipotizzata nulla è normale.


5

Prove in cui "qualcosa" importante per l'analisi è supportato da alti valori p se penso che sia sbagliato. Come altri hanno sottolineato, per set di dati di grandi dimensioni, è garantito un valore p inferiore a 0,05. Quindi, il test essenzialmente "premia" per insiemi di dati piccoli e sfocati e "ricompensa" per mancanza di prove. Qualcosa come i grafici qq sono molto più utili. Il desiderio di numeri difficili di decidere sempre cose come queste (sì / no normali / non normali) manca che la modellazione sia parzialmente un'arte e come le ipotesi siano effettivamente supportate.


2
Resta che un campione di grandi dimensioni che è quasi normale avrà un basso valore di p, mentre un campione più piccolo che non è quasi normale normalmente non lo farà. Non penso che siano utili grandi valori p. Ancora una volta, premiano per la mancanza di prove. Posso avere un campione con diversi milioni di punti dati e quasi sempre rifiuterà l'assunzione di normalità in questi test mentre un campione più piccolo no. Pertanto, li trovo non utili. Se il mio pensiero è imperfetto, mostralo usando un ragionamento deduttivo su questo punto.
wvguy8258,

Questo non risponde affatto alla domanda.
SmallChess,

-2

Un buon uso del test di normalità che non credo sia stato menzionato è quello di determinare se l'uso di punteggi z va bene. Supponiamo che tu abbia selezionato un campione casuale da una popolazione e desideri trovare la probabilità di selezionare un individuo casuale dalla popolazione e ottenere un valore pari o superiore a 80. Questo può essere fatto solo se la distribuzione è normale, perché per usare i punteggi z, si presume che la distribuzione della popolazione sia normale.

Ma poi immagino di poter vedere anche questo discutibile ...


Valore di cosa? Media, somma, varianza, un'osservazione individuale? Solo l'ultimo si basa sulla presunta normalità della distribuzione.
whuber

intendevo individuo
Hotaka,

2
Grazie. La tua risposta rimane così vaga, tuttavia, che è difficile dire a quali procedure ti stai riferendo e impossibile valutare se le tue conclusioni sono valide.
whuber

2
Il problema con questo uso è lo stesso di altri usi: il test dipenderà dalla dimensione del campione, quindi è essenzialmente inutile. Non ti dice se puoi usare i punteggi z.
Peter Flom
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.