"Reversed" Shapiro – Wilk


11

Il test Sharipo-Wilk, secondo Wikipedia , verifica l'ipotesi nulla ( ) "La popolazione è normalmente distribuita".H0

Sto cercando un test di normalità simile con "La popolazione non è normalmente distribuita".H0

Avendo un tale test, voglio calcolare un valore per rifiutare a livello di significatività iff ; dimostrando che la mia popolazione è normalmente distribuita.H 0 α p < αpH0αp<α

Si noti che l'utilizzo del test Sharipo-Wilk e l'accettazione di iff è un approccio errato poiché significa letteralmente "non abbiamo prove sufficienti per dimostrare che H0 non regge". p > αH0p>α

Discussioni correlate - significato di -valuep , il test di normalità è inutile? , ma non riesco a vedere una soluzione al mio problema.

Le domande: quale test dovrei usare? È implementato in R?


6
Un'ipotesi nulla di "non distribuito normalmente" non è utilizzabile. Questo spazio includerebbe tutte le distribuzioni arbitrariamente vicine, ma non del tutto, alle normali distribuzioni. Mi dai qualsiasi set di dati finito. Seleziono la distribuzione empirica, che non è normale, e quindi appartiene allo spazio nullo. Impossibile rifiutare.
A. Webb,

5
Questa domanda, che è la stessa della precedente, chiede l'impossibile. Una risposta adeguata spiegherebbe come funzionano i test statistici di ipotesi, motivo per cui ti ho indicato stats.stackexchange.com/questions/31 in un commento all'altra tua domanda.
whuber

5
Mentre un'ipotesi nulla "non normalmente distribuita" è impossibile, un'ipotesi nulla "è distribuita con valori assoluti di statistica della bontà di adattamento che è almeno diversa da " lungo le linee di un test di equivalenza. In altre parole, si dovrebbe essere in grado di testare contro un nulla di "non normale, almeno per questo ." @gung ha suggerito proprio questo nella sua risposta. ε
Alexis,

Risposte:


10

Non esiste una cosa come una prova che i dati sono distribuiti normalmente. Esistono solo test che i tuoi dati non sono normalmente distribuiti. Quindi, ci sono test come lo Shapiro-Wilk in cui (ce ne sono molti altri), ma nessun test in cui il nulla è che la popolazione non è normale e l'ipotesi alternativa è che la popolazione è normale. H0:normal

Tutto quello che puoi fare è capire che tipo di deviazione dalla normalità ti interessa (ad esempio, l'asimmetria) e quanto grande dovrebbe essere tale deviazione prima che ti dia fastidio. Quindi potresti testare per vedere se la deviazione dalla perfetta normalità nei tuoi dati era inferiore alla quantità critica. Per ulteriori informazioni sull'idea generale, potrebbe essere utile leggere la mia risposta qui: Perché gli statistici dicono che un risultato non significativo significa "non puoi rifiutare il nulla" invece di accettare l'ipotesi nulla?


5

Voglio calcolare un valore p per rifiutare H0 al livello di significatività α iff p <α; dimostrando che la mia popolazione è normalmente distribuita.

La distribuzione normale sorge quando i dati sono generati da una serie di eventi iid additivi (vedere l'immagine di quinconce di seguito). Ciò significa che non ci sono feedback né correlazioni, sembra il processo che guida i tuoi dati? In caso contrario, probabilmente non è normale.

Vi è la possibilità che si verifichi il tipo di processo nel tuo caso. Il più vicino a cui puoi arrivare a "provare" è raccogliere dati sufficienti per escludere qualsiasi altra distribuzione che le persone possano inventare (il che probabilmente non è pratico). Un altro modo è quello di dedurre la normale distribuzione da alcune teorie insieme ad altre previsioni. Se i dati sono coerenti con tutti loro e nessuno può pensare a un'altra spiegazione, questa sarebbe una buona prova a favore della normale distribuzione.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Ora, se non ti aspetti una distribuzione specifica a priori, può essere ragionevole usare la distribuzione normale per riassumere i dati, ma riconosci che questa è essenzialmente una scelta per ignoranza ( https://en.wikipedia.org/wiki/ Principio_di_massima_entropia ). In questo caso non vuoi sapere se la popolazione è normalmente distribuita, piuttosto vuoi sapere se la distribuzione normale è un'approssimazione ragionevole per qualunque sarà il tuo prossimo passo.

In tal caso dovresti fornire i tuoi dati (o dati generati simili) insieme a una descrizione di ciò che prevedi di farne, quindi chiedi "In che modo può assumere che la normalità in questo caso mi induca in errore?"


In realtà so che i dati sono normali (misurazione indipendente su computer indipendenti), tuttavia ho bisogno di fare un presupposto per la mia tesi .. grazie per chiarimenti ed esempio :)
petrbel

1
Per inciso, Krieger ha fornito una bella critica degli usi del Quincunx di Galton a Krieger, N. (2012). Chi e che cos'è una "popolazione"? dibattiti storici, attuali controversie e implicazioni per la comprensione della "salute della popolazione" e la correzione delle disuguaglianze sanitarie. The Milbank Quarterly , 90 (4): 634–681.
Alexis,

@petrbel Questa situazione è sottilmente diversa da quella sopra descritta. Puoi escogitare un quinconce in cui ogni osservazione è idonea, ma il processo che genera i dati non lo è. Vedi qui per un esempio log-normale: LIMPERT et al. Distribuzioni log-normali tra le scienze: chiavi e indizi. Maggio 2001 / Vol. 51 n. 5. BioScience.
Livido

1
@Alexis Vedo che Krieger (2012) riproduce la figura di Limpert et al. (2001) e sottolinea il punto mancato da Petrbel: "l'alterazione della struttura può cambiare le probabilità di risultato, anche per oggetti identici, creando così diverse distribuzioni di popolazione".
Livido

2

Non sarai mai in grado di "provare" un'ipotesi di normalità nei tuoi dati. Offri prove contro di essa solo come un presupposto. Il test di Shapiro-Wilk è un modo per farlo e viene usato continuamente per giustificare l'assunto della Normalità. Il ragionamento è che si inizia assumendo la normalità. Mi chiedi allora, i miei dati suggeriscono che sto facendo un'ipotesi sciocca? Quindi vai avanti e provalo con Shapiro-Wilk. Se non riesci a respingere l'ipotesi nulla, i dati non suggeriscono che stai facendo un'assunzione sciocca.

Nota, le persone usano questa logica simile tutto il tempo in pratica, non solo nel contesto del test di Shapiro-Wilk. Vogliono usare la regressione lineare, guardare un diagramma a dispersione e vedere se la regressione lineare è un'idea sciocca. Oppure, assumono l'eteroscedasticità e descrivono i termini di errore per vedere se questa è un'idea sciocca.Y,X


Quella pratica che descrivi è esattamente l'approccio errato citato da Petrbel. I test sono generalmente coerenti, quindi maggiore è la dimensione del campione, maggiore è la probabilità di dichiarare che l'assunzione della normalità è un'idea sciocca. Questo è di per sé sciocco, perché con campioni di dimensioni maggiori, l'assunzione della normalità è meno critica a causa della robustezza asintotica della maggior parte delle procedure.
Horst Grünbusch,

@ HorstGrünbusch Non sei d'accordo sul fatto che il test di Shapiro-Wilk sia un modo valido per testare il presupposto che i dati siano normali?
TrynnaDoStat

Se sei d'accordo che si tratta di un approccio valido, non sono sicuro di cosa non sia d'accordo con la mia risposta.
TrynnaDoStat,

No. Vedi gli argomenti qui: stats.stackexchange.com/questions/2492/… . Inoltre, non è valido testare l'ipotesi nulla che due campioni abbiano la stessa varianza e utilizzare il test Satterthwaite solo se le varianze sono significativamente diverse, oppure il test t per i campioni omoschedastici. Simula da solo questa procedura composita: puoi generare tassi di errore di tipo I fino a . 2α
Horst Grünbusch,

@ HorstGrünbusch Sembra che il tuo problema con la mia risposta abbia a che fare con l'idea del test di ipotesi in generale. In particolare, il fatto che in molte situazioni i test di ipotesi respingano il nulla con probabilità 1 quando la dimensione del campione si avvicina all'infinito.
TrynnaDoStat,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.