Cosa fa esattamente un test non parametrico e cosa fai con i risultati?


22

Ho la sensazione che questo potrebbe essere stato chiesto altrove, ma non proprio con il tipo di descrizione di base di cui ho bisogno. So che non parametrici si basa sulla mediana invece che sulla media per confrontare ... qualcosa. Credo anche che si basi sui "gradi di libertà" (?) Anziché sulla deviazione standard. Correggimi se sbaglio, però.

Ho fatto delle ricerche abbastanza buone, o almeno così pensavo, cercando di capire il concetto, cosa sta dietro il funzionamento, cosa significano veramente i risultati del test e / o cosa fare anche con i risultati del test; tuttavia, nessuno sembra mai avventurarsi in quella zona.

Per semplicità, atteniamoci al test a U di Mann-Whitney, che ho notato molto popolare (e anche apparentemente abusato e abusato anche per forzare il proprio "modello quadrato in un foro circolare"). Se vuoi descrivere anche gli altri test, sentiti libero, anche se una volta che ne ho capito uno mi sento in grado di capire gli altri in modo analogo verso i vari test t, ecc.

Diciamo che eseguo un test non parametrico con i miei dati e ottengo questo risultato:

2 Sample Mann-Whitney - Customer Type       

Test Information        
H0: Median Difference = 0       
Ha: Median Difference ≠ 0       

Size of Customer    Large   Small
Count                    45    55
Median                    2     2

Mann-Whitney Statistic: 2162.00 
p-value (2-sided, adjusted for ties):   0.4156  

Conosco altri metodi, ma cosa c'è di diverso qui? Dovremmo desiderare che il valore p sia inferiore a 0,05? Che cosa significa "statistica di Mann-Whitney"? C'è qualche utilità per questo? Queste informazioni qui verificano o non verificano che una determinata fonte di dati che ho dovrebbe o non debba essere utilizzata?

Ho una discreta esperienza con la regressione e le basi, ma sono molto curioso di questa roba "speciale" non parametrica, che so che avrà i suoi difetti.

Immagina solo di essere in quinta elementare e vedi se puoi spiegarmelo.


4
Sì, l'ho letto molte volte. A volte il gergo che utilizza Wikipedia può diventare travolgente e sebbene abbia una descrizione accurata - non ha necessariamente una descrizione chiara per qualcuno che sta iniziando a provare a imparare l'area. Non sono sicuro di chi abbia effettuato il downgrade, ma voglio legittimamente solo una spiegazione di base, CHIARA, che quasi tutti possano capire. Sì, ho cercato di trovare uno che ci crediate o no. Non c'è bisogno di ridimensionarmi istantaneamente e collegarmi a Wikipedia. Qualcuno ha mai notato come alcuni insegnanti siano migliori di altri? Sto cercando un buon "insegnante" per un concetto su cui sono bloccato.
Taal,

1
Passa quindi a un buon testo di base di statistiche non parametriche come Sprent e Smeeton, Hollander e Wolfe, Conover. o trova un testo introduttivo che includa Mann-Whitney.
Nick Cox,

1
Dall'esaminare la tua domanda e l'altra domanda che hai fatto di recente utilizzando Internet da solo non funziona bene per te, poiché sei evidentemente molto confuso. Ecco perché @Peter Flom e io stiamo raccomandando libri. Non ho altri suggerimenti in riserva. Consiglierei anche - sinceramente e nel tuo interesse - di provare a scrivere domande molto più concise e meno loquaci. Il tuo stile digressivo non aiuta a chiarire le tue domande.
Nick Cox,

1
Internet da solo funziona davvero meglio di qualsiasi libro o lezione abbia mai fatto per me a dire il vero - e questo vale per qualsiasi argomento. Mi scuso per aver scritto domande "chiacchierone".
Taal,

3
No, non sembra funzionare bene come un buon libro. Per parafrasare Stephen Senn, è strano che la statistica sia l'unica scienza che le persone chiedono di essere comprensibile a prima vista.
Frank Harrell,

Risposte:


41

So che non è parametrico si basa sulla mediana invece che sulla media

Quasi nessun test non parametrico in realtà "si basa su" mediane in questo senso. Posso solo pensare a una coppia ... e l'unico che mi aspetto che tu abbia mai sentito parlare sarebbe il test dei segni.

per confrontare ... qualcosa.

Se si affidassero alle mediane, presumibilmente sarebbe confrontare le mediane. Ma - nonostante ciò che un certo numero di fonti tenta di dirti - test come il test di rango firmato, o il Wilcoxon-Mann-Whitney o il Kruskal-Wallis non sono affatto un test delle mediane; se fai alcune ipotesi aggiuntive, puoi considerare il Wilcoxon-Mann-Whitney e il Kruskal-Wallis come test di mediana, ma sotto gli stessi presupposti (purché esistano i mezzi distributivi) potresti considerarli ugualmente come un test di mezzi .

La stima della posizione effettiva rilevante per il test del Rank firmato è la mediana delle medie a coppie all'interno del campione, quella per Wilcoxon-Mann-Whitney (e, di conseguenza, nel Kruskal-Wallis) è la mediana delle differenze a coppie tra i campioni .

Credo anche che si basi su "gradi di libertà?" invece di deviazione standard. Correggimi se sbaglio però.

La maggior parte dei test non parametrici non ha "gradi di libertà", sebbene la distribuzione di molti cambi con la dimensione del campione e si potrebbe considerare che è simile ai gradi di libertà nel senso che le tabelle cambiano con la dimensione del campione. I campioni ovviamente mantengono le loro proprietà e hanno n gradi di libertà in questo senso, ma i gradi di libertà nella distribuzione di una statistica test non sono in genere qualcosa di cui ci occupiamo. Può succedere che tu abbia qualcosa di più simile ai gradi di libertà - per esempio, potresti certamente argomentare che il Kruskal-Wallis ha gradi di libertà sostanzialmente nello stesso senso di un chi-quadrato, ma di solito non viene guardato in quel modo (per esempio, se qualcuno parla dei gradi di libertà di un Kruskal-Wallis, quasi sempre significherà il df

Una buona discussione sui gradi di libertà può essere trovata qui /

Ho fatto delle ricerche abbastanza buone, o almeno così ho pensato, cercando di capire il concetto, quali sono i meccanismi alla base, cosa significano davvero i risultati dei test e / o cosa fare anche con i risultati dei test; tuttavia nessuno sembra mai avventurarsi in quella zona.

Non sono sicuro di cosa intendi con questo.

Potrei suggerire alcuni libri, come Practical Nonparametric Statistics di Conover , e se riesci a ottenerlo, il libro di Neave e Worthington ( Test senza distribuzione ), ma ce ne sono molti altri - Marascuilo & McSweeney, Hollander & Wolfe, o il libro di Daniel per esempio. Ti suggerisco di leggere almeno 3 o 4 di quelli che ti parlano meglio, preferibilmente quelli che spiegano le cose nel modo più diverso possibile (ciò significherebbe almeno leggere un po 'di forse 6 o 7 libri per trovare il 3 adatto).

Per semplicità, atteniamoci al test di Mann Whitney U, che ho notato molto popolare

Lo è, ed è quello che mi ha lasciato perplesso sulla tua affermazione "nessuno sembra mai avventurarsi in quella zona" - molte persone che usano questi test si "avventurano nell'area" di cui stavi parlando.

- e anche apparentemente abusato e abusato

Direi che i test non parametrici sono generalmente sottoutilizzati se non altro (incluso Wilcoxon-Mann-Whitney) - soprattutto i test di permutazione / randomizzazione, anche se non avrei mai contestato che sono frequentemente utilizzati in modo improprio (ma lo sono anche i test parametrici, anche di più).

Diciamo che eseguo un test non parametrico con i miei dati e ottengo questo risultato:

[Omissis]

Conosco altri metodi, ma cosa c'è di diverso qui?

Quali altri metodi intendi? Con cosa vuoi che lo paragoni?

Modifica: menzionerai la regressione più tardi; Presumo quindi che tu abbia familiarità con un test t a due campioni (dal momento che è davvero un caso speciale di regressione).

Secondo le ipotesi per il normale test t a due campioni, l'ipotesi nulla ha che le due popolazioni siano identiche, contro l'alternativa che una delle distribuzioni si è spostata. Se osservi la prima delle due serie di ipotesi per il Wilcoxon-Mann-Whitney qui sotto, la cosa di base che viene testata è quasi identica; è solo che il test t si basa sull'ipotesi che i campioni provengano da identiche distribuzioni normali (a parte il possibile spostamento di posizione). Se l'ipotesi nulla è vera e le ipotesi di accompagnamento sono vere, la statistica test ha una distribuzione t. Se l'ipotesi alternativa è vera, allora la statistica test diventa più probabile che prenda valori che non sembrano coerenti con l'ipotesi nulla ma sembrano coerenti con l'alternativa: ci concentriamo sul più insolito,

La situazione è molto simile con Wilcoxon-Mann-Whitney, ma misura la deviazione dal nulla in modo leggermente diverso. In effetti, quando i presupposti del test t sono veri *, è quasi buono quanto il miglior test possibile (che è il test t).

* (che in pratica non lo è mai, anche se non è tanto un problema come sembra)

wmw sotto null e alternativa

In effetti, è possibile considerare Wilcoxon-Mann-Whitney come efficacemente un "test t" eseguito sui ranghi dei dati, sebbene non abbia una distribuzione t; la statistica è una funzione monotonica di una statistica t a due campioni calcolata sui ranghi dei dati, quindi induce lo stesso ordinamento ** sullo spazio campione (ovvero un "test t" sui ranghi - eseguito in modo appropriato - genererebbe gli stessi valori di p di un Wilcoxon-Mann-Whitney), quindi rifiuta esattamente gli stessi casi.

** (rigorosamente, ordinazione parziale, ma lasciamolo da parte)

[Penseresti che il solo utilizzo dei gradi significherebbe gettare via molte informazioni, ma quando i dati sono estratti da popolazioni normali con la stessa varianza, quasi tutte le informazioni sul cambio di posizione sono negli schemi dei ranghi. I valori dei dati effettivi (a seconda del loro grado) aggiungono pochissime informazioni aggiuntive a questo. Se vai più pesante del normale, non passa molto tempo prima che il test Wilcoxon-Mann-Whitney abbia un potere migliore, oltre a mantenere il suo livello di significatività nominale, in modo che le informazioni "extra" sopra i ranghi alla fine diventino non solo non informative ma in alcuni senso, fuorviante. Tuttavia, la coda pesante quasi simmetrica è una situazione rara; ciò che vedi spesso in pratica è l'asimmetria.]

Le idee di base sono abbastanza simili, i valori di p hanno la stessa interpretazione (la probabilità di un risultato come, o più estrema, se l'ipotesi nulla fosse vera) - fino all'interpretazione di uno spostamento di posizione, se si effettua i presupposti necessari (vedere la discussione delle ipotesi verso la fine di questo post).

Se avessi fatto la stessa simulazione dei grafici sopra per il test t, i grafici sarebbero molto simili: la scala sugli assi X e Y sarebbe diversa, ma l'aspetto di base sarebbe simile.

Dovremmo desiderare che il valore p sia inferiore a 0,05?

Non dovresti "volere" nulla lì. L'idea è di scoprire se i campioni sono più diversi (in un senso della posizione) di quanto possa essere spiegato per caso, non "desiderare" un risultato particolare.

Se dico "Puoi andare a vedere che macchina di colore del Raj è per favore?", Se voglio una valutazione imparziale di esso io non voglio che si reca "L'uomo, davvero, davvero spero è blu! E 'solo deve essere blu". Meglio vedere qual è la situazione, piuttosto che entrare in qualche "ho bisogno che sia qualcosa".

Se il livello di significatività scelto è 0,05, respingerai l'ipotesi nulla quando il valore p è inferiore a 0,05. Ma l'incapacità di rifiutare quando si ha una dimensione del campione abbastanza grande da rilevare quasi sempre le dimensioni degli effetti rilevanti è almeno altrettanto interessante, perché afferma che le differenze esistenti sono piccole.

Cosa significa il numero "mann whitley"?

La statistica di Mann-Whitney .

È davvero significativo solo se paragonato alla distribuzione dei valori che può assumere quando l'ipotesi nulla è vera (vedere il diagramma sopra) e ciò dipende da quale delle diverse definizioni particolari potrebbe essere utilizzata da un determinato programma.

C'è qualche utilità per questo?

Di solito non ti interessa il valore esatto in quanto tale, ma dove si trova nella distribuzione nulla (se è più o meno tipico dei valori che dovresti vedere quando l'ipotesi nulla è vera o se è più estrema)

P(X<Y)

Questi dati qui verificano o non verificano che una determinata fonte di dati che ho dovrebbe o non debba essere utilizzata?

Questo test non dice nulla su "una particolare fonte di dati che dovrei o non dovrei usare".

Vedi la mia discussione sui due modi di vedere le ipotesi WMW di seguito.

Ho una discreta esperienza con la regressione e le basi, ma sono molto curioso di questa roba "speciale" non parametrica

Non c'è nulla di particolarmente speciale nei test non parametrici (direi che quelli "standard" sono per molti versi anche più basilari dei test parametrici tipici) - a condizione che tu capisca effettivamente il test delle ipotesi.

Questo è probabilmente un argomento per un'altra domanda, tuttavia.


Esistono due modi principali per esaminare il test di ipotesi di Wilcoxon-Mann-Whitney.

i) Uno è di dire "Sono interessato allo spostamento di posizione - cioè che sotto l'ipotesi nulla, le due popolazioni hanno la stessa distribuzione (continua) , contro l'alternativa che si è" spostati "verso l'alto o verso il basso rispetto al altro"

Wilcoxon-Mann-Whitney funziona molto bene se fai questo assunto (che la tua alternativa è solo un cambio di posizione)

In questo caso, il Wilcoxon-Mann-Whitney in realtà è un test per i mediani ... ma allo stesso modo è un test per i mezzi, o in effetti qualsiasi altra statistica equivalente all'ubicazione (90 ° percentili, per esempio, o mezzi tagliati, o qualsiasi numero di altre cose), poiché sono tutti influenzati allo stesso modo dal cambio di posizione.

La cosa bella di questo è che è molto facilmente interpretabile - ed è facile generare un intervallo di confidenza per questo spostamento di posizione.

spostamento di posizione

Tuttavia, il test di Wilcoxon-Mann-Whitney è sensibile ad altri tipi di differenza rispetto a un cambiamento di posizione.

1212

spostamento in P (X <Y) da 1/2


Ho disegnato la distribuzione nulla approssimativa (quella in rosso nel nuovo grafico più in alto) come se fosse continua ... ma la distribuzione effettiva è discreta. L'immagine è meno ingombra in questo modo.
Glen_b -Restate Monica

3
+1 Ottima risposta. Una delle spiegazioni migliori e più accessibili del test di Wilcoxon-Mann-Whitney che conosco. Grazie.
COOLSerdash

"In questo caso, il Wilcoxon-Mann-Whitney in realtà è un test per i mediani ... ma allo stesso modo è un test per i mezzi" Tuttavia, alcune distribuzioni non hanno mezzi mentre la loro mediana è ben definita (ad esempio Cauchy).
Caracal,

@caracal Anche se è vero (è un punto che ho sollevato più volte qui), se i test di qualcuno per l'uguaglianza della popolazione significano, presumibilmente già presumono che i mezzi della popolazione siano limitati. In caso contrario, hanno un problema ben prima di arrivare al punto di scegliere un test. Partendo dal presupposto che esiste un'ipotesi di uguali (e quindi limitati) mezzi della popolazione, con le stesse assunzioni che vengono solitamente utilizzate per renderlo un test di mediane (alternative di spostamento), il WMW è anche un test di mezzi.
Glen_b

17

Supponiamo che tu e io stiamo allenando le squadre di atletica. I nostri atleti provengono dalla stessa scuola, hanno età simili e lo stesso sesso (cioè sono tratti dalla stessa popolazione), ma sostengo di aver scoperto un nuovo rivoluzionario sistema di allenamento che farà correre i membri del mio team molto più velocemente di il tuo. Come posso convincerti che funziona davvero?

Abbiamo una gara.

Successivamente, mi siedo e calcolo il tempo medio per i membri del mio team e il tempo medio per i membri del tuo team. Rivendicherò la vittoria se il tempo medio per i miei atleti non è solo più veloce della media per i tuoi, ma la differenza è anche grande rispetto alla "dispersione", o deviazione standard, dei nostri risultati.


t


"Ma Matt", ti lamenti, "non è abbastanza giusto. Le nostre squadre sono abbastanza simili, ma tu, per pura probabilità, sei finito con il corridore più veloce del distretto. Non è nella stessa lega di tutti altrimenti, è praticamente un maniaco della natura. Ha finito 3 minuti prima del prossimo finisher più veloce, il che riduce molto il tempo medio, ma il resto dei concorrenti è abbastanza uniformemente mescolato. Vediamo invece l'ordine di finitura. Se il tuo metodo funziona davvero, i primi arrivati ​​dovrebbero essere per lo più della tua squadra, ma in caso contrario l'ordine di arrivo dovrebbe essere piuttosto casuale. Questo non dà peso eccessivo alla tua super star! "


t

p

ttt


In realtà hai risposto alla mia domanda esattamente nel modo, e intendo esattamente, nel modo in cui volevo che rispondesse. Glen si sporse anche dal punto di vista matematico e la combinazione di queste due risposte mi fece scattare. Non posso togliergli la ricompensa però - voglio dire ... sta disegnando grafici, nonostante la chiarezza della tua risposta. Ho la sensazione che tu abbia avuto una sorta di lavoro di insegnante in passato. So che potrebbero esserci delle generalizzazioni nelle risposte qui, ma sapevo che non dovevo comprare un libro e studiarlo intensamente per iniziare ad essere in grado di applicare praticamente non parametrici ad un certo livello
Taal

t

L'ironia di tutto ciò è che probabilmente non lo userò affatto, mi dava solo fastidio non riuscire a ottenere una risposta diretta su cosa fosse. La risposta di Glen è molto più di quanto mi aspettassi e ottenuto in origine: le migliori risposte che sento di non poter descrivere in quanto qualsiasi descrizione si rivelerebbe inadeguata. Come dire a qualcuno che aspetto ha il colore blu. Se hai letto qualcosa del whuber, sembra che potresti avere un sapore simile ...
Taal


6

Hai chiesto di essere corretto se sbagliato. Ecco alcuni commenti sotto quella rubrica per integrare i suggerimenti positivi di @Peter Flom.

  • "non parametrico si basa sulla mediana anziché sulla media": spesso in pratica, ma questa non è una definizione. Numerosi test non parametrici (ad esempio chi-quadrato) non hanno nulla a che fare con le mediane.

  • si basa su gradi di libertà anziché su deviazione standard; è molto confuso. L'idea dei gradi di libertà non è in alcun senso un'alternativa alla deviazione standard; gradi di libertà come idea si applicano proprio attraverso le statistiche.

  • "una particolare fonte di dati che dovrei o non dovrei usare": questa domanda non ha nulla a che fare con il test di significatività che hai applicato, che riguarda solo la differenza tra sottoinsiemi di dati ed è formulato in termini di differenza tra mediane.


Credo che la tua opinione su di me chiedendo di "essere corretto dove sbagliato" è stata la migliore risposta finora. Suppongo di aver bisogno di alcune ipotesi nulle confutate o di apprendere mediante un processo di eliminazione. La tua risposta mi ha dato nuove informazioni che capisco - ci sono ancora alcuni buchi nella mia comprensione dell'argomento, ma non posso aspettarmi la perfezione. Forse quei buchi sono più grandi di quanto inizialmente previsto quando scrivevo questa domanda e stackexchange non sarebbe sufficiente, non importa quanto "chiacchierone" ho fatto la domanda.
Taal,

4

"Vuoi" le stesse cose da un valore p qui che vuoi in qualsiasi altro test.

La statistica U è il risultato di un calcolo, proprio come la statistica t, il rapporto di probabilità, la statistica F o quello che hai. La formula può essere trovata in molti posti. Non è molto intuitivo, ma poi non lo sono nemmeno le altre statistiche di test fino a quando non ti ci abitui (riconosciamo a 2 come nel range significativo perché le vediamo sempre).

Il resto dell'output nel testo del blocco dovrebbe essere chiaro.

Per un'introduzione più generale ai test non parametrici, faccio eco a @NickCox .... ottengo un buon libro. Non parametrico significa semplicemente "senza parametri"; ci sono molti test non parametrici e statistiche per una vasta gamma di scopi.


Sì, idealmente, un buon libro sarebbe di aiuto; tuttavia, non sembra necessario con le risorse di oggi (come stackexchange), wikipedia (a volte), la concorrenza sul mercato di YouTube (lo sapevi che per ogni milione di visualizzazioni qualcuno riceve $ 4000?), così come una varietà di altre risorse. In generale, proprio come il mio stile di apprendimento, fallisco abbastanza anche nell'apprendimento semplice del libro.
Taal,

1
Apprezzo il tuo post, tuttavia in realtà ripete già la maggior parte di ciò che già so o avevo purtroppo presunto. Sembra esserci una sorta di modello in cui quasi ogni spiegazione che ottengo si ferma in questo punto specifico. Forse questo punto è dove diventa troppo complesso da spiegare o troppo sforzo - non ne sono sicuro. Ad ogni modo, è un modello che ho sperimentato da ogni fonte di informazioni che normalmente utilizzo - che ironicamente ribadirebbe la dichiarazione del libro di tutti. Forse non mi ero reso conto che la risposta fosse così complessa; poi di nuovo ho visto una risposta intensa su SE.
Taal,

2
Prima ci chiedi di semplificare, poi ti lamenti che le nostre risposte sono semplici! Se vuoi capire la formula per U (o qualsiasi altra cosa) GUARDA. Se vuoi qualcosa di semplice, non chiedere complessità! La voce di Wikipedia è una voce eccellente e dettagliata con tutti i dettagli. Non lo capisci Così. Cosa vuoi?
Peter Flom - Ripristina Monica

1
Suppongo che nel mezzo. Devo ammettere che non sono il migliore a comunicare e posso capire che sei frustrato, eh. È una mia caratteristica di cui sono davvero consapevole. Ad essere sincero, penso che dovrò pensare a ciò che voglio davvero - poiché è quasi come se stessi cercando di spostare la domanda abbastanza da dove si sovrappone in un'area di cui non ero a conoscenza o che non conoscevo in precedenza di. È difficile chiedere qualcosa che non capisci in generale. Devo solo tornare a questo, suppongo.
Taal,

1

Come risposta a una domanda recentemente chiusa , anche questo si occupa di quanto sopra. Di seguito una citazione dai classici test statistici senza distribuzione di Bradley (1968, pagg. 15-16) che, sebbene un po 'lungo, è una spiegazione abbastanza chiara, credo.

I termini non parametrici e senza distribuzione non sono sinonimi e norterm fornisce una descrizione del tutto soddisfacente della classe di statistiche a cui si intende fare riferimento. In termini approssimativi, un test non parametrico è uno che non fa ipotesi sul valore di un parametro in una funzione di densità statistica, mentre un test senza distribuzione è uno che non fa ipotesi sulla forma precisa della popolazione campionata. Le definizioni non si escludono a vicenda e un test può essere sia privo di distribuzione sia parametrico ... Per essere del tutto chiaro su cosa si intende per distribuzione libera, è necessario distinguere tra tre distribuzioni: popolazione campionata; (b) quella della caratteristica di osservazione effettivamente utilizzata dalla prova; e (c) quello della statistica di prova. La distribuzione da cui i test sono "liberi" è quella di (a), la popolazione campionata. E la libertà di cui godono è di solito relativa. né c'è nessun altro attributo di popolazione fortemente legato alla variabile. Anziché né c'è nessun altro attributo di popolazione fortemente legato alla variabile. Anziché né c'è nessun altro attributo di popolazione fortemente legato alla variabile. Anzichéle caratteristiche collegate al campione delle osservazioni ottenute ... forniscono le informazioni utilizzate dalla statistica del test ... Pertanto, mentre i test sia parametrici che non parametrici richiedono che la forma di una distribuzione, associata alle osservazioni, sia pienamente nota, tale conoscenza, nel caso parametrico, non è generalmente di prossima pubblicazione, pertanto la distribuzione richiesta delle magnitudini deve essere "assunta" o dedotta sulla base di informazioni approssimative o incomplete. Nel caso non parametrico, dall'altro, la distorsione della caratteristica di osservazionedi solito è noto precisamente da considerazioni a priori e non è necessario, pertanto, essere "assunto". La differenza, quindi, non è dovuta al requisito ma piuttosto a ciò che è richiesto e alla certezza che il requisito sarà soddisfatto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.