Perché i legami sono così difficili nelle statistiche non parametriche?


14

Il mio testo non parametrico , Statistiche pratiche non parametriche , spesso fornisce formule chiare per aspettative, scostamenti, statistiche dei test e simili, ma include l'avvertenza che questo funziona solo se ignoriamo i legami. Quando si calcola la statistica U di Mann-Whitney, si consiglia di eliminare le coppie legate quando si confronta quale è più grande.

Capisco che i legami non ci dicono molto su quale popolazione è più grande (se è quello che ci interessa) dal momento che nessuno dei due gruppi è più grande dell'altro, ma non sembra che ciò abbia importanza nello sviluppo di distribuzioni asintotiche.

Perché allora è un tale dilemma affrontare i legami in alcune procedure non parametriche? Esiste un modo per estrarre informazioni utili dai legami, anziché semplicemente buttarli via?

EDIT: Per quanto riguarda il commento di @ whuber, ho ricontrollato le mie fonti e alcune procedure utilizzano una media di ranghi invece di eliminare completamente i valori associati. Sebbene ciò sembri più sensato in riferimento alla conservazione delle informazioni, mi sembra anche che manchi di rigore. Lo spirito della domanda è ancora valido.


Stai dicendo che le statistiche pratiche non parametriche ti dicono di " buttare via " i dati quando sono collegati? Potresti forse interpretare male i suoi consigli? Potresti citarlo esattamente?
whuber

Sì, è possibile che io abbia interpretato male il consiglio. Dallo stesso autore: jstor.org/stable/2284536 "Wilcoxon ha suggerito di eliminare inizialmente gli zeri dai dati e di eseguire il test sull'insieme ridotto di dati. Se non ci sono legami diversi da zero, questa procedura si traduce in una condizione (dato il numero di zeri) test gratuito di distribuzione e consente di utilizzare le tabelle esatte esistenti di valori critici. Per questo motivo, la maggior parte dei libri sulle statistiche non parametriche incorporano il metodo di Wilcoxon nella loro descrizione del test "
Christopher Aden,

Certo, questo è in riferimento al test Wilcoxon Signed Rank, ma ho sentito consigli simili usati in altre procedure NP. Per quanto riguarda l'esempio di Mann-Whitney, sono tornato indietro e ho controllato nel libro, e hai ragione sul fatto che mi sbaglio. Con Mann-Whitney, il libro raccomanda di fare una media dei ranghi dei valori legati, cioè: se i ranghi 6 e 7 sono legati, assegnando a ciascuno un valore di 6,5.
Christopher Aden,

2
Grazie. Esistono modi rigorosi per tenere conto dei gruppi collegati. Sono importanti quando si lavora con dati censurati (ma continui), perché spesso i valori censurati costituiscono un grande gruppo legato. Per i test di somma dei ranghi di Kruskal-Wallis e Wilcoxon, vedere il capitolo 18 di RO Gilbert, * Metodi statistici per il monitoraggio dell'inquinamento ambientale. "Le formule che coinvolgono dati collegati possono diventare complicate, ma in alcuni casi (come il test KW) tutto ciò che devi fare viene calcolato un tavolo ANOVA per i ranghi.
whuber

Risposte:


14

La maggior parte del lavoro sui non parametrici è stata originariamente fatta supponendo che ci fosse una distribuzione continua sottostante in cui i legami sarebbero impossibili (se misurati con precisione sufficiente). La teoria può quindi basarsi sulle distribuzioni delle statistiche degli ordini (che sono molto più semplici senza vincoli) o su altre formule. In alcuni casi la statistica risulta essere approssimativamente normale, il che rende le cose davvero facili. Quando vengono introdotti dei legami perché i dati sono stati arrotondati o sono naturalmente discreti, le ipotesi standard non valgono. L'approssimazione può essere ancora abbastanza buona in alcuni casi, ma non in altri, quindi spesso la cosa più semplice da fare è solo avvertire che queste formule non funzionano con i legami.

Esistono strumenti per alcuni dei test non parametrici standard che hanno elaborato la distribuzione esatta in presenza di legami. Il pacchetto correctRankTests per R è un esempio.

Un modo semplice per gestire i legami è usare i test di randomizzazione come i test di permutazione o il bootstrap. Questi non si preoccupano delle distribuzioni asintotiche, ma usano i dati così come sono, i legami e tutto il resto (nota che con molti legami, anche queste tecniche possono avere un basso potere).

Qualche anno fa c'era un articolo (pensavo nello Statistico americano, ma non lo trovo) che parlava delle idee sui legami e di alcune cose che puoi fare con loro. Un punto è che dipende da quale domanda ti stai ponendo, cosa fare con i legami può essere molto diverso in un test di superiorità rispetto a un test di non inferiorità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.