Posso usare i test di permutazione per evitare il problema del confronto multiplo nel contesto delle proporzioni?


9

Sto valutando l'efficacia di 5 diversi metodi per prevedere un determinato risultato binario (chiamali "Successo" e "Fallimento"). I dati sembrano così:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Vorrei eseguire un test tra questi 5 metodi per valutare la superiorità relativa dei metodi. In altre parole, voglio ordinare i metodi in ordine di prestazione come metodo 1> metodo 2> ... metodo 5. Per evitare il problema di confronti multipli, ho intenzione di fare un test di permutazione secondo le seguenti linee:

Passaggio 1: raggruppare tutti i dati in modo che la dimensione complessiva del campione sia 114 con 37 successi complessivi.

Passaggio 2: dividere casualmente i dati in 5 gruppi con le corrispondenti dimensioni del campione di 28, 19, 24, 21 e 22.

Passaggio 3: incrementare un contatore se l'ordine osservato di Percent_Success dal passaggio 2 è coerente con l'ordinamento dei miei dati.

Passaggio 4: ripetere più volte i passaggi 2 e 3 (ad esempio 10000).

Valore p desiderato = Valore del contatore finale / 10000.

Domande:

  1. La procedura sopra descritta va bene?

  2. C'è qualcosa in R che mi consentirebbe di eseguire il test sopra?

  3. Eventuali suggerimenti per il miglioramento o metodi alternativi sarebbero utili.


@whuber Hai forse un codice R da condividere su come hai fatto?
B_Miner,

Risposte:


6

La procedura proposta non risponde alla tua domanda. Stima solo la frequenza, secondo l'ipotesi nulla, con cui si verificherebbe il tuo ordine osservato. Ma sotto quel valore nullo, con buona approssimazione, tutti gli ordini sono ugualmente probabili, da cui il tuo calcolo produrrà un valore vicino a 1/5! = circa 0,83%. Questo non ci dice nulla.

Un'altra osservazione ovvia: l'ordine, basato sui tuoi dati, è 4> 5> 3> 2> 1. Le tue stime delle loro superiorità relative sono 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11%, ecc.

Supponiamo ora che la tua domanda riguardi la misura in cui una qualsiasi delle differenze nelle proporzioni potrebbe essere dovuta al caso sotto l'ipotesi nulla di nessuna differenza. Puoi davvero valutare queste dieci domande con un test di permutazione. Tuttavia, in ogni iterazione è necessario tenere traccia di dieci indicatori di differenza relativa in proporzione, non di un indicatore globale dell'ordine totale.(52)=10

Per i tuoi dati, una simulazione con 100.000 iterazioni fornisce i risultati

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

È improbabile che le differenze nelle proporzioni tra il metodo 4 e i metodi 1, 2 e 3 siano dovute al caso (con probabilità stimate rispettivamente 0,03%, 0,37%, 0,88%), ma le altre differenze potrebbero essere. Esistono alcune prove (p = 2,44%) di una differenza tra i metodi 1 e 5. Quindi sembra che si possa avere fiducia nel fatto che le differenze nelle proporzioni coinvolte nelle relazioni 4> 3, 4> 2 e 4> 1 sono tutte positive , e molto probabilmente lo è anche la differenza in 5> 1.


1
Questa è una risposta molto migliore della mia! Temo di non aver letto correttamente la domanda (passaggio 3 in particolare). Ho pensato di eliminare la mia risposta, ma sostengo la maggiore interpretabilità di un approccio bayesiano è che è davvero la classifica a interessare.
Onestop,

Giusto per essere sicuro di aver capito bene- L'indicatore che traccia la differenza relativa tra il metodo 4 e 5 verrà aggiornato ogni volta che vediamo una differenza maggiore di 0,21.
sxv,

@sxv Sì, esatto. (Beh, in realtà ho usato un valore maggiore o uguale. I legami accadono. Penso che includere l'uguaglianza tra i risultati significativi sia la cosa giusta da fare, perché stiamo valutando la probabilità che differenze così grandi o più grandi possano verificarsi per caso.)
whuber

1

La procedura di test di permutazione Monte-Carlo suggerita produrrà un valore p per un test dell'ipotesi nulla che la probabilità di successo sia la stessa per tutti i metodi. Ma ci sono poche ragioni per fare un test di permutazione Monte Carlo qui quando il test di permutazione esatto corrispondente è perfettamente fattibile. Questo è il test esatto di Fisher (beh, alcune persone riservano quel nome per le tabelle 2x2, nel qual caso è un test esatto condizionale). Ho appena digitato i tuoi dati in Stata e -tabi ..., esatto- ha dato p = .0067 (per confronto, il test chi-quadrato di Pearson dà p = .0059). Sono sicuro che esiste una funzione equivalente in R che i guru R presto aggiungeranno.

Se vuoi davvero guardare alla classifica potresti essere il migliore usando un approccio bayesiano, in quanto può dare una semplice interpretazione come la probabilità che ogni metodo sia veramente il migliore, il secondo migliore, il terzo migliore, .... Ciò ha il prezzo di richiedere che tu assegni i priori alle tue probabilità, ovviamente. La stima della massima verosimiglianza dei ranghi è semplicemente l'ordinamento osservato, ma è difficile quantificare l'incertezza nella classifica in un quadro frequentista in un modo che può essere facilmente interpretato, per quanto ne so.

Mi rendo conto di non aver menzionato paragoni multipli, ma non vedo come questo accada.


2
Il test esatto di Fisher e il chi-quadrato di Pearson verificano l'ipotesi nulla che tutti e 5 i metodi siano ugualmente efficaci contro l'alternativa che almeno 1 è migliore degli altri. I valori p mi dicono che il null è rifiutato. Quindi, se voglio scoprire quali metodi sono effettivamente migliori degli altri, non dovrò fare 10 confronti a coppie?
sxv
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.