Sono necessarie correzioni di confronti multipli per "confronti multipli" informali / visivi?


9

Ho una sorta di domanda filosofica su quando è necessaria la correzione multipla del confronto.

Sto misurando un segnale variabile nel tempo continuo (in punti temporali discreti). Di volta in volta si verificano eventi separati e vorrei stabilire se questi eventi hanno un effetto significativo sul segnale misurato.

Quindi posso prendere il segnale medio che segue un evento, e di solito posso vedere qualche effetto lì con un certo picco. Se scelgo il tempo di quel picco e dico un test t per determinare se è significativo rispetto a quando l'evento non si verifica, devo fare una correzione multipla di confronto?

Anche se ho sempre eseguito un solo test t (calcolato 1 valore), nella mia ispezione visiva iniziale ho selezionato quello con il maggiore effetto potenziale tra i (diciamo) 15 diversi punti di ritardo post-ritardo che ho tracciato. Quindi devo fare la correzione multipla di confronto per quei 15 test che non ho mai eseguito?

Se non avessi usato l'ispezione visiva, ma avessi semplicemente eseguito il test ad ogni ritardo dell'evento e avessi scelto quello più alto, avrei sicuramente bisogno di correggerlo. Sono solo un po 'confuso sul fatto che sia necessario o meno se la selezione del "miglior ritardo" viene effettuata da un criterio diverso dal test stesso (ad esempio selezione visiva, media più alta ecc.)

Risposte:


11

Tecnicamente, quando fai una preselezione visiva di dove eseguire il test, dovresti già correggerlo: i tuoi occhi e il tuo cervello bypassano già alcune incertezze nei dati, di cui non tieni conto se fai semplicemente il test a quel punto .

Immagina che il tuo "picco" sia davvero un plateau, e tu selezioni a mano la differenza "picco", quindi esegui un test su questo e risulta appena significativo. Se dovessi eseguire il test leggermente più a sinistra o a destra, il risultato potrebbe cambiare. In questo modo, devi rendere conto del processo di preselezione: non hai la certezza che affermi! Stai usando i dati per fare la selezione, quindi stai effettivamente usando le stesse informazioni due volte.

Naturalmente, in pratica, è molto difficile spiegare qualcosa come un processo di raccolta manuale, ma ciò non significa che non dovresti (o almeno prendere / dichiarare gli intervalli di confidenza risultanti / i risultati dei test con un granello di sale).

Conclusione : dovresti sempre correggere più confronti se esegui più confronti, indipendentemente da come li hai selezionati. Se non sono stati raccolti prima di vedere i dati, dovresti correggere anche quello.

Nota: un'alternativa alla correzione per la preselezione manuale (ad esempio quando è praticamente impossibile) è probabilmente quella di dichiarare i risultati in modo che contengano ovviamente riferimenti alla selezione manuale. Ma questa non è "ricerca riproducibile", immagino.


1
Tuttavia, sempre apportando correzioni, si gonfia il tasso di errore di tipo II. Se hai tutti i risultati significativi prima della correzione, potresti perderli tutti dopo la correzione, senza tenere conto delle basse probabilità di ottenere tutti i risultati significativi. Ciò può dipendere dal costo di un errore di tipo I o di tipo II nel tuo contesto.
Etienne Low-Décarie,

Nick ha dato la risposta che vorrei dare se fossi stato il primo a rispondere. Tuttavia nella configurazione iniziale tu (mkpitas) hai detto che se avessi effettivamente eseguito i 15 test non avresti dovuto fare la correzione della molteplicità. Non vedo perché lo diresti. Penso che in quel caso la necessità di una correzione della molteplicità diventi ancora più ovvia. @etienne il tuo punto si applica alla correzione FWER che è molto severa nel controllo dell'errore di tipo I. Se usi FDR non sacrificherai la stessa potenza.
Michael R. Chernick,

8

Molto tempo fa, in una delle mie prime lezioni di statistica, stavo leggendo questo in un testo (penso che fosse una vecchia edizione del libro sulla regreessione di Cohen) in cui diceva "questa è una domanda su quali persone ragionevoli possono differire".

Non mi è chiaro che qualcuno debba mai correggere per confronti multipli, né, in tal caso, in quale periodo o serie di confronti dovrebbero correggere. Ogni articolo? Ogni regressione o ANOVA? Tutto quello che pubblicano su un argomento? Che cosa pubblicano le ALTRE persone?

Mentre scrivi nella prima riga, è filosofico.


4
Hai ragione sul fatto che ci sia una domanda su quanti confronti sono stati fatti, ma non credo che ciò implichi la tua conclusione. Le persone ragionevoli possono differire perché hanno obiettivi diversi e valutazioni diverse (funzioni di perdita) per i possibili risultati. Se dovresti correggere per confronti multipli, questo è perché porta a una migliore perdita attesa. In quanto tale, si tratta di una questione estremamente pratica, non di una semplice "filosofia" e ci sono modi razionali per risolverla su cui le persone ragionevoli possono concordare.
whuber

2
@whuber hai sicuramente ragione in alcune situazioni. A volte esiste una funzione di perdita sensata, sebbene spesso sia difficile ottenerne una esplicita. Ma altre volte, ad esempio nel lavoro esplorativo, ho difficoltà a vedere come è possibile qualsiasi funzione di perdita. Naturalmente, l'intera idea della funzione di perdita ci allontana dalla statura simile a un graal di p = .05 e dal presupposto tipico che il potere = .8 o .9 sia abbastanza buono, e su (secondo la mia mente) un'idea più sensata che li stabiliamo su basi più sostanziali.
Peter Flom

1
Grazie per aver chiarito la portata e lo spirito della tua risposta, Peter.
whuber

4
Mi arrabbio quando la gente dice che i test di molteplicità non contano. Vedo questo atteggiamento espresso troppo spesso nella ricerca medica. Puoi indicare molti articoli che hanno raggiunto conclusioni errate perché la molteplicità è stata ignorata. È fondamentale non pubblicare articoli con conclusioni errate in medicina perché influiscono sul modo in cui i pazienti vengono trattati e le vite sono in pericolo. La molteplicità contribuisce al pregiudizio della pubblicazione (perché quando un problema viene studiato molte volte vengono pubblicati solo gli studi con risultati significativi) che è un problema serio nella meta-analisi,
Michael R. Chernick,

1
@MichaelChernick, sono d'accordo - è molto problematico quando le persone ignorano più correzioni di test. Tuttavia, penso che Peter abbia sollevato un buon punto: quale dovrebbe essere lo scopo dei test multipli? Tutti i test eseguiti in un unico documento? Tutti i test eseguiti con un singolo set di dati? Tutti i test eseguiti dall'inizio dei tempi? Non sembra esserci una risposta chiaramente corretta.
Macro,

4

Se stai cercando di prendere decisioni una tantum sulla realtà e vuoi controllare la velocità con cui rifiuti falsamente l'ipotesi nulla, allora userai il test di significatività dell'ipotesi nulla (NHST) e vorrai usare la correzione per confronti multipli. Tuttavia, come osserva Peter Flom nella sua risposta, non è chiaro come definire l'insieme di confronti su cui applicare la correzione. La scelta più semplice è l'insieme di confronti applicati a un determinato set di dati, e questo è l'approccio più comune.

Tuttavia, la scienza è probabilmente meglio concepita come sistema cumulativo in cui non sono necessarie decisioni una tantum e in effetti servono solo a ridurre l'efficienza dell'accumulazione delle prove (riducendo le prove ottenute a un singolo bit di informazioni). Pertanto, se si segue un approccio adeguatamente scientifico all'analisi statistica, evitando l'NHST per strumenti come i rapporti di verosimiglianza (forse anche gli approcci bayesiani), allora il "problema" di confronti multipli scompare.


1

Una possibile alternativa alla correzione, a seconda della tua domanda, è testare il significato della somma dei valori p. Puoi anche penalizzare te stesso per i test che non vengono eseguiti aggiungendo valori p elevati.

È possibile utilizzare l'estensione (che non richiede l'indipendenza) del metodo di Fisher (che richiede l'indipendenza del test).

Per esempio. Il metodo di Kost


Questi sono esempi di procedure utilizzate nella meta-analisi quando i singoli studi forniscono solo valori p o i dati non possono essere combinati ma ogni studio ha un valore p calcolato. Anche il metodo di combinazione di Fisher e la normale inversa sono modi per costruire regole di arresto in progetti adattivi.
Michael R. Chernick,

1

Una cosa molto importante da ricordare è che la correzione di più test presuppone test indipendenti. Se i dati che analizzi non sono indipendenti, le cose diventano un po 'più complicate della semplice correzione del numero di test eseguiti, devi tenere conto della correlazione tra i dati analizzati o la tua correzione sarà probabilmente troppo conservativa e lo farai ha un alto tasso di errore di tipo II. Ho trovato che la validazione incrociata, i test di permutazione o il bootstrap possono essere modi efficaci per gestire confronti multipli se usati correttamente. Altri hanno menzionato l'uso di FDR, ma questo può dare risultati errati se c'è molta non indipendenza nei dati poiché si presume che i valori p siano uniformi in tutti i test sotto zero.


2
p
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.