Perché il pregiudizio è influenzato quando una sperimentazione clinica è terminata in una fase precoce?


24

Un'analisi intermedia è un'analisi dei dati in uno o più punti temporali prima della chiusura ufficiale dello studio con l'intenzione, ad esempio, di terminare lo studio in anticipo.

Secondo Piantadosi, S. ( Studi clinici - una prospettiva metodologica ): " La stima di un effetto del trattamento sarà distorta quando uno studio è terminato in una fase precoce. Prima è la decisione, maggiore è la distorsione " .

Puoi spiegarmi questa affermazione. Posso facilmente capire che l'accuratezza sarà influenzata, ma l'affermazione sulla distorsione non è ovvia per me ...


Penso che questa sia una domanda perfetta per "appianare" le differenze tra la metodologia bayesiana e quella frequentista
Probislogic

Risposte:


13

Prima di tutto, devi notare il contesto: questo si applica solo quando lo studio è stato interrotto in anticipo a causa del monitoraggio intermedio che mostra efficacia / futilità, non per qualche motivo esterno casuale. In tal caso, la stima della dimensione dell'effetto sarà distorta in un senso completamente statistico. Se ti fermi per efficacia, l'effetto stimato sarà troppo alto (supponendo che sia positivo), se ti fermi per futilità, sarà troppo basso.

Piantodosi fornisce anche una spiegazione intuitiva (Sec 10.5.4 nella mia edizione). Supponiamo che la vera differenza in due modi sia 1 unità. Quando esegui molte prove e le guardi durante il tempo di analisi provvisoria, alcune di esse avranno osservato dimensioni dell'effetto molto superiori a 1, alcune molto al di sotto di una e la maggior parte intorno a 1: la distribuzione sarà ampia, ma simmetrica. La dimensione stimata dell'effetto a questo punto non sarebbe molto precisa, ma sarebbe imparziale. Tuttavia, interrompi e segnali una dimensione dell'effetto solo se la differenza è significativa (adattata per più test), ovvero la stima è positiva. In tutti gli altri casi continui e non segnalare un preventivo. Ciò significa che è subordinato all'arresto anticipato, la distribuzione della dimensione dell'effetto non è simmetrica e il suo valore previsto è superiore al valore reale della stima.

Il fatto che questo effetto sia più grave all'inizio proviene dal maggiore ostacolo per l'arresto del processo, quindi una parte più grande della distribuzione viene gettata via durante il condizionamento.


1
All'inizio ho pensato anche a questo, ma quando mi sono seduto per dimostrarlo, non sono riuscito: ho potuto solo dimostrare che la stima risultante in realtà è imparziale. (Nuova intuizione: il pregiudizio positivo da un arresto condizionale equilibra un pregiudizio negativo dal portare l'esperimento al completamento.) Quindi: puoi presentare una dimostrazione più rigorosa?
whuber

@whuber Cercherò di scrivere in su, ma il punto è che la dichiarazione di Piantodosi è solo su ciò che accade quando si fanno stop anticipato. Non c'è completamento per bilanciarlo.
Aniko,

2
@whuber Sì, è quello che afferma anche la dichiarazione originale. È anche valido il fatto che ci sarà una propensione opposta al completamento dello studio. L'intero messaggio dovrebbe essere che una volta che inizi a fare il monitoraggio intermedio, iniziano a succedere cose divertenti alla tua capacità di stimare la dimensione dell'effetto.
Aniko,

3
@Aniko Dovrebbe essere possibile regolare la distorsione in caso di risoluzione anticipata. Sembra quindi che stiamo discutendo l'uso ingenuo di uno stimatore standard, destinato a campioni casuali di dimensioni fisse, in esperimenti condizionatamente terminati, in cui tali stimatori non hanno le proprietà desiderate. (+1, a proposito.)
whuber

2
@whuber Certo, puoi adattarti a questo pregiudizio, ma prima devi riconoscere che esiste. E poi devi vendere all'investigatore che anche se chiaramente 5 pazienti su 10 hanno risposto, il tasso di risposta stimato è del 40% (numero composto) dopo essersi aggiustato per la distorsione a causa dell'arresto anticipato.
Aniko,

3

Ecco un'illustrazione di come la distorsione potrebbe sorgere nelle conclusioni e perché potrebbe non essere la storia completa. Supponiamo di avere una sperimentazione sequenziale di un farmaco che dovrebbe avere un effetto positivo (+1) ma potrebbe avere un effetto negativo (-1). Cinque cavie vengono testate una dopo l'altra. La probabilità sconosciuta di un esito positivo in un singolo caso è infatti e un risultato negativo134 .14

Quindi dopo cinque prove sono le probabilità dei diversi risultati

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

quindi la probabilità di un risultato positivo nel complesso è 918/1024 = 0,896 e il risultato medio è +2,5. Dividendo per 5 prove, si tratta in media di un risultato di +0,5 per prova.

È la figura imparziale, in quanto è anche .+1×34-1×14

Supponiamo che, al fine di proteggere le cavie, lo studio verrà interrotto se in qualsiasi fase il risultato cumulativo è negativo. Quindi le probabilità diventano

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

quindi la probabilità di un risultato positivo complessivo è 702/1024 = 0.6855 e il risultato medio è +1.953. Se nel calcolo precedente abbiamo considerato il valore medio del risultato per prova, ovvero utilizzando ,+3+55 ,+1+35 ,-1+15 ,-1-15 e-1-13 allora avremmo +0.184.-11

Questi sono i sensi in cui c'è distorsione fermandosi presto nel secondo schema, e la distorsione è nella direzione prevista. Ma non è la storia completa.

Perché il whuber e il proboslogico pensano che fermarsi presto dovrebbe produrre risultati imparziali? Sappiamo che il risultato atteso delle prove nel secondo schema è +1.953. Il numero atteso di prove risulta essere 3.906. Quindi dividendo l'uno dall'altro otteniamo +0.5, esattamente come prima e ciò che è stato descritto come imparziale.


stai prendendo in considerazione il mondo dei "pre-dati". Quello che dici è vero, che la regola di arresto è importante, ma solo prima di considerare i dati . Questo perché la regola di arresto fornisce informazioni sui dati, ma non sulle vere probabilità. Quindi, una volta inseriti i dati, la regola di arresto non ha più importanza. Nota che le vere probabilità non sono note nell'esperimento reale. Quindi devi anche considerare le situazioni in cui le probabilità sono, diciamo eP(-)=3P(+)=14 , nonché qualsiasi altra possibile combinazione. P(-)=34
Probislogic

Quindi prendo il tuo esempio affermando che . Questo è certamente vero! La mia risposta anche le condizioni su D però. Questo perché, se mi dici la regola di arresto, ma non se ti sei effettivamente fermato, posso capirlo dal set di dati che ho effettivamente. In effetti, posso capire se una qualsiasi regola di arresto si sarebbe effettivamente fermata, una volta che avrò saputo i dati. P(H|S,I)P(H|I)D
Probislogic

1

Bene, la mia conoscenza al riguardo proviene dall'orazione di Harveian nel 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 In sostanza, per quanto mi ricordi, i risultati saranno distorti come 1) fermandosi presto di solito significa che il trattamento è stato più o meno efficace di quanto si sperasse, e se questo è positivo, allora potresti trarre vantaggio dal caso. Credo che i valori di p siano calcolati sulla base della dimensione del campione pianificata (ma potrei sbagliarmi su questo), e anche se controlli costantemente i tuoi risultati per vedere se sono stati mostrati effetti, devi correggere per più confronti per assicurarti che non stai semplicemente trovando un effetto casuale. Ad esempio, se si controllano 20 volte valori di p inferiori a 0,05, quindi statisticamente parlando, si è quasi certi di trovare un risultato significativo.


PARTE 1 Prima di tutto, grazie per la tua risposta. In effetti, i metodi frequentist corretti per test multipli. Quindi, il problema della stima dell'effetto del trattamento parziale non può venire da lì. Ad un'analisi intermedia, il test si basa sulle informazioni correnti, utilizzando la dimensione del campione corrente, non la dimensione complessiva del campione pianificata. Quindi il problema non viene nemmeno da lì.
Ocram,

PARTE 2 Concordo sul fatto che l'interruzione anticipata può significare che il trattamento è "più efficace di un salto". In tal senso, l'effetto terapeutico stimato sarebbe maggiore del previsto. Ma, secondo me, questo non lo rende di parte ... Invece, secondo me, in un certo senso, "la nostra speranza era di parte".
Ocram,

1

Non sarei in disaccordo con tale affermazione, a meno che per "pregiudizio" Piantadosi non significhi quella parte dell'accuratezza che è comunemente chiamata distorsione. L'inferenza non sarà "di parte" perché hai scelto di fermarti di per sé: sarà "di parte" perché hai meno dati. Il cosiddetto "principio di verosimiglianza" afferma che l'inferenza dovrebbe dipendere solo dai dati osservati e non dai dati che avrebbero potuto essere osservati, ma non lo erano. L'LP dice

P(H|D,S,io)=P(H|D,io)

HDSioDioS=g(D,io)UNUN=UNS=g(D,io)DioD,S,io=D,g(D,io),io=D,ioDio che conta.


@probabilityislogic: grazie! Se lo capisco bene, il "pregiudizio" non dovrebbe essere preso in senso statistico. Penso che abbia senso perché Piantadosi parla del "bias" di una stima e non di uno stimatore ...
Ocram

E(μ-μ^)2=vun'r(μ^)+Bioun'S(μ^)μμ^è lo "stimatore". Se il secondo termine (il bias) dipende dalla dimensione del campione, allora ti aspetteresti che interrompere anticipatamente aumenterebbe il bias, perché ha ridotto la dimensione del campione, rispetto a se l'esperimento è continuato. Ma da quello che dici, sembra che il "bias" debba essere interpretato come "errore" dal punto di vista di Piantadosi.
Probislogic

1
Questo argomento non dice nulla del pregiudizio, solo dell'ipotesi che verifica l'aspetto del problema, che nessuno mette in discussione.
Aniko,

@Prob Sono d'accordo con @Aniko: è ovvio che quando il valore nullo è vero, esiste una probabilità positiva di risoluzione anticipata, nel qual caso la stima dell'effetto sarà diversa da zero. Pertanto, l'aspettativa dell'effetto stimato, subordinata alla risoluzione anticipata, è positiva, mentre l'aspettativa incondizionata è zero. (Si noti che il PO si rivolge alla stima , non al test di ipotesi.)
whuber

Hμ(un',un'+dun')SDioSSSDioμ
Probislogic

0

ci sarà parzialità (in "senso statistico") se la conclusione degli studi non è casuale.

In una serie di esperimenti giunti alla conclusione, i risultati "precoci" di (a) alcuni esperimenti che alla fine trovano "nessun effetto" mostreranno alcuni effetti (come risultato del caso) e (b) alcuni esperimenti che alla fine trovano un L'effetto mostrerà "nessun effetto" (probabilmente a causa della mancanza di potere). In un mondo in cui interrompi le prove, se interrompi (a) più spesso di (b), finirai attraverso una serie di studi con preconcetti a favore della ricerca di un effetto. (La stessa logica si applica per le dimensioni degli effetti ; gli studi conclusivi che mostrano all'inizio un effetto "più grande del previsto" più spesso di quelli che mostrano "come previsto o inferiore" aumenteranno il conteggio dei risultati di "grande effetto".)

Se in effetti gli studi medici vengono interrotti quando i primi risultati mostrano un effetto positivo - al fine di rendere il trattamento disponibile per i soggetti trattati con placebo o altri - ma non quando i primi risultati non sono conclusivi, allora ci saranno più errori di tipo 1 in tali test rispetto a ci sarebbe se tutti gli esperimenti fossero conclusi. Ma ciò non significa che la pratica sia sbagliata; il costo dell'errore di tipo 1, dal punto di vista morale, potrebbe essere inferiore alla negazione del trattamento con la stessa rapidità con cui si farebbe altrimenti per i trattamenti che si dimostrerebbero realmente efficaci alla fine della sperimentazione completa.


Per favore, vedi il mio commento alla risposta di Aniko, perché vorrei farti la stessa domanda: puoi fornire una dimostrazione più rigorosa?
whuber

Rinvio ad Aniko - fa un lavoro migliore di quello che potrei. Ma se sei d'accordo sul fatto che "l'effetto del cassetto della scrivania" si traduce in pregiudizi, la logica qui è identica. Esiste una propensione per i dati a supporto dell'ipotesi: nel primo caso b / c i dati non di supporto non vengono riportati, nel secondo b / c non viene necessariamente raccolta una frazione dei dati non supportati: Terminare la sperimentazione all'inizio quando i risultati sembrano buoni, esclude quella parte della distribuzione dei "cattivi risultati" popolata da prove che produrranno i loro cattivi risultati in ritardo . Forse questo bias può essere regolato per - ma c'è un bias che necessita di aggiustamenti.
dmk38,

@dmk Sto solo cercando di stimolare entrambi ad avere un dibattito con @Probability, con il quale sembri essere in netto disaccordo ;-).
whuber

1
P(D|H,S,I)

1
@probability Questo è un modo per vederlo. Un altro è quello di schivare del tutto l'ipotesi e di affrontare la domanda che viene effettivamente posta; vale a dire, qual è la dimensione dell'effetto del trattamento ? Da questo punto di vista la risoluzione può verificarsi quando il preventivo è noto con sufficiente precisione per supportare il processo decisionale. Ad esempio, potremmo voler avere la massima fiducia che il guadagno in salute dalla prescrizione del trattamento è probabile che superi i costi (e gli effetti collaterali) del trattamento.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.