Insidie ​​nella progettazione sperimentale: evitare esperimenti morti


27

Ho trovato questa citazione numerose volte:

Consultare lo statistico al termine di un esperimento è spesso semplicemente chiedergli di condurre un esame post mortem. Può forse dire di cosa è morto l'esperimento. - Ronald Fisher (1938)

A me sembra forse un po 'presuntuoso. Gli unici esempi che ho mai trovato descrivendo come muoiono gli esperimenti senza un buon design sono la mancanza di controlli o controlli scadenti. Ad esempio, esperimenti che controllano l'applicazione di un fertilizzante, ma non riescono a controllare l'ambiente richiesto per l'applicazione. Forse sono solo io, ma sembra che una rapida lettura della sezione Wikipedia sui principi di progettazione di Fisher coprirebbe la maggior parte delle basi.

Come statistico, con quale frequenza vedi la progettazione di problemi relativi agli esperimenti con i dati? Sono sempre in relazione con quei pochi fattori menzionati da Fisher, o ci sono altre gravi insidie ​​che noi scienziati non addestrati statisticamente dovremmo cercare?


4
Quanto spesso: molto spesso. Definire l'esperimento "morto" di solito va troppo lontano, ma molti esperimenti che vedo avrebbero potuto essere molto migliori con solo lievi modifiche al design.
mark999,

3
Ne ho visti alcuni. Anche se ora potrebbe essere presuntuoso , ricorda che quando Fisher l'ha detto, non puoi semplicemente cercare su Wikipedia. Il tasso potrebbe essere stato molto più alto nei primi giorni.
Glen_b -Restate Monica

4
Bello che tu sollevi questo punto. Sono anche curioso di sapere quale potrebbe essere la prima volta che vedo un quadruplo qualificatore: "A me sembra forse un po 'presuntuoso". :-)
rolando2

1
@ rolando2: Heh, beh, è ​​Fisher. Ha guadagnato tutte quelle qualificazioni: D
naught101

5
Ho visto - letteralmente - molte migliaia di set di dati nella mia carriera (e praticamente nessuno di loro è stato raccolto secondo un progetto esaminato da qualsiasi statistico). La maggior parte di questi sono stati raccolti per scopi formali, come soddisfare i requisiti normativi. Non riesco a ricordarne uno solo che non presentasse problemi di progettazione (sebbene a volte questi fossero minori). Questo non significa che i set di dati fossero inutili o "morti": ma in quasi tutti i casi il mio compito era (continuare l'analogia medica) prima di rianimare il set di dati e poi di applicarlo allo scopo previsto, se possibile.
whuber

Risposte:


14

Credo che il significato di Fisher nella sua famosa citazione vada oltre il dire "Faremo un disegno fattoriale completo per il nostro studio" o un altro approccio progettuale. Consultare uno statistico durante la pianificazione dell'esperimento significa pensare ad ogni aspetto del problema in modo intelligente, incluso l'obiettivo di ricerca, quali variabili sono rilevanti, come raccoglierle, gestione dei dati, insidie, valutazione intermedia di come procede l'esperimento e molto Di Più. Spesso, trovo che sia importante vedere tutti gli aspetti dell'esperimento proposto direttamente per capire veramente dove si trovano le difficoltà.

La mia esperienza proviene principalmente da applicazioni mediche. Alcuni dei problemi che ho riscontrato che avrebbero potuto essere prevenuti consultando preventivamente uno statistico:

  • La dimensione del campione insufficiente è, ovviamente, il numero uno in questo elenco. Spesso, i dati di studi precedenti sarebbero stati disponibili e sarebbe stato facile fornire una stima ragionevole della dimensione del campione necessaria. In questi casi, l'unica soluzione è spesso fare un'analisi puramente descrittiva dei dati e promettere ulteriori ricerche nel documento (non pubblicare di solito non è un'opzione dopo che i medici hanno investito tempo prezioso).
  • L'esecuzione degli esperimenti è lasciata alla convenienza e al caso anziché al design. Un esempio a cui sto attualmente lavorando ha le misurazioni raccolte nel tempo. I tempi di misurazione, la frequenza di misurazione e la fine del periodo di monitoraggio variano notevolmente tra gli individui. Aumentare il numero di misurazioni per individuo e fissare le date delle misurazioni e la fine del periodo di monitoraggio sarebbe stato un lavoro extra piuttosto limitato (in questo caso) e sarebbe stato molto utile per lo studio.
  • Scarso controllo dei fattori di disturbo che avrebbero potuto essere facilmente controllati. Ad esempio, le misurazioni sono state talvolta eseguite il giorno della raccolta del campione e talvolta più tardi, lasciando la possibilità che il campione si fosse degradato.
  • Cattiva gestione dei dati, incluso il mio preferito personale "Ho arrotondato i dati prima di metterli nel computer, perché la macchina non è precisa nelle sue misurazioni". Spesso, i dati rilevanti non vengono semplicemente raccolti ed è impossibile ottenerli dopo il fatto.

Spesso, i problemi con uno studio risalgono ancora più indietro, alla concezione iniziale della ricerca:

  • I dati vengono talvolta raccolti senza un obiettivo chiaro e solo il presupposto che saranno utili in qualche modo. La produzione di ipotesi e "risultati significativi" è lasciata allo statistico.
  • E il contrario: i dati vengono raccolti insieme allo scopo di dimostrare un punto specifico che l'IP ha in testa, indipendentemente dai dati e da ciò che può effettivamente essere dimostrato con esso. Questa volta, lo statistico dovrebbe solo mettere il suo segno di significato su conclusioni pre-scritte senza che le conclusioni vengano adattate alla luce dei dati.

Finora, questo suona principalmente come se lo statistico soffra e forse l'integrità scientifica soffre quando l'IP cerca di trarre conclusioni non supportate dai dati (sempre una discussione divertente). Ma anche il team sperimentale soffre, perché fa un lavoro extra inutile (mentre non fa il lavoro necessario) durante la fase sperimentale e ha bisogno di passare molto più tempo a discutere con il proprio statistico dopo il fatto, perché non hanno ricevuto i loro consigli prima. E, naturalmente, il documento finale sarà peggio, avrà meno conclusioni (e più "congetture") e probabilmente non entrerà in quel diario di grande impatto che l'IP voleva.


Per quanto riguarda il secondo della seconda serie di punti elenco, penso che la normale logica di uno studio sia quella di raccogliere dati allo scopo di dimostrare punti specifici.
Robert Jones,

1
Naturalmente hai perfettamente ragione. Ero un po 'troppo basso lì. Quello che intendevo menzionare era uno scenario in cui un PI molto determinato a dimostrare un punto e dati di scarsa qualità che non sono in grado di dimostrare quel punto (spesso a causa di problemi di progettazione fondamentali) si incontrano.
Rob Hall,

12

Due parole: Dimensione del campione ... Un'analisi di potenza è un must. Includendo uno statistico competente nella tua squadra sin dall'inizio, probabilmente ti risparmierai una grande frustrazione quando scrivi i risultati e le sezioni di discussione del tuo manoscritto o rapporto.

È fin troppo comune per un investigatore principale raccogliere dati prima di consultare uno statistico con le aspettative di un "modello predittivo" o di una "relazione causale" da un campione di meno di 30 soggetti. Se il PI avesse consultato uno statistico prima di raccogliere dati, lo statistico sarebbe stato in grado di informare il PI, dopo opportune analisi, di raccogliere più dati / soggetti o di ristrutturare gli obiettivi del loro piano / progetto di analisi.


1
Non sono d'accordo con "Un'analisi di potenza è un must". Penso che molte persone sopravvalutino l'importanza dell'analisi del potere.
mark999,

3
@ mark999: Potrebbe essere, ma non nega l'importanza di eseguire una sorta di analisi della potenza prima di fare l'esperimento, che capisco essere il punto di Matt.
Scortchi - Ripristina Monica

3
@ mark999: possono rivelarsi utili, ovviamente. Ma in quali circostanze non consiglieresti di eseguire alcun tipo di analisi della potenza (sto includendo la stima della larghezza prevista degli intervalli di confidenza) prima di fare un esperimento? Posso solo pensare a (1) uno studio pilota, in cui ti interessa solo esaminare il protocollo e stimare approssimativamente l'errore, e (2) un esperimento per il quale non puoi scegliere una dimensione del campione per qualche motivo, facendo analisi di potenza ridondante.
Scortchi - Ripristina Monica

2
@ mark999: penso che lo facciamo. Per il tuo caso (B), suggerirei uno studio pilota -> analisi di potenza -> esperimento per testare ipotesi o stimare le dimensioni degli effetti come un piano ineguagliabile.
Scortchi - Ripristina Monica

3
Anche se hai una dimensione del campione fissa, non vedo alcun motivo per seppellire la testa nella sabbia ed evitare un'analisi di potenza (risposte ragionevoli a vincoli di risorse e ignoranza a parte).
Andy W,

11

Suppongo che dipenda da quanto rigorosamente interpreti la parola "design". Qualche volta si assume che significhi blocchi completamente randomizzati rispetto a blocchi randomizzati, ecc. Non penso di aver visto uno studio che è morto da quello. Inoltre, come altri hanno già detto, sospetto che "morto" sia troppo forte, ma dipende da come interpreti il ​​termine. Certamente ho visto studi "non significativi" (e che i ricercatori successivamente non hanno provato a pubblicare di conseguenza); partendo dal presupposto che questi studi avrebbero potuto essere "significativi" se condotti in modo diverso (secondo l'ovvio consiglio che avrei dato), e quindi pubblicati, potrebbero essere considerati "morti". Alla luce di questa concezione, la questione del potere sollevata da @RobHall e @MattReichenbach è piuttosto semplice, ma c'è più potenza che dimensioni del campione, e quelle potrebbero cadere in una concezione più libera di "design". Qui ci sono un paio di esempi:

  • Non raccogliendo / registrando / o gettando via informazioni
    ho lavorato su uno studio in cui i ricercatori erano interessati a stabilire se un particolare tratto fosse correlato a un tumore. Hanno ottenuto topi da due linee (cioè, linee genetiche, i topi sono stati allevati per determinate proprietà) in cui una linea avrebbe dovuto avere più tratto dell'altra. Tuttavia, il tratto in questione non è stato effettivamente misurato, anche se avrebbe potuto essere. Questa situazione è analoga alla dicotomizzazione o al binning di una variabile continua, che riduce la potenza. Tuttavia, anche se i risultati fossero "significativi", sarebbero meno informativi che se conoscessimo l'entità del tratto per ciascun topo.

    Un altro caso all'interno di questa stessa rubrica non è pensare e raccogliere ovvie covariate.

  • Scarsa progettazione del questionario Di
    recente ho lavorato a uno studio in cui è stato somministrato un sondaggio sulla soddisfazione dei pazienti in due condizioni. Tuttavia, nessuno degli oggetti è stato segnato il contrario. Sembrava che la maggior parte dei pazienti scendesse l'elenco e contrassegnasse tutti e 5 ( fortemente d'accordo ), possibilmente senza nemmeno leggere gli articoli. Ci sono stati altri problemi, ma questo è abbastanza ovvio. Stranamente, il responsabile incaricato di condurre lo studio mi ha detto che la sua partecipazione l'aveva esplicitamente incoraggiata a non veterinare prima lo studio con uno statistico, anche se siamo liberi e comodamente disponibili per tale consulenza.


Whoa ... con il primo, quello che si misurano? sembra un po 'ovvio. O sono stati assicurati in anticipo che i tratti erano diversi nelle diverse linee? Il secondo esempio è interessante, un tipo di randomizzazione a cui la maggior parte delle persone non penserebbe.
naught101

5
Stava solo testando 1 ceppo contro l'altro. Il tratto in questione tende davvero ad essere più elevato per una delle linee, ma c'è una certa sovrapposizione: le distribuzioni non sono totalmente separate.
gung - Ripristina Monica

Ho avuto un'esperienza simile al punto 1: è stato installato un dispositivo microfluidico per riconoscere un certo tipo di cellula. È stata iniettata una miscela di celle da riconoscere e celle di controllo e sono stati acquisiti un flusso video + un flusso di segnali da utilizzare per il riconoscimento. Sfortunatamente, mentre il flusso video potrebbe essere usato come riferimento per stabilire se in un determinato momento esisteva una cella nel rivelatore, non c'era modo di dire che tipo di cella fosse effettivamente, quindi non c'è modo di determinare se un segnale fosse vero positivo o falso negativo o nessun segnale era vero negativo o falso positivo ...
cbeleites supporta Monica il

8

Ho visto questo tipo di problema in esperimenti simili a sondaggi e psicologici.

In un caso, l'intero esperimento ha dovuto essere sottoposto a un'esperienza di apprendimento. Ci sono stati problemi a più livelli che hanno portato a un miscuglio di risultati, ma risultati che sembravano fornire un supporto per l'ipotesi. Alla fine, sono stato in grado di aiutare a pianificare un esperimento più rigoroso, che essenzialmente aveva abbastanza potere per respingere l'ipotesi.

Nell'altro caso, mi è stato consegnato un sondaggio che era già stato progettato ed eseguito e c'erano diversi problemi che hanno portato a colpire diverse aree di interesse. In un'area chiave, ad esempio, hanno chiesto quante volte i clienti sono stati allontanati da un evento a causa del fatto che era pieno quando sono arrivati. Il problema è che non c'è un intervallo di tempo sulla domanda, quindi non si può dire la differenza tra qualcuno che ha provato a partecipare 4 volte ed è stato respinto 4 volte e qualcuno che ha cercato di partecipare 40 volte ed è stato respinto solo 4 volte .

Non sono uno statistico esperto di capitale, ma se fossero venuti da me in anticipo, sarei stato in grado di aiutarli a risolvere questi problemi e ottenere risultati migliori. Nel primo caso, sarebbe stato comunque deludente "Scusate, la vostra ipotesi sembra estremamente improbabile", ma avrebbe potuto salvare loro un secondo esperimento. Nel secondo caso, avrebbe dato loro le risposte ad alcune domande importanti e avrebbe reso i risultati più nitidi. (Un altro problema che hanno avuto è che hanno esaminato più località nel tempo e almeno alcune persone sono state quindi esaminate più volte, senza domande come "Hai preso questo sondaggio altrove?")

Forse non di per sé problemi statistici, ma in entrambi i casi esperti di dominio intelligenti e ben istruiti hanno creato strumenti che erano difettosi, e i risultati sono stati un esperimento morto e un esperimento con arti amputati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.