Dati "esplorazione" vs dati "ficcanaso" / "tortura"?


30

Molte volte mi sono imbattuto in avvertimenti informali contro lo "snooping dei dati" (ecco un esempio divertente ) e penso di avere un'idea intuitiva di ciò che ciò significa e del perché potrebbe essere un problema.

D'altra parte, l '"analisi dei dati esplorativi" sembra essere una procedura perfettamente rispettabile in statistica, almeno a giudicare dal fatto che un libro con quel titolo è ancora citato riverentemente come un classico.

Nella mia linea di lavoro mi capita spesso di imbattermi in quello che a me sembra un "snooping dei dati" dilagante, o forse sarebbe meglio descritto come " tortura dei dati ", anche se quelli che lo fanno sembrano vedere la stessa attività di esplorazione del tutto ragionevole e priva di problemi " ".

Ecco lo scenario tipico: viene eseguito un costoso esperimento (senza pensarci troppo sull'analisi successiva), i ricercatori originali non sono in grado di discernere facilmente una "storia" nei dati raccolti, qualcuno viene coinvolto per applicare un po 'di "magia statistica", e chi , dopo aver suddiviso e tagliato i dati in ogni modo, alla fine riesce a estrarre da esso una "storia" pubblicabile.

Ovviamente, di solito c'è un po 'di "convalida" lanciata nel rapporto / documento finale per dimostrare che l'analisi statistica è in costante aumento, ma la palese attitudine alla pubblicazione a tutti i costi mi lascia dubbi.

Sfortunatamente, la mia limitata comprensione delle cose da fare e da non fare dell'analisi dei dati mi impedisce di andare oltre tali vaghi dubbi, quindi la mia risposta conservatrice è di ignorare sostanzialmente tali risultati.

La mia speranza è che non solo una migliore comprensione della distinzione tra esplorazione e snooping / tortura, ma anche, e soprattutto, una migliore comprensione dei principi e delle tecniche per rilevare quando questa linea è stata superata, mi permetterà di valutare tali risultati in un modo che può ragionevolmente spiegare una procedura analitica non ottimale, e quindi essere in grado di andare oltre la mia attuale risposta piuttosto semplice di incredulità generale.


EDIT: Grazie a tutti per i commenti e le risposte molto interessanti. A giudicare dal loro contenuto, penso di non aver spiegato bene la mia domanda. Spero che questo aggiornamento chiarisca le cose.

La mia domanda qui non riguarda tanto ciò che ho dovuto fare per evitare di torturare i miei dati (anche se questa è una domanda che mi ha anche interessi), ma piuttosto: come dovrei considerare (o valutare) i risultati che io so per certo sono state arrivate attraverso tale "tortura di dati".

La situazione diventa più interessante in quei casi (molto più rari) in cui, inoltre, sono nella posizione di esprimere un'opinione su tali "risultati" prima che vengano presentati per la pubblicazione.

A questo punto il massimo che posso fare è dire qualcosa del tipo "Non so quanta credibilità posso dare a questi risultati, dato quello che so sui presupposti e sulle procedure che li hanno portati". Questo è troppo vago per vale la pena dirlo. Volere andare oltre tale vaghezza era la motivazione per il mio post.

Ad essere sinceri, i miei dubbi qui si basano su metodi statistici più che apparentemente discutibili. In realtà, vedo quest'ultimo più come conseguenza del problema più profondo: una combinazione di un atteggiamento sprezzante nei confronti del design sperimentale unito a un impegno categorico per pubblicare i risultati così come sono (cioè senza ulteriori esperimenti). Naturalmente, sono sempre previsti progetti di follow-up, ma è semplicemente fuori discussione che non un singolo documento uscirà, per esempio, da "un frigorifero pieno di 100.000 campioni".

Le statistiche entrano in scena solo come mezzo per raggiungere questo obiettivo supremo. L'unica giustificazione per agganciarsi alle statistiche (secondarie come sono nell'intero scenario) è che una sfida frontale all'assunzione di "pubblicazioni a tutti i costi" è semplicemente inutile.

In effetti, riesco a pensare a una sola risposta efficace in tali situazioni: proporre alcuni test statistici (che non richiedono ulteriori sperimentazioni) che testano davvero la qualità dell'analisi. Ma non ho le braciole nelle statistiche per questo. La mia speranza (ingenua in retrospettiva) era di scoprire cosa potevo studiare che potesse permettermi di elaborare tali test ...

Mentre scrivo, mi viene in mente che, se non esiste già, il mondo potrebbe usare un nuovo sotto-ramo di statistiche, dedicato alle tecniche per rilevare ed esporre la "tortura dei dati". (Certo, non intendo lasciarsi trasportare dalla metafora della "tortura": il problema non è di per sé la "tortura dei dati", ma le "scoperte" spurie che può portare a.)


1
@BabakP Quella citazione appare in sei risposte qui, incluso nelle discussioni sulle battute delle statistiche e sulle citazioni delle statistiche. (Quest'ultimo è una buona fonte per le citazioni pertinenti se stai mai cacciando un po '.)
whuber

7
Non credo che vi sia alcuna distinzione tra le tecniche utilizzate nello "snooping dei dati" e nell' "analisi dei dati esplorativi" - l'uso dispregiativo del primo termine è per un'analisi esplorativa presentata in modo fuorviante come un'analisi di conferma.
Scortchi - Ripristina Monica

8
Feynman, nel libro a cui fai riferimento, risponde già a questa domanda: "Se vuole verificare questa ipotesi [trovata attraverso l'esplorazione], ... deve fare un altro esperimento." Quello che sembra chiedersi riguarda il fatto che Feynman possa essere stato troppo estremo ("esagerando un po '"): fino a che punto, se non del tutto, possono essere giustificati test formali di ipotesi quando sono stati sviluppati esplorando gli stessi dati ?
whuber

2
@whuber: in pratica è ancora più drammatico, perché spesso testare con dati diversi, ma la stessa configurazione sperimentale o tipo di esperimento porterà inavvertitamente a risultati simili.
Gennaio

1
@Gennaio: dipende dai tuoi dati / esperimenti, penso. Considerare ad esempio la ricerca biologica / medica. Per i dati che vedo, la più grande variazione è di solito tra i pazienti (soggetti). Ripetendo l'esperimento con nuovi pazienti si spera che si ottengano risultati simili, ma in pratica spesso non è così (cioè i risultati di previsione dei modelli sviluppati sul primo gruppo di pazienti sono molto peggiori del previsto, il che significa che si è verificato un overfitting, quindi il i dati del primo esperimento furono "torturati")
cbeleites supporta Monica il

Risposte:


22

Esiste una distinzione che a volte non ottiene sufficiente attenzione, vale a dire la generazione di ipotesi vs. test di ipotesi o analisi esplorativa vs. test di ipotesi. Ti è permesso che tutti i trucchi del mondo escano con la tua idea / ipotesi. Ma quando in seguito lo testerai, dovrai uccidere spietatamente i tuoi cari.

Sono un biologo che lavora costantemente con dati ad alto rendimento, e sì, lo faccio spesso. La maggior parte dei casi dell'esperimento non è stato progettato con cura; o forse quelli che l'hanno pianificato non hanno tenuto conto di tutti i possibili risultati. O l'atteggiamento generale durante la pianificazione era "vediamo cosa c'è dentro". Finiamo con insiemi di dati costosi, preziosi e di per sé interessanti che poi giro e giro per inventare una storia.

Ma poi, è solo una storia (possibile andare a dormire). Dopo aver selezionato un paio di angoli interessanti - ed ecco il punto cruciale - è necessario testarlo non solo con set di dati indipendenti o campioni indipendenti, ma preferibilmente con un approccio indipendente , un sistema sperimentale indipendente.

L'importanza di quest'ultima cosa - un'impostazione sperimentale indipendente, non solo un insieme indipendente di misurazioni o campioni - è spesso sottovalutata. Tuttavia, quando testiamo 30.000 variabili per differenze significative, accade spesso che mentre campioni simili (ma diversi) della stessa coorte e analizzati con lo stesso metodo non rifiutino l'ipotesi che abbiamo basato sull'insieme precedente. Ma poi ci rivolgiamo a un altro tipo di esperimento e a un'altra coorte, e le nostre scoperte risultano essere il risultato di un pregiudizio metodologico o sono limitate nella loro applicabilità.

Questo è il motivo per cui spesso abbiamo bisogno di numerosi articoli di diversi ricercatori indipendenti per accettare davvero un'ipotesi o un modello.

Quindi penso che tali torture di dati vadano bene, purché si tenga presente questa distinzione e si ricordi cosa si sta facendo, in quale fase del processo scientifico si è. È possibile utilizzare le fasi lunari o ridefinire 2 + 2 purché si disponga di una convalida indipendente dei dati. Per metterlo su una foto:

inserisci qui la descrizione dell'immagine

Sfortunatamente, ci sono quelli che ordinano a un microarray di arrotondare un documento dopo che sono stati fatti diversi esperimenti e non è emersa alcuna storia, con la speranza che l'analisi ad alta produttività mostri qualcosa. Oppure sono confusi sull'intera verifica delle ipotesi rispetto alla cosa della generazione.


Suppongo che si potrebbe interpretare quella che ho visto come "generazione di ipotesi", ma lo scopo delle manipolazioni di cui sto parlando è sicuramente quello di pubblicare i risultati ottenuti dai dati "torturati" e di farlo nel modo più alto -impact journal che accetterà il documento. Inutile dire che tali documenti non portano mai alcun suggerimento sulle origini torturate delle loro scoperte. In effetti, AFAICT, gli autori non ne sono affatto preoccupati. Eppure, penso che la maggior parte dei lettori di questi giornali avrebbe fortemente scartato i risultati se sapessero esattamente quanta tortura di dati è stata
impiegata per

1
@kjo: la generazione di ipotesi è una parte del processo scientifico che può essere definitivamente pubblicato. Quindi non è un motivo.
cbeleites supporta Monica il

@Gennaio: hai dimenticato di menzionare il DoE "prendi tutti i campioni che possiamo ottenere - saranno comunque troppo pochi" - che è il DoE più frequente che incontro.
cbeleites supporta Monica il

@cbeleites: beh, non mi sognerei di criticare questo atteggiamento in generale; di solito gli esperimenti potrebbero beneficiare di un numero maggiore di replicati. Ma concordo sul fatto che spesso gli sperimentatori tendono a includere quante più condizioni (tipi di campione, varietà, varianti, classi ecc.) Il solo fisicamente possibile, rendendo l'analisi un incubo e talvolta oscurando totalmente la domanda.
Gennaio

12

Herman Friedman, il mio professore preferito alla scuola di specializzazione, lo diceva sempre

"se non sei sorpreso, non hai imparato niente"

La rigorosa evitamento di qualsiasi cosa, tranne il test più rigoroso delle ipotesi a priori definite, limita fortemente la tua capacità di essere sorpreso.

Penso che la cosa chiave sia che siamo onesti su ciò che stiamo facendo. Se siamo in una modalità altamente esplorativa, dovremmo dirlo. All'estremità opposta, un professore che conosco ha detto al suo studente di cambiare le sue ipotesi poiché quelle originali non sono risultate significative.


4
Niente di male nel testare rigorosamente le ipotesi definite a priori e nel ficcare gli stessi dati per suggerire che le successive ipotesi a priori definite vengano rigorosamente testate. E se siamo in una modalità anche leggermente esplorativa, dovremmo dirlo - basta dire quello che abbiamo fatto davvero - e lasciare che gli altri decidano esattamente con quale pizzico di sale vogliono prendere i nostri risultati, per quanto convinti della loro validità potremmo essere noi stessi. Vorrei dare a questa risposta più di un voto per enfatizzare l'onestà.
Scortchi - Ripristina Monica

7

Vorrei aggiungere alcuni punti:

  • prima di tutto, la generazione di ipotesi è una parte importante della scienza. E i risultati non predittivi (esplorativi / descrittivi) possono essere pubblicati.

  • Secondo me il problema non è di per sé che l'esplorazione dei dati venga utilizzata su un set di dati e che vengano pubblicate solo parti di tali risultati. I problemi sono

    • non descrivendo quanto è stato provato
    • quindi trarre conclusioni come se lo studio fosse uno studio di validazione per alcuni modelli predittivi / uno studio di verifica delle ipotesi
  • Lo sviluppo della scienza e dei metodi sono processi iterativi in ​​un modo molto più generale della semplice generazione di ipotesi - test - generazione di nuove ipotesi - test .... IMHO è una questione di giudizio professionale che tipo di condotta corretta è necessaria in quale fase (vedi esempio sotto).

Quello che faccio:

  • cerca di rendere le persone consapevoli del pregiudizio ottimistico che ne risulta
    Quando ho una possibilità, mostro anche alle persone quanta differenza fa (fattibile principalmente con un livello inferiore dello stesso problema, ad esempio confrontare i dati validati in modo indipendente dal paziente con le prestazioni interne stime di routine di ottimizzazione di iperparametri, come la ricerca della griglia per paraters SVM, "modelli combinati" come PCA-LDA e così via. Non realmente fattibile per il dragaggio dei dati reali, perché finora nessuno mi ha dato i soldi per fare un vero replicato di uno studio di dimensioni ragionevoli ...)
  • per i documenti di cui sono coautore: insistere su una discussione sui limiti delle conclusioni. Assicurarsi che le conclusioni non siano formulate in un modo più generale di quanto consentito dallo studio.
  • Incoraggia i colleghi a utilizzare le loro conoscenze specialistiche sull'argomento dello studio e sul processo di generazione dei dati per decidere come trattare i dati invece di eseguire costose (in termini di dimensioni del campione dovresti farlo in modo corretto) ottimizzazione di modello "hyper" -parameters (come quale tipo di pre-elaborazione usare).
  • in parallelo: cerca di rendere le persone consapevoli di quanto costosa sia questa attività di ottimizzazione se eseguita correttamente (se questa si chiama esplorazione o no è irrilevante, se eseguita in modo errato, avrà risultati simili come il dragaggio dei dati), ad esempio Beleites, C. e Neugebauer , U. e Bocklitz, T. e Krafft, C. e Popp, J .: Pianificazione della dimensione del campione per i modelli di classificazione. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
    manoscritto accettato su arXiv: 1211.1323
  • Ecco uno studio che scopre che questo cieco che prova in giro è spesso inutile, ad esempio
    J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: rompere le tendenze nella pre-elaborazione ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
    (hanno provato un gran numero di combinazioni di fasi di pre-elaborazione e hanno scoperto che pochissimi portano a modelli migliori rispetto a nessuna pre-elaborazione)

  • Sottolinea che non sto torturando i miei dati più del necessario:
    esempio :

    Tutta la preelaborazione è stata decisa esclusivamente utilizzando conoscenze spettroscopiche e non è stata eseguita alcuna preelaborazione basata sui dati.

    Si legge un documento di follow-up che utilizza gli stessi dati dell'esempio per (diverso) sviluppo della teoria

    Tutta la pre-elaborazione è stata decisa dalla conoscenza spettroscopica, non sono stati inclusi passaggi guidati dai dati e non è stata eseguita l'ottimizzazione dei parametri. Tuttavia, abbiamo verificato che una proiezione PLS [45] degli spettri su 25 variabili latenti come pre-elaborazione per l'allenamento LR non ha portato a cambiamenti più che lievi nella previsione (vedere la figura supplementare S.2).

    Perché nel frattempo mi è stato esplicitamente chiesto (in una conferenza da un editore della rivista CILS) di confrontare i modelli con la pre-elaborazione PLS.

  • Prendi un punto di vista pratico: ad esempio nello studio sull'astrocitoma collegato sopra, ovviamente ho ancora deciso alcuni punti dopo aver esaminato i dati (come quale soglia di intensità corrisponde alle misurazioni prese dall'esterno del campione - che sono state poi scartate). Altre decisioni che conosco non critiche (lineari rispetto alla linea di base quadratica: la mia esperienza con quel tipo di dati suggerisce che questo in realtà non cambia molto - il che è anche in perfetto accordo con ciò che Jasper Engel ha trovato su dati diversi di tipo simile, quindi Non mi aspetto un grosso pregiudizio nel decidere il tipo di baseline guardando i dati (il documento fornisce un argomento sul perché sia ​​ragionevole).
    Sulla base dello studio che abbiamo fatto, ora possiamo dire cosa dovrebbe essere affrontato in seguito e cosa dovrebbe essere cambiato. E poiché siamo ancora in una fase relativamente precoce dello sviluppo del metodo (esaminando campioni ex-vivo ), non vale la pena passare attraverso tutti i "compiti a casa" che alla fine saranno necessari prima che il metodo possa essere utilizzato in vivo . Ad esempio, nella fase attuale della classificazione degli astrocitomi, il ricampionamento della convalida è una scelta più sensata rispetto al set di test esterno. Sottolineo ancora che un certo studio di validazione esterno sarà necessario ad un certo punto, perché alcune caratteristiche delle prestazioni possono essere misurate solo in quel modo (ad esempio gli effetti della deriva dello strumento / dimostrando che possiamo correggerli). Ma in questo momento mentre stiamo ancora giocando ex-vivocampioni e stanno risolvendo altre parti del problema di grandi dimensioni (nei documenti collegati: come gestire i casi limite), il guadagno in conoscenze utili da un adeguato studio di validazione ex-vivo è troppo basso per valere la pena (IMHO: a meno che ciò è stato fatto per misurare la distorsione dovuta al dragaggio dei dati).

  • Una volta ho letto una discussione sugli standard statistici e di rendicontazione e se tale decisione dovesse essere ritenuta necessaria per una rivista (non ricordo quale) mi ha convinto: l'idea espressa lì è che non è necessario che gli editori provino concordare e applicare alcuni standard (che causeranno molte discussioni inutili) perché:

    • chi usa le tecniche appropriate di solito ne è molto consapevole / orgoglioso e quindi (e dovrebbe) riferirà in dettaglio cosa è stato fatto.
    • Se un certo punto (ad esempio il dragaggio dei dati, la convalida non indipendente a livello del paziente) non è chiaramente indicato, il presupposto predefinito per i revisori / lettori è che lo studio non ha aderito ai principi appropriati in quella domanda (probabilmente perché non lo hanno fatto lo so meglio)

4

A volte le cose che vedi come "tortura di dati" non sono realmente. Non è sempre chiaro in anticipo esattamente cosa farai con i dati per fornire quelli che ritieni siano i veri risultati dell'esperimento fino a quando non li vedi.

Ad esempio, con i dati sui tempi di reazione per un'attività decisionale, spesso si desidera rifiutare i tempi che non riguardano la decisione (ovvero, quando stanno andando così in fretta, ovviamente stanno solo indovinando e non prendendo una decisione). È possibile tracciare l'accuratezza della decisione nei confronti di RT per vedere dove si verificano generalmente le ipotesi. Ma fino a quando non avrai testato quel particolare paradigma non avrai modo di sapere dove siano i cutoff (nel tempo, non nella precisione). Per alcuni osservatori una procedura del genere sembra torturare i dati, ma fintanto che non ha nulla a che fare direttamente con i test di ipotesi (non li si regola in base ai test), non si tratta di torturare i dati.

Lo snooping dei dati durante un esperimento è corretto purché sia ​​eseguito nel modo giusto. Probabilmente non è etico mettere il tuo esperimento in una scatola nera e fare l'analisi solo quando il numero pianificato di soggetti è stato eseguito. A volte è difficile dire che ci sono problemi con l'esperimento fino a quando non guardi i dati e dovresti esaminarne alcuni il prima possibile. La visualizzazione dei dati è fortemente denigrata perché equivale a vedere se p <0,05 e a decidere di continuare. Ma ci sono molti criteri in base ai quali puoi decidere di continuare a raccogliere che non fanno nulla di dannoso per i tuoi tassi di errore.

Supponi di voler assicurarti che la stima della varianza rientri in un intervallo probabilmente noto. Piccoli campioni possono avere stime di varianza piuttosto lontane, quindi è possibile raccogliere dati aggiuntivi fino a quando si sa che il campione è più rappresentativo. Nella simulazione seguente mi aspetto che la varianza in ogni condizione sia 1. Farò qualcosa di veramente folle e campionerò ogni gruppo in modo indipendente per 10 campioni, quindi aggiungerò soggetti fino a quando la varianza è prossima a 1.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Quindi, sono appena andato storto con il campionamento e rendendo le mie varianze vicine alle aspettative e continuo a non influenzare molto l'alfa (è leggermente inferiore a 0,05). Alcuni altri vincoli come gli N devono essere uguali in ciascun gruppo e non possono essere più di 30 e l'alfa è praticamente a 0,05. Ma che dire di SE? E se invece provassi a rendere la SE un dato valore? Questa è in realtà un'idea davvero interessante perché a mia volta sto impostando in anticipo la larghezza dell'IC (ma non la posizione).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Ancora una volta, l'alfa ha cambiato una piccola quantità anche se ho permesso a N di spostarsi fino a 46 dai 10 originali in base allo snooping dei dati. Ancora più importante, tutti gli ES rientrano in un intervallo ristretto in ciascuno degli esperimenti. È facile apportare una piccola regolazione alfa per risolverlo se è un problema. Il punto è che alcuni snooping dei dati fanno poco o nulla e possono persino portare benefici.

(A proposito, quello che sto mostrando non è un proiettile magico. In realtà non riduci il numero di soggetti a lungo termine perché la potenza per la simulazione della N variabile è quasi la stessa di una simulazione della N media )

Nessuno dei precedenti contraddice la recente letteratura sull'aggiunta di argomenti dopo l'inizio di un esperimento. In quegli studi hanno esaminato le simulazioni in cui hai aggiunto soggetti dopo aver fatto un test di ipotesi per abbassare il valore p. È ancora male e può gonfiare straordinariamente l'alfa. Inoltre, mi piacciono molto le risposte di January e Peter Flom. Volevo solo sottolineare che guardare i dati mentre li raccogli, e persino cambiare una N pianificata durante la raccolta, non sono necessariamente cattivi.


Nessuna di queste cose va bene, nel senso che non influisce sulla distribuzione campionaria delle statistiche dei test. Ovviamente risposte perfettamente sensate alle sorprese (cfr. @ Risposta di Pietro), ma diluiscono in qualche modo la natura confermativa del tuo esperimento, aumentando i "gradi di libertà dei ricercatori". È proprio per evitare sorprese che facciamo studi pilota per correggere il protocollo e definire preventivamente le regole di arresto, tenendo conto di loro nell'analisi. L'obiettivo è una procedura ben definita che può essere replicata in modo indipendente per dimostrare la validità dei risultati.
Scortchi - Ripristina Monica

Puoi sentirti libero di eseguire le simulazioni da solo, ma avere una regola di arresto basata sulla varianza (oltre una ragionevole N minima) non avrà alcun impatto sull'alfa e genererà una potenza prevista. Puoi anche avere una regola di arresto basata su SE e ottenere SE coerenti e quelle non influenzeranno l'alfa o la beta. Non puoi avere una pregola di arresto basata. Tutte le critiche alla modifica di N riguardano il farlo dopo un test di ipotesi (dovrebbero essere incluse anche altre cose). C'è il potenziale che ciò provochi la tentazione ... ma lo sto ignorando.
Giovanni,

Per quanto riguarda la distribuzione del tempo di reazione, stai suggerendo che è meglio scegliere un punto di taglio fisso basato su un pilota piuttosto che capire quando ogni soggetto indovina in base alla regressione logistica e utilizzare il proprio punto di taglio? (ovviamente il punto di taglio dell'accuratezza è fisso, ma non il tempo di reazione uno).
Giovanni,

(1) Regola di arresto basata sulla varianza: influisce sulla stima della varianza e pertanto può influire sui tassi di errore quando l'esperimento viene analizzato come se le dimensioni del campione fossero state fissate in precedenza. C'è una tensione tra l'avvertenza di "oltre una ragionevole N minima" data nel tuo commento e le "piccole dimensioni del campione" a cui fai riferimento nella tua risposta; senza dubbio hai il nous statistico per sapere quali approssimazioni sono abbastanza buone quando, ma non tutti lo fanno. Più in generale, un approccio ineguagliabile consiste nel definire chiaramente la regola di arresto prima dell'esperimento.
Scortchi - Ripristina Monica

(2) Distribuzione del tempo di reazione: No (anche se devo ammettere che avevo in mente qualcosa del genere); Stavo suggerendo che qualunque fosse il metodo utilizzato per rimuovere osservazioni inaffidabili, sarebbe stato sviluppato meglio da uno studio pilota e quindi applicato in un esperimento di conferma.
Scortchi - Ripristina Monica

0

Questo è davvero un problema culturale di pensiero sbilanciato, in cui la tendenza alla pubblicazione porta a favorire risultati positivi e la nostra natura competitiva richiede che editor e ricercatori siano visti per produrre risultati di interesse che sono nuovi o controversi, ad esempio nel senso di confutare i risultati di qualcun altro. Nella ricerca medica si stanno compiendo notevoli progressi nel porre rimedio a questo problema mediante la registrazione obbligatoria delle prove e la pubblicazione dei risultati con registrazioni di prove abbandonate da rendere pubbliche. Comprendo che, dal momento che la pubblicazione su riviste per ricerche non riuscite potrebbe non essere praticabile, ci sono piani per mantenere un database disponibile al pubblico. Risultati insoliti che non possono essere replicati non sono necessariamente il risultato di un reato, come forse con 50,

L'uso di metodi diversi non è necessariamente una soluzione. Ad esempio, quale chimico mescolerebbe i reagenti in modi diversi in condizioni diverse e si aspetterebbe gli stessi risultati come ovvio?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.