In inferenza del frequentista , vogliamo determinare con quale frequenza sarebbe accaduto qualcosa se un dato processo stocastico fosse stato ripetutamente realizzato. Questo è il punto di partenza per la teoria dei valori p, degli intervalli di confidenza e simili. Tuttavia, in molti progetti applicati, il processo "dato" non è realmente dato e lo statistico deve fare almeno un po 'di lavoro per specificarlo e modellarlo. Questo può essere un problema sorprendentemente ambiguo, come in questo caso.
Modellazione del processo di generazione dei dati
Sulla base delle informazioni fornite, il nostro miglior candidato sembra essere il seguente:
- Se il contatore da 100 V indica 100 V, l'ingegnere esegue nuovamente le misure con il contatore da 1000 V se è operativo. Altrimenti, segna semplicemente 100 V e va avanti.
Ma non è un po 'ingiusto per il nostro ingegnere? Supponendo che sia un ingegnere e non solo un tecnico, probabilmente capisce perché deve misurare nuovamente quando il primo metro legge 100 V; è perché il misuratore è saturo al limite superiore del suo intervallo, quindi non è più affidabile. Quindi forse quello che l'ingegnere farebbe davvero è
- Se il contatore da 100 V indica 100, l'ingegnere rimisura con il contatore da 1000 V se è operativo. Altrimenti, segna semplicemente 100 V, aggiunge un segno più per indicare la misurazione satura e continua.
Entrambi questi processi sono coerenti con i dati in nostro possesso, ma sono processi diversi e producono intervalli di confidenza diversi. Il processo 2 è quello che preferiremmo come statistici. Se le tensioni sono spesso ben al di sopra di 100 V, il processo 1 presenta una modalità di guasto potenzialmente catastrofica in cui le misurazioni vengono occasionalmente sottovalutate gravemente, poiché i dati vengono censurati senza che noi ne siamo consapevoli. L'intervallo di confidenza si allargherà di conseguenza. Potremmo mitigarlo chiedendo all'ingegnere di comunicarci quando il suo contatore da 1000 V non funziona, ma questo è davvero solo un altro modo per garantire che i nostri dati siano conformi al Processo 2.
Se il cavallo ha già lasciato la stalla e non siamo in grado di determinare quando le misurazioni sono e non sono censurate, potremmo provare a dedurre dai dati i tempi in cui il misuratore da 1000 V non funziona. Introducendo una regola di inferenza nel processo, creiamo effettivamente un nuovo Processo 1.5 distinto sia da 1 che da 2. La nostra regola di inferenza a volte funzionerebbe e talvolta no, quindi l'intervallo di confidenza dal Processo 1.5 sarebbe di dimensioni intermedie rispetto ai Processi 1 e 2.
In teoria, non c'è nulla di sbagliato o di sospetto in una singola statistica con tre diversi intervalli di confidenza associati a tre diversi processi stocastici plausibilmente rappresentativi. In pratica, pochi consumatori di statistiche desiderano tre diversi intervalli di confidenza. Ne vogliono uno, quello basato su ciò che sarebbe effettivamente accaduto, se l'esperimento fosse stato ripetuto più volte. Quindi, in genere, lo statistico applicato considera le conoscenze di dominio che ha acquisito durante il progetto, fa un'ipotesi istruita e presenta l'intervallo di confidenza associato al processo che ha indovinato. Oppure lavora con il cliente per formalizzare il processo, quindi non c'è bisogno di indovinare andare avanti.
Come rispondere a nuove informazioni
Nonostante l'insistenza dello statistico nella storia, l'inferenza del frequentista non richiede che ripetiamo le misurazioni quando otteniamo nuove informazioni che suggeriscono che il processo stocastico di generazione non è esattamente quello che inizialmente abbiamo concepito. Tuttavia, se il processo verrà ripetuto, dobbiamo assicurarci che tutte le ripetizioni siano coerenti con il processo del modello assunto dall'intervallo di confidenza. Possiamo farlo cambiando il processo o cambiando il nostro modello di esso.
Se cambiamo il processo, potremmo aver bisogno di scartare i dati passati raccolti in modo incoerente con quel processo. Ma questo non è un problema qui, perché tutte le variazioni del processo che stiamo prendendo in considerazione sono diverse solo quando alcuni dei dati sono superiori a 100 V, e ciò non è mai avvenuto in questo caso.
Qualunque cosa facciamo, modello e realtà devono essere allineati. Solo allora il tasso di errore frequentista teoricamente garantito sarà ciò che il cliente ottiene effettivamente a seguito di ripetute prestazioni del processo.
L'alternativa bayesiana
D'altra parte, se tutto ciò che ci interessa davvero è la probabile gamma della vera media per questo campione, dovremmo mettere da parte il frequentismo e cercare le persone che vendono la risposta a quella domanda: i bayesiani. Se seguiamo questa strada, tutta la contrattazione sui controfattuali diventa irrilevante; tutto ciò che conta è il priore e la probabilità. In cambio di questa semplificazione, perdiamo ogni speranza di garantire un tasso di errore in caso di ripetute prestazioni dell '"esperimento".
Perché il polverone?
Questa storia è stata costruita per far sembrare che lo statistico frequentatore si agiti su cose sciocche senza motivo. Onestamente, a chi importa di questi sciocchi controfattuali? La risposta, ovviamente, è che tutti dovrebbero preoccuparsene.I settori scientifici di vitale importanza soffrono attualmente di una grave crisi di replicazione , il che suggerisce che la frequenza delle false scoperte è molto più elevata di quanto previsto nella letteratura scientifica. Uno dei driver di questa crisi, sebbene non l'unico in alcun modo , è l'ascesa del p-hacking , che è quando i ricercatori giocano con molte varianti di un modello, controllando variabili diverse, fino a quando non assumono significato.
Il P-hacking è stato ampiamente diffamato nei media scientifici popolari e nella blogosfera, ma pochi in realtà comprendono cosa c'è di sbagliato nel p-hacking e perché. Contrariamente all'opinione statistica popolare, non c'è nulla di sbagliato nel guardare i tuoi dati prima, durante e dopo il processo di modellazione. Ciò che è sbagliato è la mancata segnalazione delle analisi esplorative e di come hanno influenzato il corso dello studio. Solo osservando l'intero processo possiamo persino determinare quale modello stocastico sia rappresentativo di quel processo e quale analisi frequentista sia appropriata per quel modello, se presente.
Affermare che una certa analisi del frequentista è appropriata è un'affermazione molto seria. Fare questa affermazione implica che ti stai vincolando alla disciplina del processo stocastico che hai scelto, che comporta un intero sistema di controfattuali su ciò che avresti fatto in diverse situazioni. Devi effettivamente conformarti a quel sistema affinché la garanzia del frequentista si applichi a te. Pochissimi ricercatori, specialmente quelli in settori che enfatizzano l'esplorazione a tempo indeterminato, si conformano al sistema e non riportano scrupolosamente le loro deviazioni; ecco perché ora abbiamo una crisi di replica nelle nostre mani. (Alcuni rispettati ricercatori hanno sostenuto che questa aspettativa non è realistica, una posizione con cui mi sento in sintonia, ma che va oltre lo scopo di questo post.)
Potrebbe sembrare ingiusto criticare gli articoli pubblicati sulla base di un'affermazione su ciò che avrebbero fatto se i dati fossero stati diversi. Ma questa è la natura (alquanto paradossale) del ragionamento frequentista: se accetti il concetto del valore p, devi rispettare la legittimità della modellizzazione di ciò che sarebbe stato fatto con dati alternativi.(Gelman & Loken, 2013)
In studi relativamente semplici e / o standardizzati, come gli studi clinici, possiamo adattarci a cose come confronti multipli o sequenziali e mantenere il tasso di errore teorico; in studi più complessi ed esplorativi, un modello di frequentista può essere inapplicabile perché il ricercatore potrebbe non essere pienamente consapevole di tutte le decisioni prese , per non parlare della registrazione e della presentazione esplicita. In tali casi, il ricercatore dovrebbe (1) essere onesto e diretto su ciò che è stato fatto; (2) presentano valori p o con avvertenze forti o per niente; (3) prendere in considerazione la presentazione di altre linee di evidenza, come la plausibilità preventiva dell'ipotesi o uno studio di replica di follow-up.