Qual è il punto di vista del frequentista sulla storia del voltmetro?

Qual è il punto di vista del frequentista sulla storia del voltmetro e le sue variazioni? L'idea alla base è che un'analisi statistica che fa appello a eventi ipotetici dovrebbe essere rivista se venisse in seguito appreso che quegli eventi ipotetici non avrebbero potuto aver luogo come ipotizzato.

La versione della storia su Wikipedia è fornita di seguito.

Un ingegnere preleva un campione casuale di tubi elettronici e misura la loro tensione. Le misure vanno da 75 a 99 volt. Uno statistico calcola la media del campione e un intervallo di confidenza per la media vera. Successivamente lo statistico scopre che il voltmetro legge solo fino a 100, quindi la popolazione sembra essere "censurata". Ciò richiede una nuova analisi, se lo statistico è ortodosso. Tuttavia, l'ingegnere afferma che ha un altro contatore che legge 1000 volt, che avrebbe usato se la tensione fosse stata superiore a 100. Questo è un sollievo per lo statistico, perché significa che la popolazione era effettivamente senza censure dopo tutto. Ma il giorno successivo l'ingegnere informa lo statistico che questo secondo metro non funzionava al momento della misurazione. Lo statista accerta che l'ingegnere non avrebbe tenuto le misurazioni fino a quando il contatore non fosse stato riparato e lo informa che sono necessarie nuove misurazioni. L'ingegnere è sbalordito. "Successivamente ti chiederai del mio oscilloscopio".

La storia è ovviamente pensata per essere sciocca, ma non mi è chiaro quali libertà vengano prese con la metodologia che prende in giro. Sono sicuro che in questo caso uno statistico applicato impegnato non si preoccuperebbe di questo, ma che dire di un frequentatore accademico hardcore?

Utilizzando un approccio frequentatore dogmatico, dovremmo ripetere l'esperimento? Potremmo trarre delle conclusioni dai dati già disponibili?

Per affrontare anche il punto più generale sollevato dalla storia, se vogliamo utilizzare i dati che già abbiamo, la revisione necessaria degli esiti ipotetici potrebbe essere adattata al quadro del frequentista?

likelihood frequentist

— Praxeolitic
fonte

L'approccio frequentista consente anche il condizionamento, quindi non sono sicuro che il ragionamento trovato nel preventivo sia pienamente adeguato.

— Xi'an,

@ Xi'an Anche se abbiamo incorporato la censura del campione o la probabilità che il secondo voltmetro venga rotto nei nostri calcoli, c'è il problema che stiamo cambiando il design dell'esperimento dopo che è avvenuto . Non so se ciò possa essere riconciliato con i metodi frequentisti.

— Prassolitico il

Forse controlla questa voce sul principio di condizionalità . Pur non essendo un frequentatore, non sono un grande fan di questa storia perché sembra implicare l'integrazione su tutti i possibili eventi ipotetici senza definire la gamma di quelli. Questo è piuttosto caricature.

— Xi'an,

Questo è davvero degno di discussioni ponderate e risposte. Ma si noti che "se lo statistico è ortodosso" e non incompetente o avido di lavoro aggiuntivo , dichiarerà che poiché nessuna delle osservazioni originali è stata censurata, la sua scelta originale della procedura (presumibilmente ammissibile) rimane ammissibile e quindi non vi è alcuna base per cambiarlo. La base teorica alla base delle statistiche "Frequentist" - la teoria delle decisioni - non serve a questo "principio di verosimiglianza".

— whuber

So cosa farei, a condizione che ci siano abbastanza dati. Vorrei fare un istogramma. Vorrei guardare l'istogramma. Se ci fosse un chiaro limite a 99 per creare un istogramma troncato unilaterale a quel punto, sarei sospettato che fosse troncato. Vorrei anche guardare i dati noti per non essere troncati e ispezionare le loro forme di curva, e vedere se riesco a ottenere un modello di probabilità adatto a quello, ad esempio una distribuzione gamma, o cosa no. Vorrei quindi tornare ai dati troncati (per ipotesi) e vedere se il resto è anche distribuito gamma (o qualsiasi altra cosa). Quindi ho bisogno di spiegare, "Perché gamma?" Se è così, ho finito.

— Carl

Risposte:

In inferenza del frequentista , vogliamo determinare con quale frequenza sarebbe accaduto qualcosa se un dato processo stocastico fosse stato ripetutamente realizzato. Questo è il punto di partenza per la teoria dei valori p, degli intervalli di confidenza e simili. Tuttavia, in molti progetti applicati, il processo "dato" non è realmente dato e lo statistico deve fare almeno un po 'di lavoro per specificarlo e modellarlo. Questo può essere un problema sorprendentemente ambiguo, come in questo caso.

Modellazione del processo di generazione dei dati

Sulla base delle informazioni fornite, il nostro miglior candidato sembra essere il seguente:

Se il contatore da 100 V indica 100 V, l'ingegnere esegue nuovamente le misure con il contatore da 1000 V se è operativo. Altrimenti, segna semplicemente 100 V e va avanti.

Ma non è un po 'ingiusto per il nostro ingegnere? Supponendo che sia un ingegnere e non solo un tecnico, probabilmente capisce perché deve misurare nuovamente quando il primo metro legge 100 V; è perché il misuratore è saturo al limite superiore del suo intervallo, quindi non è più affidabile. Quindi forse quello che l'ingegnere farebbe davvero è

Se il contatore da 100 V indica 100, l'ingegnere rimisura con il contatore da 1000 V se è operativo. Altrimenti, segna semplicemente 100 V, aggiunge un segno più per indicare la misurazione satura e continua.

Entrambi questi processi sono coerenti con i dati in nostro possesso, ma sono processi diversi e producono intervalli di confidenza diversi. Il processo 2 è quello che preferiremmo come statistici. Se le tensioni sono spesso ben al di sopra di 100 V, il processo 1 presenta una modalità di guasto potenzialmente catastrofica in cui le misurazioni vengono occasionalmente sottovalutate gravemente, poiché i dati vengono censurati senza che noi ne siamo consapevoli. L'intervallo di confidenza si allargherà di conseguenza. Potremmo mitigarlo chiedendo all'ingegnere di comunicarci quando il suo contatore da 1000 V non funziona, ma questo è davvero solo un altro modo per garantire che i nostri dati siano conformi al Processo 2.

Se il cavallo ha già lasciato la stalla e non siamo in grado di determinare quando le misurazioni sono e non sono censurate, potremmo provare a dedurre dai dati i tempi in cui il misuratore da 1000 V non funziona. Introducendo una regola di inferenza nel processo, creiamo effettivamente un nuovo Processo 1.5 distinto sia da 1 che da 2. La nostra regola di inferenza a volte funzionerebbe e talvolta no, quindi l'intervallo di confidenza dal Processo 1.5 sarebbe di dimensioni intermedie rispetto ai Processi 1 e 2.

In teoria, non c'è nulla di sbagliato o di sospetto in una singola statistica con tre diversi intervalli di confidenza associati a tre diversi processi stocastici plausibilmente rappresentativi. In pratica, pochi consumatori di statistiche desiderano tre diversi intervalli di confidenza. Ne vogliono uno, quello basato su ciò che sarebbe effettivamente accaduto, se l'esperimento fosse stato ripetuto più volte. Quindi, in genere, lo statistico applicato considera le conoscenze di dominio che ha acquisito durante il progetto, fa un'ipotesi istruita e presenta l'intervallo di confidenza associato al processo che ha indovinato. Oppure lavora con il cliente per formalizzare il processo, quindi non c'è bisogno di indovinare andare avanti.

Come rispondere a nuove informazioni

Nonostante l'insistenza dello statistico nella storia, l'inferenza del frequentista non richiede che ripetiamo le misurazioni quando otteniamo nuove informazioni che suggeriscono che il processo stocastico di generazione non è esattamente quello che inizialmente abbiamo concepito. Tuttavia, se il processo verrà ripetuto, dobbiamo assicurarci che tutte le ripetizioni siano coerenti con il processo del modello assunto dall'intervallo di confidenza. Possiamo farlo cambiando il processo o cambiando il nostro modello di esso.

Se cambiamo il processo, potremmo aver bisogno di scartare i dati passati raccolti in modo incoerente con quel processo. Ma questo non è un problema qui, perché tutte le variazioni del processo che stiamo prendendo in considerazione sono diverse solo quando alcuni dei dati sono superiori a 100 V, e ciò non è mai avvenuto in questo caso.

Qualunque cosa facciamo, modello e realtà devono essere allineati. Solo allora il tasso di errore frequentista teoricamente garantito sarà ciò che il cliente ottiene effettivamente a seguito di ripetute prestazioni del processo.

L'alternativa bayesiana

D'altra parte, se tutto ciò che ci interessa davvero è la probabile gamma della vera media per questo campione, dovremmo mettere da parte il frequentismo e cercare le persone che vendono la risposta a quella domanda: i bayesiani. Se seguiamo questa strada, tutta la contrattazione sui controfattuali diventa irrilevante; tutto ciò che conta è il priore e la probabilità. In cambio di questa semplificazione, perdiamo ogni speranza di garantire un tasso di errore in caso di ripetute prestazioni dell '"esperimento".

Perché il polverone?

Questa storia è stata costruita per far sembrare che lo statistico frequentatore si agiti su cose sciocche senza motivo. Onestamente, a chi importa di questi sciocchi controfattuali? La risposta, ovviamente, è che tutti dovrebbero preoccuparsene.I settori scientifici di vitale importanza soffrono attualmente di una grave crisi di replicazione , il che suggerisce che la frequenza delle false scoperte è molto più elevata di quanto previsto nella letteratura scientifica. Uno dei driver di questa crisi, sebbene non l'unico in alcun modo , è l'ascesa del p-hacking , che è quando i ricercatori giocano con molte varianti di un modello, controllando variabili diverse, fino a quando non assumono significato.

Il P-hacking è stato ampiamente diffamato nei media scientifici popolari e nella blogosfera, ma pochi in realtà comprendono cosa c'è di sbagliato nel p-hacking e perché. Contrariamente all'opinione statistica popolare, non c'è nulla di sbagliato nel guardare i tuoi dati prima, durante e dopo il processo di modellazione. Ciò che è sbagliato è la mancata segnalazione delle analisi esplorative e di come hanno influenzato il corso dello studio. Solo osservando l'intero processo possiamo persino determinare quale modello stocastico sia rappresentativo di quel processo e quale analisi frequentista sia appropriata per quel modello, se presente.

Affermare che una certa analisi del frequentista è appropriata è un'affermazione molto seria. Fare questa affermazione implica che ti stai vincolando alla disciplina del processo stocastico che hai scelto, che comporta un intero sistema di controfattuali su ciò che avresti fatto in diverse situazioni. Devi effettivamente conformarti a quel sistema affinché la garanzia del frequentista si applichi a te. Pochissimi ricercatori, specialmente quelli in settori che enfatizzano l'esplorazione a tempo indeterminato, si conformano al sistema e non riportano scrupolosamente le loro deviazioni; ecco perché ora abbiamo una crisi di replica nelle nostre mani. (Alcuni rispettati ricercatori hanno sostenuto che questa aspettativa non è realistica, una posizione con cui mi sento in sintonia, ma che va oltre lo scopo di questo post.)

Potrebbe sembrare ingiusto criticare gli articoli pubblicati sulla base di un'affermazione su ciò che avrebbero fatto se i dati fossero stati diversi. Ma questa è la natura (alquanto paradossale) del ragionamento frequentista: se accetti il concetto del valore p, devi rispettare la legittimità della modellizzazione di ciò che sarebbe stato fatto con dati alternativi.(Gelman & Loken, 2013)

In studi relativamente semplici e / o standardizzati, come gli studi clinici, possiamo adattarci a cose come confronti multipli o sequenziali e mantenere il tasso di errore teorico; in studi più complessi ed esplorativi, un modello di frequentista può essere inapplicabile perché il ricercatore potrebbe non essere pienamente consapevole di tutte le decisioni prese , per non parlare della registrazione e della presentazione esplicita. In tali casi, il ricercatore dovrebbe (1) essere onesto e diretto su ciò che è stato fatto; (2) presentano valori p o con avvertenze forti o per niente; (3) prendere in considerazione la presentazione di altre linee di evidenza, come la plausibilità preventiva dell'ipotesi o uno studio di replica di follow-up.

— Paolo
fonte

Sembra una buona risposta ma domani dovrò digerirla mentalmente.

— Prassolitico il

dalla descrizione del problema come affermato sembra che un ingegnere stia sostenendo che stava sempre facendo la tua opzione n. 2

— Aksakal

Forse, ma non l'ha detto esplicitamente. Grandi errori possono essere commessi quando le persone indovinano cosa pensano le altre persone invece di discutere esplicitamente.

— Paul,

Nei corsi di statistica applicata, viene data troppa poca enfasi al formalismo di cosa significhi stimare i parametri. Supponiamo di voler lanciare una moneta e registrare la frequenza delle teste. Entrando, assumiamo tacitamente che la distribuzione effettiva sia Bernoulli con p = q = 0,5. I, dopo 1.000 lanci, ci chiediamo "quanto è probabile che sia stata una moneta giusta" confrontando la realtà con la teoria / ipotesi. Ma in gran parte della scienza, le persone assumono che le cose siano normalmente distribuite, quindi usano i test t. Ma quelli non hanno senso se i rendimenti non sono normalmente distribuiti.

— eSurfsnake,

Sembra un errore logico. Indipendentemente dal fatto che il misuratore da 1000 volt funzionasse o meno, l'ingegnere dice "se qualche lettura sarebbe stata superiore a 100, avrei usato l'altro misuratore". Ma come avrebbe potuto sapere che la tensione era> 100 senza aver usato il misuratore da 1000 volt?

Non penso che questo enigma sia abbastanza ben formulato per costituire un'utile domanda filosofica. In pratica, concordo con la risposta che la cosa giusta è fare un istogramma e vedere se sembra troncato.

Ma, in ogni caso, nulla nella domanda affronta le questioni che contano, come: (1) qual è la distribuzione nota (o sospetta) delle letture, e perché? C'è qualche motivo per credere che siano normalmente distribuiti? (2) Se a questa domanda non viene data risposta, come è mai stato stimato un intervallo di confidenza?

Per portarlo all'estremo, viene misurata una certa "tensione". Supponiamo che l'alimentatore non possa erogare più di 100 volt. Se ciò fosse vero, presumibilmente non potrebbero esserci misure superiori a 100 volt, quindi il misuratore è irrilevante.

C'è un sacco di più - in termini di priori, vincoli, ecc. - che va in stima e simili rispetto alla domanda copre. Questo è diverso dal paradosso di "Monty Hall", che è nitido e pulito.

— eSurfsnake
fonte

Il punto della storia è criticare le interpretazioni della probabilità che si basano su eventi ipotetici estendendo queste interpretazioni a un estremo assurdo. I problemi che menzioni sono a parte il punto. Presumibilmente l'ingegnere avrebbe saputo cambiare voltmetri se necessario (ad es. Vede una lettura di "100") e lo statistico altrimenti avrebbe ragioni per usare l'approccio che sta usando (ad es. Capita solo che sappia già che la distribuzione normale è buona modello per queste letture).

— Prassolitico il