Perché i metodi bayesiani non richiedono più correzioni di test?


22

Andrew Gelman ha scritto un ampio articolo sul perché i test Bayesian AB non richiedono la correzione di ipotesi multiple: perché (di solito) non dobbiamo preoccuparci dei confronti multipli , 2012.

Non capisco bene: perché i metodi bayesiani non richiedono più correzioni di test?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

La mia comprensione è che l'approccio bayesiano mostrato sopra spiega la distribuzione sottostante condivisa da tutte le ipotesi (a differenza di una correzione di Bonferroni frequentista). Il mio ragionamento è corretto?



5
Sebbene i collegamenti di Patrick siano molto utili, sarebbe bello vedere una risposta più autonoma orientata al "critico scientifico statisticamente moderato".
congetture il

Risposte:


14

Un modo strano di rispondere alla domanda è notare che il metodo bayesiano non fornisce alcun modo per farlo perché i metodi bayesiani sono coerenti con le regole di prova accettate e i metodi frequentisti sono spesso in contrasto con essi. Esempi:

  • Con le statistiche dei frequentisti, il confronto tra i trattamenti da A a B deve penalizzare il confronto tra i trattamenti C e D a causa di considerazioni di errore di tipo I a livello familiare; con Bayesian il confronto AB è autonomo.
  • Per i test sequenziali per frequentatori, di solito sono necessarie penalità per più controlli dei dati. In un'impostazione sequenziale di gruppo, un confronto anticipato per A vs B deve essere penalizzato per un confronto successivo che non è stato ancora effettuato e un confronto successivo deve essere penalizzato per un confronto precedente anche se il confronto precedente non ha modificato il corso del studia.

Il problema deriva dall'inversione da parte del frequentatore del flusso di tempo e di informazioni, facendo sì che i frequentatori debbano considerare ciò che sarebbe potuto accadere invece di ciò che è accaduto . Al contrario, le valutazioni bayesiane ancorano tutte le valutazioni alla distribuzione precedente, che calibra le prove. Ad esempio, la distribuzione precedente per la differenza AB calibra tutte le future valutazioni di AB e non deve considerare il CD.

Con i test sequenziali, c'è una grande confusione su come regolare le stime dei punti quando un esperimento viene terminato in anticipo usando l'inferenza del frequentatore. Nel mondo bayesiano, il precedente "si tira indietro" su qualsiasi stima puntuale e la distribuzione posteriore aggiornata si applica all'inferenza in qualsiasi momento e non richiede considerazioni complesse sullo spazio del campione.


4
Non capisco davvero questa discussione. Se conduciamo 1000 diversi confronti con un solito approccio frequentista, ovviamente dovremmo aspettarci circa 50 significativi con effetti p <0,05 anche sotto zero. Da qui le correzioni. Se invece utilizziamo la stima / test bayesiano, avendo alcuni precedenti (intorno allo 0?) Per tutti i confronti, allora sì il precedente ridurrà i posteriori verso zero, ma avremmo comunque fattori di variazione casuali e / o fattori di Bayes e probabilmente avremo alcuni casi su 1000 che sembreranno effetti "sostanziali", anche quando gli effetti reali sono tutti zero.
ameba dice Ripristina Monica il

1
@amoeba - un modo per considerarlo è che Bayesian tiene conto di tutte le alternative - non solo "null" vs "una alternativa". Considerando tutti i mezzi alternativi generalmente ognuno ha una probabilità precedente minore - penalizzando efficacemente l'inferenza. Devi considerare tutte le combinazioni di vero / falso (supponendo che tu non abbia una conoscenza preliminare di combinazioni impossibili). Sei preoccupato per qualcosa che non va in * solo un caso *. Che dire degli altri casi? 2 1000 - 121000210001
probabilityislogic

1
Spiacente, @probabilityislogic, non sono sicuro di aver capito il tuo punto. Abbastanza giusto su "tutte le alternative", ma cosa succede nella pratica? Come ho detto, stiamo stimando 1000 differenze di gruppo (ad esempio); abbiamo una differenza di gruppo precedente; otteniamo 1000 posteriori, intervalli credibili al 95% o quant'altro. Quindi esamineremo ogni intervallo credibile per verificare se è abbastanza lontano da zero per essere un effetto "significativo / sostanziale". Se lo facciamo 1000 volte, probabilmente avremo alcuni "falsi positivi", nel senso che alcuni effetti appariranno grandi anche se tutti i 1000 effetti sono effettivamente pari a zero. No?
ameba dice Ripristina Monica il

1
@amoeba: il tuo argomento dipende dal fatto che quei intervalli / rifiuti siano indipendenti. In pratica, le persone di solito non testano un gran numero di ipotesi non correlate. Da qui il modello multilivello - per catturare le influenze comuni. Questo farà muovere insieme quegli intervalli credibili (cioè avranno distribuzioni campionarie correlate). Ciò porterà a più falsi positivi quando si usano modelli cattivi e meno quando si utilizzano modelli buoni. Certo, il bene o il male è in termini di informazioni sufficienti incorporate nei modelli. 1000
probabilityislogic

1
@probabilityislogic: Beh, sono assolutamente a favore dei modelli multilivello, anche se non li vedo necessariamente come uno strumento bayesiano - i modelli misti e gli ANOVA con effetti casuali sono comunemente usati insieme ai test t e simili ...
ameba dice Ripristina Monica

6

Questo tipo di modello gerarchico riduce le stime e riduce il numero di affermazioni false in misura ragionevole per un numero di ipotesi da piccolo a moderato. Garantisce un tasso di errore specifico di tipo I? No.

Questo particolare suggerimento di Gelman (che riconosce il problema osservando troppe cose diverse e quindi concludendo troppo facilmente erroneamente che vedi qualcosa per alcuni di loro - in effetti uno dei suoi argomenti da compagnia sul suo blog) è distinto da un'alternativa estrema punto di vista che sostiene che i metodi bayesiani non hanno bisogno di rendere conto della molteplicità, perché tutto ciò che conta è la tua probabilità (e il tuo precedente).


1
(+1) Secondo la mia conoscenza, in alcuni casi (ad es. Non dimensionale con corrispondenza precedente), l'inferenza bayesiana non offre alcun controllo sul tasso di errore di tipo 1. Quindi la correzione di test multipli nell'impostazione bayesiana non può essere considerata IHMO come una correzione per l'errore di tipo 1.
peuhp


6

Domanda molto interessante, ecco la mia opinione.

Si tratta solo di codificare le informazioni, quindi girare la manovella bayesiana. Sembra troppo bello per essere vero, ma entrambi sono più difficili di quanto sembri.

Comincio con la domanda

Quali informazioni vengono utilizzate quando ci preoccupiamo di confronti multipli?

Posso pensare ad alcuni - il primo è "dragaggio dei dati" - testare "tutto" fino a quando non si ottengono abbastanza passaggi / fallimenti (penso che quasi tutte le statistiche addestrate sarebbero esposte a questo problema). Hai anche meno sinistri, ma essenzialmente lo stesso "Ho tanti test da eseguire - sicuramente tutti non possono essere corretti".

Dopo averci pensato, una cosa che noto è che non si tende a sentire molto su ipotesi specifiche o confronti specifici. Riguarda la "collezione" - questo fa scattare il mio pensiero verso la scambiabilità - le ipotesi a confronto sono in qualche modo "simili" tra loro. E come si codifica la scambiabilità nell'analisi bayesiana? - iper-priori, modelli misti, effetti casuali, ecc. !!!

Ma la intercambiabilità ti porta solo in parte. È tutto intercambiabile? Oppure hai "scarsità" - come solo pochi coefficienti di regressione diversi da zero con un ampio pool di candidati. I modelli misti e gli effetti casuali normalmente distribuiti non funzionano qui. Rimangono "bloccati" tra il rumore schiacciato e lasciando intatti i segnali (ad esempio nel tuo esempio mantieni uguali i parametri di posizione "B" e posizioneC e impostano la posizione Un parametro "vero" arbitrariamente grande o piccolo e guarda il fallimento del modello misto lineare standard). . Ma può essere risolto, ad esempio con priori "punta e lastra" o priori "ferro di cavallo".

Quindi si tratta davvero di descrivere il tipo di ipotesi di cui stai parlando e di ottenere il maggior numero di caratteristiche conosciute riflesse nel precedente e nella probabilità. L'approccio di Andrew Gelman è solo un modo per gestire implicitamente un'ampia classe di confronti multipli. Proprio come i minimi quadrati e le distribuzioni normali tendono a funzionare bene nella maggior parte dei casi (ma non in tutti).

In termini di come lo fa, potresti pensare a un ragionamento di una persona come segue - il gruppo A e il gruppo B potrebbero avere la stessa media - Ho guardato i dati e i mezzi sono "vicini" - Quindi, per ottenere una stima migliore per entrambi, dovrei raggruppare i dati, poiché il mio pensiero iniziale era che avevano la stessa media. - Se non sono gli stessi, i dati dimostrano che sono "vicini", quindi unire un po '"non mi farà troppo male se la mia ipotesi fosse sbagliata (tutti i modelli sono sbagliati, alcuni sono utili)

Si noti che tutte le cerniere sopra nella premessa iniziale "potrebbero essere le stesse". Portalo via e non c'è giustificazione per il pooling. Probabilmente puoi anche vedere un modo "normale di distribuzione" di pensare ai test. "Zero è molto probabilmente", "se non zero, quindi vicino a zero è il prossimo molto probabilmente", "valori estremi sono improbabili". Considera questa alternativa:

  • le medie del gruppo A e del gruppo B potrebbero essere uguali, ma potrebbero anche essere drasticamente diverse

Quindi l'argomento sul raggruppamento "un po '" è una pessima idea. È meglio scegliere il pool totale o il pool zero. Molto più simile a un Cauchy, punta e lastra, tipo di situazione (molta massa intorno allo zero e molta massa per valori estremi)

Non è necessario affrontare tutti i confronti multipli, poiché l'approccio bayesiano sta incorporando le informazioni che ci portano a preoccuparci del precedente e / o della probabilità . In un certo senso è più un promemoria pensare correttamente a quali informazioni sono disponibili e assicurarsi di averle incluse nell'analisi.


2
Quindi un modo per ridurre i coefficienti a zero è a meno che non ci sia davvero qualcosa da fare è il lazo; nella versione frequentista di esso, si applica una norma sulla somma dei coefficienti, e nella versione bayesiana di esso si utilizzano i priori nettamente acuti (Laplace ). Quindi, in questo caso, sapendo che vuoi avere per lo più zero e una manciata di non zero nell'output, modifichi il precedente per corrispondere a quell'affermazione che zero è un valore molto più probabile di qualsiasi altro (rispetto all'affermazione del precedente normale che i valori vicino allo zero hanno circa la probabilità dello zero stesso). exp ( - | x | )l1exp(|x|)
StasK

@StasK - l1 funzionerebbe meglio, ma dato che è log-concavo farebbe fatica a non zeri sparsi. Quelli che ho citato sono tutti log-convessi. Una variante simile a l1 è generalizzata doppio Pareto - ottenere prendendo una miscela di parametro di scala Laplace (simile al lazo adattativo ML parlare)
probabilityislogic

5

In primo luogo, quando capisco il modello che hai presentato, penso che sia un po 'diverso dalla proposta Gelman, che assomiglia di più a:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

In pratica, aggiungendo questo commonLocationparametro, le inferenze sui parametri delle 3 distribuzioni (qui posizioni 1, 2 e 3) non sono più indipendenti l'una dall'altra. Inoltre, commonLocationtende a ridurre i valori attesi dei parametri verso uno centrale (generalmente stimato). In un certo senso, funziona come una regolarizzazione su tutte le inferenze rendendo non necessaria la necessità di correzione per la correzione multipla (come in pratica eseguiamo una singola stima multivariata contabile dall'interazione tra ciascuna di esse attraverso l'uso del modello).

Come sottolineato dall'altra risposta, questa correzione non offre alcun controllo sull'errore di tipo I, ma nella maggior parte dei casi, il metodo bayesiano non offre alcun controllo di questo tipo anche alla singola scala di inferenza e la correzione per il confronto multiplo deve essere pensata diversamente nel bayesiano ambientazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.