I rapporti di probabilità e il confronto tra i modelli bayesiani offrono alternative superiori e sufficienti ai test di ipotesi nulla?


13

In risposta a un corpus crescente di statistici e ricercatori che criticano l'utilità dei test di ipotesi nulla (NHT) per la scienza come sforzo cumulativo, la Task Force sull'inferenza statistica dell'American Psychological Association ha evitato il divieto assoluto di NHT, ma ha invece suggerito che i ricercatori riporta le dimensioni dell'effetto oltre ai valori p derivati ​​da NHT.

Tuttavia, le dimensioni degli effetti non si accumulano facilmente tra gli studi. Gli approcci meta-analitici possono accumulare distribuzioni di dimensioni dell'effetto, ma le dimensioni dell'effetto sono in genere calcolate come un rapporto tra grandezza dell'effetto grezzo e "rumore" inspiegabile nei dati di un determinato esperimento, il che significa che la distribuzione delle dimensioni dell'effetto è influenzata non solo dal variabilità nella grandezza grezza dell'effetto tra gli studi, ma anche variabilità nella manifestazione del rumore tra gli studi.

Al contrario, una misura alternativa della forza dell'effetto, i rapporti di probabilità, consentono sia l'interpretazione intuitiva su base studio per studio, sia possono essere facilmente aggregati tra gli studi per la meta-analisi. All'interno di ogni studio, la probabilità rappresenta il peso dell'evidenza per un modello contenente un determinato effetto rispetto a un modello che non contiene l'effetto e potrebbe in genere essere riportato come, ad esempio, "Calcolo di un rapporto di probabilità per l'effetto di X ha rivelato 8 volte più prove per l'effetto che per il suo rispettivo null ". Inoltre, il rapporto di verosimiglianza consente anche una rappresentazione intuitiva della forza dei risultati nulli nella misura in cui i rapporti di verosimiglianza inferiori a 1 rappresentano scenari in cui il nullo è favorito e l'assunzione del reciproco di questo valore rappresenta il peso dell'evidenza per il nullo sull'effetto. In particolare, il rapporto di verosimiglianza è rappresentato matematicamente come il rapporto tra varianze inspiegabili dei due modelli, che differiscono solo per la varianza spiegata dall'effetto e quindi non è un enorme allontanamento concettuale da una dimensione dell'effetto. D'altra parte, il calcolo di un rapporto di probabilità meta-analitico, che rappresenta il peso dell'evidenza per un effetto attraverso gli studi, è semplicemente una questione di prendere il prodotto dei rapporti di probabilità tra gli studi.

Pertanto, sostengo che per la scienza che cerca di stabilire il grado di evidenza grossolana a favore di un effetto / modello, i rapporti di probabilità sono la strada da percorrere.

Esistono casi più sfumati in cui i modelli sono differenziabili solo nella dimensione specifica di un effetto, nel qual caso si potrebbe preferire una sorta di rappresentazione dell'intervallo su cui riteniamo che i dati siano coerenti con i valori dei parametri dell'effetto. In effetti, la task force APA raccomanda anche di riferire intervalli di confidenza, che possono essere utilizzati a tal fine, ma sospetto che anche questo sia un approccio sconsiderato.

Gli intervalli di confidenza sono spesso mal interpretati (sia da studenti che da ricercatori ). Temo inoltre che la loro capacità di utilizzo in NHT (mediante valutazione dell'inclusione di zero all'interno dell'IC) servirà solo a ritardare ulteriormente l'estinzione di NHT come pratica inferenziale.

Invece, quando le teorie sono differenziabili solo per la dimensione degli effetti, suggerisco che l'approccio bayesiano sarebbe più appropriato, in cui la distribuzione precedente di ciascun effetto è definita separatamente da ciascun modello e le comparazioni posteriori risultanti vengono confrontate.

Questo approccio, che sostituisce i valori di p, le dimensioni degli effetti e gli intervalli di confidenza con rapporti di probabilità e, se necessario, confronto del modello bayesiano, sembra sufficiente? Manca qualche caratteristica inferenziale necessaria fornita dalle alternative qui diffamate?


Potrebbe essere una domanda più mirata? Forse uno su approcci orientati alla verosimiglianza di un problema di inferenza specifico?
conjugateprior,

2
Ma mentre siamo qui: In esposizione: hai mischiato misure di dimensione dell'effetto, di solito identificate con un parametro, per misure di prove comparative per un modello completo? Gli LR sembrano solo candidati per quest'ultimo. Inoltre, se vuoi che le funzioni di Likelihood da sole o in combinazione ti dicano tutto ciò che i dati stanno cercando di dirti su un modello, allora sei fondamentalmente un bayesiano. Perché questo è il principio di verosimiglianza. (Vieni dentro, l'acqua è incantevole :-)
Coniugato il

Il titolo e il paragrafo conclusivo sembrano essere in disaccordo sul fatto che tu stia suggerendo di utilizzare intervalli di confidenza o di sostituirli.
Onestop,

@onestop: in effetti, mi sono appena reso conto di aver dimenticato di cambiare il titolo; Ho cambiato idea riguardo agli intervalli di confidenza mentre scrivevo la domanda. Ho modificato il titolo ora. Scuse per la confusione.
Mike Lawrence,

@Conjugate Priore: concorda completamente con le prime due frasi. Ma puoi accettare il principio di verosimiglianza senza essere bayesiano se non ti piace l'idea di priori e deduzione di base sulle sole probabilità - vedi libri di Edwards books.google.com/books?id=2a_XZ-gvct4C e Royall books.google .com / books? id = oysWLTFaI_gC . Anche se qualcuno (e vorrei ricordare chi e dove) una volta ha paragonato questo a rompere le uova ma non a mangiare la frittata.
onestop il

Risposte:


3

I principali vantaggi di un approccio bayesiano, almeno per me come ricercatore in Psicologia sono:

1) consente di accumulare prove a favore del nulla

2) aggira i problemi teorici e pratici dei test sequenziali

3) non è vulnerabile a rifiutare un null solo a causa di una N enorme (vedi punto precedente)

4) è più adatto quando si lavora con piccoli effetti (con effetti grandi sia i metodi Frequentista che Bayesiano tendono a concordare praticamente sempre)

5) consente di eseguire la modellazione gerarchica in modo fattibile. Ad esempio, l'introduzione di effetti di oggetti e partecipanti in alcune classi di modello come i modelli dell'albero di elaborazione multinomiale dovrebbe essere eseguita in un quadro bayesiano, altrimenti il ​​tempo di calcolo sarebbe follemente lungo.

6) ti dà intervalli di confidenza "reali"

7) Sono necessarie 3 cose: la probabilità, i priori e la probabilità dei dati. il primo che ottieni dai tuoi dati, il secondo che crei e il terzo non ti serve affatto data la proporzionalità. Ok, forse ho un po 'esagerato ;-)

Nel complesso, si può invertire la domanda: tutto ciò significa che le statistiche classiche per frequentatori non sono sufficienti? Penso che dire "no" sia un verdetto troppo duro. La maggior parte dei problemi può essere in qualche modo evitata se si va oltre i valori di p e si guardano cose come le dimensioni degli effetti, la possibilità di effetti sugli oggetti e replicare costantemente i risultati (vengono pubblicati troppi documenti di un esperimento!).

Ma non tutto è così facile con Bayes. Prendiamo ad esempio la selezione del modello con modelli non nidificati. In questi casi, i priori sono estremamente importanti in quanto influenzano notevolmente i risultati, e talvolta non si hanno molte conoscenze sulla maggior parte dei modelli con cui si desidera lavorare per ottenere i propri priori giusti. Inoltre, richiede molto tempo ....

Lascio due riferimenti a chiunque possa essere interessato ad immergersi in Bayes.

"Un corso di modellistica grafica bayesiana per le scienze cognitive" di Lee e Wagenmakers

"Modellazione bayesiana con WinBUGS" di Ntzoufras

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.