In che modo le statistiche bayesiane gestiscono l'assenza di priori?


16

Questa domanda è stata ispirata da due interazioni recenti che ho avuto, una qui in CV , l'altra su economics.se.

Lì avevo pubblicato in risposta al ben noto "Busta Paradox" (si mente, non come la "risposta corretta", ma come la risposta che scorre da specifiche ipotesi circa la struttura della situazione). Dopo un po 'un utente ha pubblicato un commento critico e io ho iniziato una conversazione cercando di capire il suo punto. Era ovvio che stava pensando alla maniera bayesiana, e continuava a parlare di priori, e poi mi sono reso conto, e ho detto a me stesso: "Aspetta un minuto, chi ha detto qualcosa su qualsiasi precedente? Nel modo in cui ho formulato il problema, non ci sono priori qui, semplicemente non entrano nella foto e non devono ".

Di recente, ho visto questa risposta qui nel CV, sul significato dell'indipendenza statistica. Ho commentato all'autore che la sua frase

"... se gli eventi sono statisticamente indipendenti allora (per definizione) non possiamo imparare l'uno dall'osservare l'altro."

era palesemente sbagliato. In uno scambio di commenti, ha continuato a tornare al problema di (le sue parole)

"Imparare" non significherebbe cambiare le nostre convinzioni su una cosa basata sull'osservazione di un'altra? In tal caso, l'indipendenza (per definizione) non lo preclude?

Ancora una volta, era ovvio che stava pensando alla maniera bayesiana e che considerava evidente che iniziamo da alcune credenze (cioè un precedente) , e quindi il problema è come possiamo cambiarle / aggiornarle. Ma come viene creata la prima convinzione?

Dal momento che la scienza deve conformarsi alla realtà, noto che esistono situazioni in cui gli esseri umani coinvolti non hanno priori (io, per prima cosa, cammino in situazioni senza precedenti per tutto il tempo - e per favore non discutere che io abbia dei priori ma io semplicemente non ce ne rendiamo conto, risparmiamoci una falsa psicoanalisi qui).

Da quando mi è capitato di aver sentito il termine "priori non informativi", ho diviso la mia domanda in due parti e sono abbastanza certo che gli utenti qui esperti nella teoria bayesiana, sappiano esattamente cosa sto per chiedere:

Q1: L'assenza di un precedente equivalente (in senso teorico rigoroso) è un precedente non informativo?

Se la risposta a Q1 è "Sì" (con qualche elaborazione per favore), significa che l'approccio bayesiano è applicabile universalmente e dall'inizio , poiché in ogni caso l'essere umano coinvolto dichiara "Non ho priori" che possiamo integrare in al suo posto un precedente non informativo per il caso in esame.

Ma se la risposta a Q1 è "No", allora arriva Q2 :

Q2: se la risposta a Q1 è "No", ciò significa che, nei casi in cui non vi sono priori, l'approccio bayesiano non è applicabile dall'inizio e dobbiamo prima formare un precedente in qualche modo non bayesiano, in modo che possiamo successivamente applicare l'approccio bayesiano?


2
Noterò che come scienziato "nessuna credenza precedente" è un'affermazione piuttosto estremista ... simile a vedere solo la "neve" statica di un vecchio televisore analogico sintonizzato su una stazione morta e sentire solo rumore bianco. Gli scienziati manifestamente non credono che nulla al mondo si riferisca o porti informazioni su qualcosa ... se credessimo che non saremmo scienziati. Certo, l'articolazione bayesiana di "non informativo" ha convinzioni molto generali su possibilità e probabilità.
Alexis,

2
@Alexis Dipende dalla situazione. Ad esempio, nel "Envelop Paradox" il problema è, dopo aver esaminato la quantità contenuta in una sola busta, indipendentemente dal fatto che avessi o meno avuto la certezza di sapere se quella che sto guardando è la quantità "grande" o la quantità "piccola". E non vedo nulla di estremo nel dichiarare qui "Non ho alcuna precedente convinzione sulla questione".
Alecos Papadopoulos,

1
Credi in precedenza che ci siano alcuni importi e che abbiano una certa distribuzione tra le buste? (Anche se sei agnostico riguardo alla distribuzione specifica o alla sua parametrizzazione?)
Alexis,

1
@Alexis Certo, ma è formulato come conoscenza strutturale che esiste indipendentemente dalle informazioni successive. Non è una convinzione che deve essere aggiornata. E poiché questa formulazione riflette la percezione di almeno un membro della razza umana (me stesso), è una situazione del mondo reale e la domanda è se sia considerata suscettibile all'analisi bayesiana o meno. Naturalmente per un'altra persona che dichiara "Ho la seguente convinzione precedente sulla distribuzione degli importi tra le buste", l'applicabilità dell'approccio bayesiano è ovvia.
Alecos Papadopoulos,

2
Sembra che tu creda che o non esiste un precedente o che esiste un precedente. In una modellistica bayesiana come la vedo io, l'analisi posteriore è condizionata o relativa alla scelta di un precedente e non lo uso come assoluto. Il mio precedente è un modo naturale di introdurre una struttura di probabilità e misurare lo spazio dei parametri.
Xi'an,

Risposte:


11

Q1: L'assenza di un precedente equivalente (in senso teorico rigoroso) è un precedente non informativo?

No.

Innanzitutto, non esiste una definizione matematica per un "precedente non informativo". Questa parola è usata solo in modo informale per descrivere alcuni priori.

Ad esempio, il priore di Jeffrey è spesso chiamato "non informativo". Questo priore generalizza l'uniforme precedente per problemi invarianti di traduzione. Il precedente di Jeffrey si adatta in qualche modo alla geometria riemanniana (teorica delle informazioni) del modello e quindi è indipendente dalla parametrizzazione, dipende solo dalla geometria del collettore (nello spazio delle distribuzioni) che è il modello. Potrebbe essere percepito come canonico, ma è solo una scelta. È solo l'uniforme precedente secondo la struttura riemanniana. Non è assurdo definire "uninformative = uniform" come una semplificazione della domanda. Questo vale per molti casi e aiuta a porre una domanda chiara e semplice.

Fare inferenza bayesiana senza un precedente è come "come posso indovinare senza alcuna ipotesi sulla distribuzione di X solo sapendo che X ha valori in [ 0 ; 1 ] ?" Questa domanda ovviamente non ha senso. Se rispondi 0.5, probabilmente hai in mente una distribuzione.E(X)XX[0;1]

Gli approcci bayesiano e frequentista rispondono semplicemente a diverse domande. Ad esempio, sugli stimatori che è forse il più semplice:

  • Frequentista (ad esempio): "Come posso stimare tale che la mia risposta abbia l'errore più piccolo (solo in media su x ) nel caso peggiore (oltre θ )?". Questo porta a stimatori minimax.θxθ

  • Bayesiano: "Come posso stimare tale che la mia risposta abbia l'errore più piccolo in media (oltre θ )?". Questo porta agli stimatori di Bayes. Ma la domanda è incompleta e deve specificare "media in che senso?". Quindi la domanda è completa solo quando contiene un precedente.θθ

In qualche modo, il frequentista mira al controllo del caso peggiore e non ha bisogno di un precedente. Bayesian mira al controllo medio e richiede un precedente per dire "medio in che senso?".

Q2: se la risposta a Q1 è "No", ciò significa che, nei casi in cui non vi sono priori, l'approccio bayesiano non è applicabile dall'inizio e dobbiamo prima formare un precedente in qualche modo non bayesiano, in modo che possiamo successivamente applicare l'approccio bayesiano?

Sì.

XN(μ,1)μ

A mio avviso, veri problemi si verificano con specifiche precedenti. Ciò che è importante qui è capire cosa dice un certo priorato.


2
(+1) Grazie, questo è davvero informativo.
Alecos Papadopoulos,

4

Prima di tutto, l'approccio bayesiano viene spesso utilizzato perché si desidera includere una conoscenza preliminare nel proprio modello per arricchirlo. Se non hai alcuna conoscenza precedente, ti attieni ai cosiddetti priori "non informativi" o settimanali informativi. Si noti che il precedente uniforme non è "non informativo" per definizione, dal momento che il presupposto sull'uniformità è un presupposto. Non esiste una cosa come un priore davvero non informativo. Ci sono casi in cui "potrebbe essere qualsiasi cosa" è un ragionevole presupposto "non informativo", ma ci sono anche casi in cui affermare che "tutti i valori sono ugualmente probabili" è un presupposto molto forte e irragionevole. Ad esempio, se supponessi che la mia altezza possa essere qualsiasi tra 0 centimetri e 3 metri, con tutti i valori ugualmente probabili a priori, questo non sarebbe un presupposto ragionevole e darebbe troppo peso ai valori estremi, quindi potrebbe distorcere il tuo posteriore.

D'altra parte, Bayesian sosterrebbe che in realtà non ci sono situazioni in cui non si hanno conoscenze o convinzioni di sorta. Puoi sempre assumere qualcosa e, come essere umano, lo fai sempre (psicologi ed economisti comportamentali hanno fatto tonnellate di ricerche su questo argomento). L'intera confusione bayesiana con i priori riguarda la quantificazione di questi preconcetti e la loro affermazione esplicita nel tuo modello, poiché l'inferenza bayesiana riguarda l' aggiornamento delle tue credenze .

È facile trovare argomenti "senza assunzioni precedenti", o priori uniformi, per problemi astratti, ma per problemi nella vita reale avresti una conoscenza precedente. Se avessi bisogno di scommettere sull'ammontare di denaro in una busta, sapresti che l'importo deve essere non negativo e finito. Potresti anche fare un'ipotesi colta sul limite superiore per la possibile quantità di denaro data la tua conoscenza delle regole del concorso, i fondi disponibili per il tuo avversario, la conoscenza della dimensione fisica della busta e la quantità di denaro che potrebbe fisicamente adattarsi in esso, ecc. Potresti anche fare delle ipotesi sulla quantità di denaro che il tuo avversario potrebbe essere disposto a mettere nella busta e possibilmente perdere. Ci sono molte cose che potresti conoscere come base per il tuo precedente.


2
@AlecosPapadopoulos mi dispiace di non aver detto quello che volevi sentire, ma credo che questa sia una parte della risposta alla tua domanda. Per quanto riguarda Q1, ovviamente assumere un uniforme prima non è lo stesso di non assumere prima, dal momento che hai assunto un'ipotesi. Se non vuoi usare i priori, usa la massima probabilità o l'approccio empirico di Bayes.
Tim

2
Cosa "volevo sentire"? A quanto ho capito, quando una persona pone una domanda qui, è ragionevole aspettarsi che la risposta riguarderà la domanda. Non c'è nulla di particolare che "volevo sentire" (anche qui non ci sono priori), ho solo cercato risposte a domande specifiche e il mio commento riguardava il non vedere in che modo la tua risposta rispondeva alle mie domande. Ma nel tuo commento penso che ci sia qualcosa di veramente rilevante: "approccio empirico di Bayes"? Puoi citare / indicare un po 'di letteratura?
Alecos Papadopoulos

3
@AlecosPapadopoulos empirico Bayes sta scegliendo i tuoi priori in base ai dati (cioè barare). Puoi iniziare con Wikipedia o articoli di Efron (facilmente googlable su Google scholar).
Tim

2
Supponiamo che tu abbia iniziato un problema lunedì e che tu abbia avuto un precedente, diciamo normale normale. Quindi, lo colleghi ai tuoi dati, esegui l'analisi, impari qualcosa. Martedì non puoi più usarlo prima, perché hai già imparato qualcosa. Quindi, devi collegare un altro diverso, davvero. Quindi, in stretto bayesiano, i priori sono monouso. Puoi letteralmente eseguirli attraverso il software UNA VOLTA. Nel momento in cui ottieni i risultati, il precedente è scaduto, a meno che tu non abbia imparato NIENTE. Quindi, in senso pratico, l'approccio bayesiano è inutilizzabile nella sua forma pura, tutti i bayesiani si imbrogliano costantemente
Aksakal,

3
@Aksakal Ma perché non è possibile utilizzare, martedì, come mio nuovo priore, il posteriore che ho ottenuto lunedì? Per come lo dico, è una procedura sequenziale totalmente valida. Quindi non capisco perché scrivi "I bayesiani si barano costantemente".
Alecos Papadopoulos,

3

domanda 1 Penso che la risposta sia probabilmente no. La mia ragione è che in realtà non abbiamo una definizione di "non informativo", tranne che per misurare in qualche modo quanto la risposta finale è lontana da un modello / probabilità arbitrariamente informativo. Molti priori non informativi sono convalidati contro esempi "intuitivi" in cui abbiamo già "il modello / probabilità" e "la risposta" in mente. Chiediamo quindi all'informativa prima di darci la risposta che vogliamo.

Il mio problema con questo è che ho difficoltà a credere che qualcuno possa avere un modello o una struttura di modello davvero ben informati per la loro popolazione, e allo stesso tempo non avere "informazioni" sui valori dei parametri probabili e improbabili per quel modello. Ad esempio, utilizzando la regressione logistica, consultare "UNA DISTRIBUZIONE PREDEFINITA DEFAULT INFORMATIVA PRECEDENTE. PER I MODELLI LOGISTICI E DI ALTRA REGIONE"

Penso che il precedente uniforme discreto sia l'unico che potremmo ragionevolmente dire sia il precedente "primo primo". Ma si incontrano problemi nell'usarlo, pensando di non avere "informazioni", ma poi improvvisamente avere reazioni a risposte "non intuitive" (suggerimento: se non ti piace una risposta bayesiana, potresti aver lasciato le informazioni fuori dal precedente o probabilità!). Un altro problema in cui ti imbatti è quello di ottenere la discretizzazione giusta per il tuo problema. E anche pensando a questo, è necessario conoscere il numero di valori discreti per applicare l'uniforme discreta prima.

Un'altra proprietà da considerare per il tuo precedente è il "comportamento della coda" relativo alla probabilità che stai utilizzando.

alla domanda 2

Concettualmente, non vedo nulla di male nello specificare una distribuzione senza l'uso di un precedente o di una probabilità. Puoi iniziare un problema dicendo "il mio pdf è ... e voglio calcolare ... wrt questo pdf". Quindi stai creando un vincolo per il precedente, il predittivo precedente e la probabilità. Il metodo bayesiano è quando hai un precedente e una probabilità e vuoi combinarli in una distribuzione posteriore.

Probabilmente si tratta di essere chiari su quali sono le tue probabilità. Quindi l'argomento passa a "questo pdf / pmf rappresenta ciò che dico che rappresenta?" - qual è lo spazio in cui vuoi essere, penso. Dal tuo esempio, stai dicendo che la singola distribuzione riflette tutte le informazioni disponibili - non esiste un "precedente" perché è già contenuto (implicitamente) nella distribuzione che stai utilizzando.

U(0,1)Bion(n,p) probabilità "sembra" come se corrispondesse a un "posteriore" per unBetun'(0,0) "prior" con 2 osservazioni - 1 da ogni categoria.

sul cosiddetto commento palesemente sbagliato

Ad essere sincero, sarei molto interessato a vedere come qualsiasi numero di osservazione potrebbe essere usato per prevedere un'osservazione "statisticamente indipendente". Ad esempio, se ti dico, genererò 100 variabili normali standard. Ti do 99 e ti faccio dare la migliore previsione per il 100 °. Dico che non puoi fare una previsione migliore per il centesimo di 0. Ma questo è lo stesso che prevederesti per il centesimo se non ti fornissi dati. Quindi non impari nulla dai 99 punti dati.

Tuttavia, se ti dico che era "una distribuzione normale", puoi utilizzare i 99 punti dati per stimare i parametri. Quindi i dati non sono più "statisticamente indipendenti", perché apprendiamo di più sulla struttura comune mentre osserviamo più dati. La tua migliore previsione ora utilizza tutti i 99 punti dati


1
(+1) Grazie per la tua risposta ponderata. Un chiarimento sull'affermazione "palesemente sbagliata": è stata fatta perché "apprendere" (e sto parlando del significato generale della parola) è un concetto molto più ampio di "prevedere". Se due eventi sono strutturalmente simili, possiamo imparare cose relative all'uno studiando l'altro, anche se possono essere statisticamente indipendenti. Parli anche della "struttura comune" nella tua risposta, ecco tutto.
Alecos Papadopoulos,

@Alecos Papadopoulos - il punto è che non puoi imparare senza rendere le cose statisticamente dipendenti. Prendendo il mio esempio, cosa si può imparare nello scenario 1? Inoltre, la struttura comune deve essere sconosciuta, non solo presente.
probabilityislogic

1
Commentare l'ultima frase del tuo post, il fatto che possiamo imparare qualcosa sulla struttura comune come fai notare, non rende le variabili casuali coinvolte "statisticamente dipendenti". Rimangono "indipendenti nella probabilità", che è un altro modo di dire "statisticamente indipendente", un concetto che ha un significato matematico molto preciso. Il fatto che condividano caratteristiche comuni (qui, il loro intervallo è caratterizzato dalla stessa distribuzione di probabilità), non li rende statisticamente dipendenti.
Alecos Papadopoulos,

La tua frase "indipendente nella probabilità" non mi è chiara e sospetto che sia per questo che non sono d'accordo con quello che stai dicendo. Se questo è sostituito da "condizionatamente indipendente" o "scambiabile", allora quello che dici ha senso. Sto ancora aspettando qualcosa che possa essere appreso da 99 i normali camper che aiutano con il 100 (non è necessario che si tratti di previsione).
probabilistica

1
@probabilisticlogic "Indipendente nella probabilità" è un'espressione che si trova di solito nelle opere più vecchie, e significa che cosa significa indipendenza statistica espressa attraverso le funzioni di distribuzione. I 99 camper mi permetteranno di apprendere tutti i tipi di proprietà, caratteristiche ecc. Del 100 °, dei momenti, dei quantili, e basta.
Alecos Papadopoulos,

3

Questa è solo una breve osservazione in aggiunta alle altre eccellenti risposte. Spesso, o almeno a volte, è in qualche modo arbitrario (o convenzionale) quale parte delle informazioni che entrano in un'analisi statistica è chiamata dati e quale parte viene chiamata prima . O, più in generale, possiamo dire che le informazioni in un'analisi statistica provengono da tre fonti: il modello , i dati e il precedente . In alcuni casi, come modelli lineari o glm, la separazione è abbastanza chiara, almeno in modo convenzionale.

Riutilizzerò un esempio della stima della massima verosimiglianza (MLE) in termini profani per illustrare il mio punto. Supponiamo che un paziente entri nello studio di un medico, con alcuni problemi medici che risultano difficili da diagnosticare. Questo medico non ha mai visto qualcosa di simile prima. Quindi, parlando con il paziente, emergono alcune nuove informazioni: questo paziente ha visitato l'Africa tropicale abbastanza recentemente. Quindi sembra al medico che questa potrebbe essere la malaria o qualche altra malattia tropicale. Ma si noti che questa informazione è chiaramente per noi dati, ma almeno in molti modelli statistici che potrebbero essere utilizzati, entrerà nell'analisi sotto forma di una distribuzione precedente, una distribuzione precedente che dà una maggiore probabilità ad alcune malattie tropicali. Ma potremmo forse creare un modello (più ampio) e più completo, in cui queste informazioni vengono immesse come dati. Quindi, almeno in parte, i dati di distinzione / precedente sono convenzionali.

Siamo abituati e accettiamo questa convenzione a causa della nostra enfasi su alcune classi di modelli convenzionali. Ma, nel più ampio schema di cose, al di fuori del mondo dei modelli statistici stilizzati, la situazione è meno chiara.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.