Posso testare la validità di un dato precedente?


10

Problema

Sto scrivendo una funzione R che esegue un'analisi bayesiana per stimare una densità posteriore dati un precedente informato e dati. Vorrei che la funzione inviasse un avviso se l'utente deve riconsiderare il precedente.

In questa domanda, sono interessato a imparare a valutare un precedente. Le domande precedenti hanno riguardato i meccanismi di affermazione dei priori informati ( qui e qui .)

I seguenti casi potrebbero richiedere una nuova valutazione del precedente:

  • i dati rappresentano un caso estremo che non è stato preso in considerazione quando si afferma il precedente
  • errori nei dati (ad es. se i dati sono in unità di g quando il precedente è in kg)
  • il precedente errato è stato scelto da una serie di priori disponibili a causa di un bug nel codice

Nel primo caso, i priori sono generalmente abbastanza diffusi che i dati generalmente li sopraffanno a meno che i valori dei dati non rientrino in un intervallo non supportato (ad esempio <0 per logN o Gamma). Gli altri casi sono bug o errori.

Domande

  1. Ci sono problemi relativi alla validità dell'utilizzo dei dati per valutare un precedente?
  2. qualche test particolare è più adatto a questo problema?

Esempi

Qui ci sono due set di dati che sono scarsamente abbinati a un prima perché provengono da popolazioni con (rosso) o (blu).N ( 0 , 5 ) N ( 8 , 0,5 )logN(0,1)N(0,5)N(8,0.5)

I dati blu potrebbero essere una valida combinazione precedente di dati + mentre i dati rossi richiederebbero una distribuzione precedente supportata per valori negativi.

inserisci qui la descrizione dell'immagine

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

Risposte:


4

Devi essere chiaro cosa intendi per "precedente". Ad esempio, se sei interessato alla mia precedente convinzione sull'aspettativa di vita nel Regno Unito, non può essere sbagliato. È la mia convinzione! Può essere incoerente con i dati osservati, ma questa è un'altra questione completamente.

Anche il contesto è importante. Ad esempio, supponiamo di essere interessati alla popolazione di qualcosa. Il mio precedente afferma che questa quantità deve essere rigorosamente non negativa. Tuttavia, i dati sono stati osservati con errori e abbiamo misurazioni negative. In questo caso, il precedente non è invalido, è solo il precedente per il processo latente.

Per rispondere alle tue domande,

  1. Ci sono problemi relativi alla validità dell'utilizzo dei dati per valutare un precedente?

Un purista direbbe che non dovresti usare i dati due volte. Tuttavia, la persona pragmatica avrebbe semplicemente ribattuto che in primo luogo non avevi pensato abbastanza al precedente.

2 Qualche test particolare è più adatto a questo problema?

Questo dipende davvero dal modello in esame. Suppongo che al massimo si possa confrontare l'intervallo precedente con l'intervallo di dati.



3

Ecco i miei due centesimi:

  1. Penso che dovresti essere preoccupato per i parametri precedenti rispetto ai rapporti.

  2. Parli di un precedente informativo, ma penso che dovresti avvisare gli utenti di ciò che è un ragionevole precedente non informativo. Voglio dire, a volte una normale con media zero e varianza 100 è piuttosto non informativa e talvolta è informativa, a seconda delle scale utilizzate. Ad esempio, se si stanno regredendo i salari sulle altezze (centimetri) rispetto al precedente precedente è piuttosto informativo. Tuttavia, se si regrediscono i salari dei registri sulle altezze (metri), il precedente non è così informativo.

  3. Se stai usando un precedente che è il risultato di un'analisi precedente, cioè il nuovo prioritario è in realtà un vecchio posteriore di un'analisi precedente, allora le cose sono diverse. Suppongo che questo sia il caso.


potresti chiarire per favore il punto 1? ri: punto 2, Come menzionato nel PO, non sono così interessato a questa domanda su come impostare il priore; Per quanto riguarda il punto 3: molti dei priori informati provengono dall'analisi dei dati disponibili (adattando una distribuzione adeguata ai dati) mentre altri si basano su conoscenze di esperti (questi sono generalmente meno vincolati).
David LeBauer,

Supponiamo che stai adattando un modello come: y ~ a + b * x / z. Se non ci sono vincoli sui valori di Z (se possono essere positivi o negativi), allora è difficile sapere cosa aspettarsi dal segnale da b. Inoltre, se Z può essere vicino a zero, allora b può essere troppo basso o troppo grande. Questo può rendere irragionevole il tuo precedente. Vedi questo articolo sul blog di Gelman: stat.columbia.edu/~cook/movabletype/archives/2011/06/…
Manoel Galdino

# 3: Come indicato, fai attenzione a utilizzare i dati due volte. Il thin è un modello gerarchico, per esempio, e un altro è scegliere un precedente che sia in accordo con la probabilità. In seguito, mi occuperei di tale analisi. Vedo la scelta di un precedente più come uno strumento di regolarizzazione.
Manoel Galdino,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.