Perché utilizzare una distribuzione beta sul parametro Bernoulli per la regressione logistica gerarchica?


13

Attualmente sto leggendo l'eccellente libro "Doing Bayesian Data Analysis" di Kruschke. Tuttavia, il capitolo sulla regressione logistica gerarchica (capitolo 20) è alquanto confuso.

La Figura 20.2 descrive una regressione logistica gerarchica in cui il parametro di Bernoulli è definito come una funzione lineare sui coefficienti trasformati attraverso una funzione sigmoide. Questo sembra essere il modo in cui la regressione logistica gerarchica è posta nella maggior parte degli esempi che ho visto anche in altre fonti online. Ad esempio: http://polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug

Tuttavia, quando i predittori sono nominali, aggiunge uno strato nella gerarchia: il parametro di Bernoulli è ora tratto da una distribuzione beta (Figura 20.5) con parametri determinati da mu e kappa, dove mu è la trasformazione sigmoide della funzione lineare dei coefficienti e kappa usa un gamma gamma precedente.

Questo sembra ragionevole e analogo all'esempio del lancio delle monete del capitolo 9, ma non vedo cosa abbia a che fare con i predittori nominali con l'aggiunta di una distribuzione beta. Perché non farlo nel caso dei predittori metrici e perché è stata aggiunta la distribuzione beta per i predittori nominali?

EDIT: chiarimenti sui modelli a cui mi riferisco. Innanzitutto, un modello di regressione logistica con predittori metrici (nessun beta precedente). Questo è simile ad altri esempi di regressione logistica gerarchica, come l'esempio di bug sopra riportato:

yiBernoulli(μi)μi=sig(β0+jβjxji)β0N(M0,T0)βjN(Mβ,Tβ)

Quindi l'esempio con predittori nominali. Ecco dove non capisco bene il ruolo del livello "inferiore" della gerarchia (che incorpora il risultato logistico in un beta precedente per un binomio) e perché dovrebbe essere diverso dall'esempio metrico.

ziBin(θi,N)θiBeta(aj,bj)aj=μjκbj=(1μj)κκΓ(Sκ,Rκ)μj=sig(β0+jβjxji)β0N(M0,T0)βjN(0,τβ)τβ=1/σβ2σβ2folded t(Tt,DF)

Risposte:


9

I due modelli confrontati hanno molte funzioni estranee e penso che tu possa riaffermare la tua domanda più chiaramente nel contesto dei seguenti due modelli semplificati:

Modello 1:

yi|μiBern(μi)μiπ(μi)

Modello 2:

yi|θiBern(θi)θi|μi,κBeta(μiκ,(1μi)κ)μiπ(μi)

Le tue domande sono: (1) quale ruolo ha la distribuzione beta; e relativi, (2) in che modo (se del tutto) il Modello 2 è diverso dal Modello 1?

In apparenza questi sembrano modelli piuttosto diversi, ma in effetti le distribuzioni marginali di in entrambi i modelli sono identiche. La distribuzione posteriore di nel Modello 1 è considerando che la distribuzione posteriore marginale di nel Modello 2 è: μiμi

p(μi|yi)μiyi(1μi)1yiπ(μi)
μi
p(μi|yi,κ)01θiyi+μiκ1(1θi)κ(1μi)yiB(κμi,κ(1μi))dθπ(μi)B(yi+μiκ,1yi+κ(1μi))π(μi)B(κμi,κ(1μi))μiyi(1μi)1yiπ(μi)

Pertanto, qualsiasi vantaggio ottenuto dall'uso del modello 2 è computazionale. I modelli gerarchici iperparametrici, come l'aggiunta di nel modello 2, possono talvolta migliorare l'efficienza della procedura di campionamento; ad esempio, introducendo relazioni coniugate condizionatamente tra gruppi di parametri (vedi la risposta di Jack Tanner) o interrompendo la correlazione tra i parametri di interesse (google "Espansione dei parametri").θi


5

La ragione per trarre il parametro di Bernoulli da una distribuzione beta è che la beta è coniugata al binomio. L'uso di una distribuzione preventiva coniugata consente a una soluzione in forma chiusa di trovare il posteriore.

EDIT: chiarimento. Entrambi i modelli funzioneranno. Anche con MCMC, è utile avere priori coniugati perché ciò consente l'uso di campionatori specializzati per vari tipi di distribuzioni che sono più efficienti dei campionatori generici. Ad esempio, consultare il manuale dell'utente JAGS sec. 4.1.1 e sec 4.2.


Potrebbe non esserci abbastanza contesto dal libro nella mia domanda, ma queste analisi vengono eseguite con il campionamento di Gibbs, quindi non è necessaria una rappresentazione in forma chiusa del posteriore. Nell'esempio che ho collegato, il parametro bernoulli non è fisso come una distribuzione beta, ma deriva da una trasformazione sigmoidea dei predittori lineari, che hanno normalmente coefficienti distribuiti. Questo è anche il modo in cui Kruschke presenta un esempio precedente (con predittori metrici) nel capitolo (il parametro bernoulli è solo la trasformazione sigmoidea della funzione lineare con coefficienti normalmente distribuiti)
user4733

@ user4733 Jack Tanner ha ragione sul fatto che beta sia il coniugato prima dei campioni di bernoulli. sembra più che una coincidenza che sia stato scelto. Sì, potresti fare un campionamento di Gibbs per ottenere la distribuzione posteriore, ma in un modello gerarchico è coinvolto più di un precedente e potrebbe essere che stai mettendo un precedente su un iperparametro (un parametro per una famiglia di distribuzioni precedenti. se lo farai prima il precedente. In quel contesto potrebbe essere conveniente usare un precedente coniugato. Alcune delle tue descrizioni del libro ci confondono.
Michael R. Chernick,

1
Stai prendendo piccoli estratti che creano lacune nella nostra capacità di capire cosa sta succedendo. Devi descrivere meglio il modello e la gerarchia dei priori affinché possiamo aiutarci (almeno per me)>
Michael R. Chernick,

Aggiunte alcune descrizioni ai modelli gerarchici a cui mi riferisco. Speriamo che aiuti.
user4733
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.