Interpretazione variabile latente di modelli lineari generalizzati (GLM)

Versione breve:

Sappiamo che la regressione logistica e la regressione probit possono essere interpretate come implicanti una variabile latente continua che viene discretizzata in base a una soglia fissa prima dell'osservazione. È disponibile una simile interpretazione variabile latente per, per esempio, la regressione di Poisson? Che ne dici della regressione binomiale (come logit o probit) quando ci sono più di due esiti discreti? A livello più generale, c'è un modo di interpretare qualsiasi GLM in termini di variabili latenti?

Versione lunga:

Un modo standard per motivare il modello probit per i risultati binari (ad esempio, da Wikipedia ) è il seguente. Abbiamo un / variabile non osservata latente risultato che viene distribuita normalmente, condizionatamente il predittore . Questa variabile latente è soggetta a un processo di soglia, quindi il risultato discreto che effettivamente osserviamo è se , se . Questo porta la probabilità di dato di assumere la forma di un CDF normale, con deviazione media e standard in funzione della soglia e della pendenza della regressione di su $Y$ $X$ $u=1$ $Y \ge \gamma$ $u=0$ $Y < \gamma$ $u=1$ $X$ $\gamma$ $Y$ $X$ , rispettivamente. Quindi il modello probit è motivato come un metodo per stimare la pendenza da questa regressione latente di su . $Y$ $X$

Questo è illustrato nella trama seguente, di Thissen & Orlando (2001). Questi autori stanno discutendo tecnicamente il normale modello di ogiva dalla teoria della risposta agli oggetti, che assomiglia più o meno alla regressione probit per i nostri scopi (nota che questi autori usano al posto di , e la probabilità è scritta con invece della solita ). $\theta$ $X$ $T$ $P$

Siamo in grado di interpretare la regressione logistica praticamente nello stesso modo . L'unica differenza è che ora il inosservato continua segue una logistica di distribuzione, non una distribuzione normale, dato . Un argomento teorico per cui potrebbe seguire una distribuzione logistica piuttosto che una distribuzione normale è un po 'meno chiaro ... ma poiché la curva logistica risultante sembra essenzialmente la stessa della normale CDF a scopi pratici (dopo il riscalaggio), probabilmente ha vinto " In pratica, tende a importare molto quale modello usi. Il punto è che entrambi i modelli hanno un'interpretazione della variabile latente piuttosto semplice. $Y$ $X$ $Y$

Voglio sapere se possiamo applicare interpretazioni variabili latenti di aspetto simile (o, diavolo, di aspetto diverso) ad altri GLM - o persino a qualsiasi GLM.

Anche l'estensione dei modelli sopra riportati per tenere conto degli esiti binomiali con (cioè non solo gli esiti di Bernoulli) non mi è del tutto chiara. Presumibilmente si potrebbe fare questo immaginando che invece di avere una sola soglia , abbiamo più soglie (una in meno rispetto al numero di risultati discreti osservati). Ma dovremmo imporre qualche limite alle soglie, in modo che siano equidistanti. Sono abbastanza sicuro che qualcosa del genere potrebbe funzionare, anche se non ho elaborato i dettagli. $n>1$ $\gamma$

Passare al caso della regressione di Poisson mi sembra ancora meno chiaro. Non sono sicuro che la nozione di soglie sarà il modo migliore di pensare al modello in questo caso. Non sono inoltre sicuro del tipo di distribuzione che potremmo concepire come risultato latente.

La soluzione più desiderabile a questo sarebbe un modo generale di interpretare qualsiasi GLM in termini di variabili latenti con alcune distribuzioni o altro - anche se questa soluzione generale dovesse implicare una diversa interpretazione delle variabili latenti rispetto a quella usuale per la regressione logit / probit. Naturalmente, sarebbe ancora più interessante se il metodo generale fosse d'accordo con le consuete interpretazioni di logit / probit, ma si estendesse naturalmente anche ad altri GLM.

Ma anche se tali interpretazioni variabili latenti non sono generalmente disponibili nel caso GLM generale, vorrei anche conoscere interpretazioni variabili latenti di casi speciali come i casi Binomial e Poisson che ho menzionato sopra.

Riferimenti

Thissen, D. & Orlando, M. (2001). Teoria della risposta agli oggetti per gli oggetti segnati in due categorie. In D. Thissen & Wainer, H. (Eds.), Punteggio del test (pagg. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

Modifica 23/09/2016

Esiste una sorta di senso banale in cui qualsiasi GLM è un modello di variabile latente, ovvero che possiamo sempre considerare il parametro della distribuzione dei risultati stimato come una "variabile latente", ovvero non osserviamo direttamente , diciamo, il parametro rate del Poisson, lo deduciamo dai dati. Considero questa un'interpretazione piuttosto banale, e non proprio quello che sto cercando, perché secondo questa interpretazione ogni modello lineare (e ovviamente molti altri modelli!) È un "modello variabile latente". Ad esempio, nella regressione normale stimiamo un "latente" di normale dato $\mu$ $Y$ $X$ . Quindi questo sembra confondere la modellazione di variabili latenti con la sola stima dei parametri. Quello che sto cercando, ad esempio nel caso della regressione di Poisson, assomiglierebbe più a un modello teorico per cui il risultato osservato dovrebbe avere una distribuzione di Poisson in primo luogo, dati alcuni presupposti (che devono essere compilati da te!) la distribuzione della latente , il processo di selezione se ce n'è uno, ecc. Quindi (forse in modo cruciale?) dovremmo essere in grado di interpretare i coefficienti GLM stimati in termini di parametri di queste distribuzioni / processi latenti, in modo simile a come possiamo interpretare i coefficienti dalla regressione probit in termini di spostamenti medi nella variabile normale latente e / o spostamenti nella soglia . $Y$ $\gamma$

— Jake Westfall
fonte

Possiamo riformulare la tua domanda come "per quali famiglie GLM il predittore lineare corrisponde a un parametro di posizione per una distribuzione continua e un modello di selezione?" Per la regressione Probit e Logistic il predittore lineare è il parametro Gaussian e Logistic location location, rispettivamente. Il modello di selezione sta raggiungendo la soglia a 0. (FWIW, non credo che ce ne saranno molti altri - e in realtà Probit / Logistic sono la stessa famiglia, ma con diverse funzioni di collegamento ...)

— Andrew M

@AndrewM Penso che la riformulazione potrebbe probabilmente funzionare per GLM con esiti discreti. Ma esito a ridurre l'intera domanda fino a quello perché non riesco davvero a vedere come un modello di selezione + posizione potrebbe funzionare per GLM con risultati continui. In modo che la riformulazione sembrerebbe quasi precludere una risposta per quei GLM

— Jake Westfall,

I modelli di classe latenti rientrano nella categoria dei modelli di miscele finite. Un modo semplice per pensarci è che sono modelli di apprendimento supervisionati che, sul retro, dividono in gruppi l'eterogeneità del residuo dal modello. Una logica e un partizionamento simili potrebbero essere applicati all'eterogeneità inerente ai residui di qualsiasi modello, compresi i GLM. Naturalmente, l'approccio a questo partizionamento potrebbe essere una scelta non banale e potrebbe essere una soluzione completa, ma potrebbe essere fatto funzionare.

— Mike Hunter,

Se il glm induce una distribuzione non possiamo quindi scegliere moltissime distribuzioni latenti tale che ?

f (y_{i} | η_{i})

$f(y_i|\eta_i)$

g (θ_{i} | η_{i})

$g(\theta_i|\eta_i)$

f (y_{i} | η_{i}) = \int f (y_{i} | η_{i}, θ_{i}) g (θ_{i} | η_{i}) d θ_{i}

$f(y_i|\eta_i) = \int f(y_i|\eta_i, \theta_i) g(\theta_i|\eta_i) d\theta_i$

— Andrew M,

Il probit ordinato può avere un'interpretazione simile. Vedere la Becker & Kennedy di carta in ET.

— Dimitriy V. Masterov,

Per i modelli con più di un risultato discreto, esistono diverse versioni dei modelli di logit (ad es. Log condizionale, log multinomiale, log misto, log nidificato, ...). Vedi il libro di Kenneth Train sull'argomento: http://eml.berkeley.edu/books/choice2.html

Ad esempio, nel log condizionale, il risultato, , è l'auto scelta da un individuo, e potrebbero esserci, diciamo, auto tra cui scegliere e auto ha attributi dati da . Supponiamo quindi che l'individuo riceva l'utilità dalla scelta dell'auto , dove è distribuito in valori estremi di tipo I. Quindi viene data la probabilità che l'auto sia scelta $y$ $J$ $j$ $x_j$ $i$ $u_{ij} = x_j \beta + \varepsilon_{ij}$ $j$ $\varepsilon_{ij}$ $j$

Pr (y = j) = \frac{\exp (x_{j} β)}{\sum_{k = 1}^{J} \exp (x_{k} β)}

$\Pr(y=j) = \frac{\exp(x_j \beta)}{\sum_{k=1}^J \exp (x_k \beta)}$

In questo modello, , forma una classifica delle alternative. Stiamo cercando parametri, , in modo che questa classifica sia conforme alle scelte osservate che vediamo le persone fare. Ad esempio, se le auto più costose hanno quote di mercato più basse, tutto il resto è uguale, quindi il coefficiente sul prezzo deve essere negativo. $u_{ij}$ $\beta$

Gli economisti interpretano come "utilità" latente di fare ogni scelta. In microeconomia, c'è un considerevole corpus di lavori sulla teoria dell'utilità: vedi ad esempio https://en.wikipedia.org/wiki/Utility . $u$

Si noti che non esiste un parametro "soglia" qui: invece, quando un'utilità diventa maggiore della precedente, il consumatore passerà alla scelta di tale alternativa.

Pertanto, non può esserci un'intercettazione in : se ci fosse, ciò ridurrebbe semplicemente l'utilità di tutte le opzioni disponibili, lasciando la classifica preservata e la scelta invariata. $x_j \beta$

— Superpronker
fonte