Versione breve:
Sappiamo che la regressione logistica e la regressione probit possono essere interpretate come implicanti una variabile latente continua che viene discretizzata in base a una soglia fissa prima dell'osservazione. È disponibile una simile interpretazione variabile latente per, per esempio, la regressione di Poisson? Che ne dici della regressione binomiale (come logit o probit) quando ci sono più di due esiti discreti? A livello più generale, c'è un modo di interpretare qualsiasi GLM in termini di variabili latenti?
Versione lunga:
Un modo standard per motivare il modello probit per i risultati binari (ad esempio, da Wikipedia ) è il seguente. Abbiamo un / variabile non osservata latente risultato che viene distribuita normalmente, condizionatamente il predittore . Questa variabile latente è soggetta a un processo di soglia, quindi il risultato discreto che effettivamente osserviamo è se , se . Questo porta la probabilità di dato di assumere la forma di un CDF normale, con deviazione media e standard in funzione della soglia e della pendenza della regressione di suX u = 1 Y ≥ γ u = 0 Y < γ u = 1 X γ Y X Y X , rispettivamente. Quindi il modello probit è motivato come un metodo per stimare la pendenza da questa regressione latente di su .
Questo è illustrato nella trama seguente, di Thissen & Orlando (2001). Questi autori stanno discutendo tecnicamente il normale modello di ogiva dalla teoria della risposta agli oggetti, che assomiglia più o meno alla regressione probit per i nostri scopi (nota che questi autori usano al posto di , e la probabilità è scritta con invece della solita ).X T P
Siamo in grado di interpretare la regressione logistica praticamente nello stesso modo . L'unica differenza è che ora il inosservato continua segue una logistica di distribuzione, non una distribuzione normale, dato . Un argomento teorico per cui potrebbe seguire una distribuzione logistica piuttosto che una distribuzione normale è un po 'meno chiaro ... ma poiché la curva logistica risultante sembra essenzialmente la stessa della normale CDF a scopi pratici (dopo il riscalaggio), probabilmente ha vinto " In pratica, tende a importare molto quale modello usi. Il punto è che entrambi i modelli hanno un'interpretazione della variabile latente piuttosto semplice.X Y
Voglio sapere se possiamo applicare interpretazioni variabili latenti di aspetto simile (o, diavolo, di aspetto diverso) ad altri GLM - o persino a qualsiasi GLM.
Anche l'estensione dei modelli sopra riportati per tenere conto degli esiti binomiali con (cioè non solo gli esiti di Bernoulli) non mi è del tutto chiara. Presumibilmente si potrebbe fare questo immaginando che invece di avere una sola soglia , abbiamo più soglie (una in meno rispetto al numero di risultati discreti osservati). Ma dovremmo imporre qualche limite alle soglie, in modo che siano equidistanti. Sono abbastanza sicuro che qualcosa del genere potrebbe funzionare, anche se non ho elaborato i dettagli.γ
Passare al caso della regressione di Poisson mi sembra ancora meno chiaro. Non sono sicuro che la nozione di soglie sarà il modo migliore di pensare al modello in questo caso. Non sono inoltre sicuro del tipo di distribuzione che potremmo concepire come risultato latente.
La soluzione più desiderabile a questo sarebbe un modo generale di interpretare qualsiasi GLM in termini di variabili latenti con alcune distribuzioni o altro - anche se questa soluzione generale dovesse implicare una diversa interpretazione delle variabili latenti rispetto a quella usuale per la regressione logit / probit. Naturalmente, sarebbe ancora più interessante se il metodo generale fosse d'accordo con le consuete interpretazioni di logit / probit, ma si estendesse naturalmente anche ad altri GLM.
Ma anche se tali interpretazioni variabili latenti non sono generalmente disponibili nel caso GLM generale, vorrei anche conoscere interpretazioni variabili latenti di casi speciali come i casi Binomial e Poisson che ho menzionato sopra.
Riferimenti
Thissen, D. & Orlando, M. (2001). Teoria della risposta agli oggetti per gli oggetti segnati in due categorie. In D. Thissen & Wainer, H. (Eds.), Punteggio del test (pagg. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Modifica 23/09/2016
Esiste una sorta di senso banale in cui qualsiasi GLM è un modello di variabile latente, ovvero che possiamo sempre considerare il parametro della distribuzione dei risultati stimato come una "variabile latente", ovvero non osserviamo direttamente , diciamo, il parametro rate del Poisson, lo deduciamo dai dati. Considero questa un'interpretazione piuttosto banale, e non proprio quello che sto cercando, perché secondo questa interpretazione ogni modello lineare (e ovviamente molti altri modelli!) È un "modello variabile latente". Ad esempio, nella regressione normale stimiamo un "latente" di normale datoY X Y γ. Quindi questo sembra confondere la modellazione di variabili latenti con la sola stima dei parametri. Quello che sto cercando, ad esempio nel caso della regressione di Poisson, assomiglierebbe più a un modello teorico per cui il risultato osservato dovrebbe avere una distribuzione di Poisson in primo luogo, dati alcuni presupposti (che devono essere compilati da te!) la distribuzione della latente , il processo di selezione se ce n'è uno, ecc. Quindi (forse in modo cruciale?) dovremmo essere in grado di interpretare i coefficienti GLM stimati in termini di parametri di queste distribuzioni / processi latenti, in modo simile a come possiamo interpretare i coefficienti dalla regressione probit in termini di spostamenti medi nella variabile normale latente e / o spostamenti nella soglia .