Confronto tra coefficienti logistici su modelli con diverse variabili dipendenti?


14

Questa è una domanda di follow-up da quella che ho posto un paio di giorni fa . Sento che pone una diversa inclinazione sul problema, quindi ho elencato una nuova domanda.

La domanda è: posso confrontare l'entità dei coefficienti tra i modelli con diverse variabili dipendenti? Ad esempio, su un singolo campione dico che voglio sapere se l'economia è un predittore di voti più forte alla Camera dei rappresentanti o alla presidenza. In questo caso, le mie due variabili dipendenti sarebbero il voto alla Camera (codificato 1 per il democratico e 0 per il repubblicano) e il voto per il presidente (1 per il democratico e 0 per il repubblicano) e la mia variabile indipendente è l'economia. Mi aspetterei un risultato statisticamente significativo in entrambi gli uffici, ma come faccio a valutare se ha un effetto "maggiore" in uno in più rispetto all'altro? Questo potrebbe non essere un esempio particolarmente interessante, ma sono curioso di sapere se esiste un modo per confrontare. So che non si può semplicemente guardare alla "dimensione" del coefficiente. Così, è possibile confrontare coefficienti su modelli con diverse variabili dipendenti? E, in tal caso, come si può fare?

Se qualcosa di tutto ciò non ha senso, fammi sapere. Tutti i consigli e i commenti sono apprezzati.


2
Come fai a sapere che non si può semplicemente guardare alla "dimensione" del coefficiente?
onestop

Ho unito i tuoi due account. Dovrai comunque registrarti, come indicato nelle FAQ . (@onestop Thx per indicare il duplicato.)
chl

Supponevo di non poter confrontare l '"effetto" dei predittori su tutti i modelli osservando i coefficienti dalle risposte alla mia domanda precedente. Le cose sono diverse per il mio esempio sopra?
Ejs,

2
Iniziare una taglia - sembra una domanda importante con tre risposte molto diverse, nessuna delle quali ha un solo voto . Possiamo fare di meglio. Il collegamento cartaceo di Andy W su questa domanda correlata sembra pertinente.
Matt Parker,

Risposte:


4

La risposta breve è "sì, è possibile", ma è necessario confrontare le stime di massima verosimiglianza (MLE) del "modello grande" con tutte le varianti in entrambi i modelli adattati a entrambi.

Questo è un modo "quasi formale" per ottenere la teoria della probabilità per rispondere alla tua domanda

Nell'esempio, e Y 2 sono lo stesso tipo di variabili (frazioni / percentuali) quindi sono comparabili. Presumo che tu adatti lo stesso modello ad entrambi. Quindi abbiamo due modelli:Y1Y2

l o g ( p 1 i

M1:Y1iBin(n1i,p1i)
M2:Y2iBin(n2i,p2i)log(p 2 i
log(p1io1-p1io)=α1+β1Xio
M2:Y2io~Bion(n2io,p2io)
log(p2io1-p2io)=α2+β2Xio

Quindi hai l'ipotesi che vuoi valutare:

H0:β1>β2

{Y1i,Y2i,Xi}i=1n e alcune informazioni precedenti (come l'uso del modello logistico). Quindi calcoli la probabilità:

P=Pr(H0|{Y1i,Y2i,Xi}i=1n,I)

H0

P=Pr(H0,α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

L'ipotesi limita semplicemente la gamma di integrazione, quindi abbiamo:

P=β2Pr(α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

Poiché la probabilità è condizionata dai dati, verrà considerata in due settori distinti per ciascun modello

Pr(α1,β1|{Y1i,Xi,Y2i}i=1n,I)Pr(α2,β2|{Y2i,Xi,Y1i}i=1n,I)

Y1iα2,β2XiY2i

Dalla teoria della regressione logistica standard, e ipotizzando probabilità precedenti uniformi, il posteriore per i parametri è approssimativamente bi-variabile variabile con media uguale agli MLE e varianza uguale alla matrice di informazioni, indicata da V1 e V2- che non dipendono dai parametri, solo dagli MLE. quindi hai integrali normali diretti con matrice di varianza nota.αj emargina senza alcun contributo (come qualsiasi altra "variabile comune") e ci rimane il solito risultato (posso pubblicare i dettagli della derivazione se vuoi, ma è roba piuttosto "standard"):

P=Φ(β^2,MLE-β^1,MLEV1:β,β+V2:β,β)

Dove Φ()è solo il normale CDF standard. Questo è il solito confronto del test dei mezzi normali. Ma si noti che questo approccio richiede l'uso dello stesso insieme di variabili di regressione in ciascuna. Nel caso multivariato con molti predittori, se si hanno variabili di regressione diverse, gli integrali diventeranno effettivamente uguali al test sopra, ma dagli MLE delle due beta del "modello grande" che include tutte le covariate di entrambi i modelli.


3

Perchè no? I modelli stanno stimando la quantità di 1 unità di cambiamento in qualsiasi predittore di modello influenzerà la probabilità di "1" per la variabile di risultato. Suppongo che i modelli siano gli stessi, che abbiano gli stessi predittori. Il modo più informativo per confrontare le magnitudini relative di un dato predittore nei 2 modelli è quello di utilizzare i modelli per calcolare (sia deterministicamente o meglio mediante simulazione) quanto un significativo incremento di cambiamento (ad es. +/- 1 DS) nel il predittore influenza le probabilità delle rispettive variabili di risultato - e confrontale! Ti consigliamo di determinare gli intervalli di confidenza per le due stime e così puoi assicurarti che la differenza sia "significativa", praticamente e statisticamente.


Grazie dmk8, molto utile. Alcuni punti / domande di follow-up: è questo che spesso si intende quando si fa riferimento alla variazione della variabile di interesse (ad esempio l'economia da cattiva a buona), tenendo tutte le variabili di controllo alla loro portata? Cosa intendi con deterministicamente? Come posso determinare gli intervalli di confidenza attorno alle probabilità?
Ejs,

2
Consultare il re. Non deluderà. King, G., Tomz, M., e Wittenberg., J. (2000). Valorizzare le analisi statistiche: migliorare l'interpretazione e la presentazione. Am. J. Pol. Sci, 44 (2), 347-361.
dmk38,

2

Presumo che per "la mia variabile indipendente sia l'economia" stai usando una scorciatoia per un predittore specifico.

Ad un certo livello, non vedo nulla di sbagliato nel fare una dichiarazione come

X prevede Y1 con un odds ratio di _ e un intervallo di confidenza del 95% di [_, _] mentre X prevede Y2 con un odds ratio di _ e un intervallo di confidenza del 95% di [_, _].

I recenti suggerimenti di @ dmk38 sembrano molto utili al riguardo.

Potresti anche voler standardizzare i coefficienti per facilitare il confronto.

A un altro livello, fai attenzione a prendere letteralmente le statistiche inferenziali (errori standard, valori p , IC) quando il tuo campione costituisce un campione non casuale della popolazione di anni a cui potresti voler generalizzare.


Sì, "l'economia" è una scorciatoia per la percezione delle condizioni economiche nazionali. Lo stesso consiglio si applica quando nel modello sono inclusi altri predittori (controlli)?
Ejs,

@Ejs - Temo non ci sia una risposta breve alla tua ultima domanda. Stai entrando in ciò che significa valutare le relazioni quando si utilizza il controllo statistico - un argomento incredibilmente intricato degno di uno studio approfondito. Probabilmente ti stai anche interessando all'argomento della selezione delle variabili, che è anche molto importante. Imho la migliore fonte per lo studente impegnato di questi argomenti è amazon.com/Multiple-regression-behavioral-research-Pedhazur/… di
Pedhazur

1

Diciamo che l'interesse sta nel confrontare due gruppi di persone: quelli con X1=1 e quelli con X1=0.

L'esponenziale di β1, il coefficiente corrispondente, viene interpretato come il rapporto delle probabilità di successo per quelli con X1=1 sopra le probabilità di successo per quelli con X1=0, subordinato alle altre variabili nel modello.

Quindi, se hai due modelli con variabili dipendenti diverse, allora l'interpretazione di β1cambia poiché non è condizionato dallo stesso insieme di variabili. Di conseguenza, il confronto non è diretto ...


Ciò ha implicazioni per il suggerimento di roland2?
Ejs,

@Ejs. Ti riferisci alla fase di standardizzazione? A proposito, la mia risposta aiuta? Ho frainteso la domanda?
Ocram,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.