Confrontando i coefficienti di regressione logistica tra i modelli?


11

Ho sviluppato un modello logit da applicare a sei diversi set di dati trasversali. Quello che sto cercando di scoprire è se ci sono cambiamenti nell'effetto sostanziale di una determinata variabile indipendente (IV) sulla variabile dipendente (DV) che controlla altre spiegazioni in tempi diversi e nel tempo.

Le mie domande sono:

  • Come posso valutare dimensioni aumentate / diminuite nell'associazione tra IV e DV?
  • Posso semplicemente guardare le diverse magnitudini (dimensioni) dei coefficienti attraverso i modelli o devo passare attraverso qualche altro processo?
  • Se devo fare qualcos'altro, cos'è e come può essere / come posso farlo in SPSS?

    Inoltre, all'interno di un singolo modello,

  • Posso confrontare la dimensione relativa delle variabili indipendenti in base a punteggi non standardizzati se tutti sono codificati 0-1 o devo convertirli in punteggi standardizzati?
  • Ci sono problemi con i punteggi standardizzati?

2
Questo articolo potrebbe essere interessante, dx.doi.org/10.1093/esr/jcp006 , apparentemente confrontare gli effetti tra i modelli logistici è considerevolmente più complicato che nel caso OLS!
Andy W,

Risposte:


13

Mi concentrerò principalmente sulle tue prime tre domande. Le risposte brevi sono: (1) devi confrontare l'effetto del IV sul DV per ogni periodo di tempo, ma (2) solo confrontare le dimensioni può portare a conclusioni errate, e (3) ci sono molti modi per farlo ma nessun consenso su quale sia corretto.

Di seguito descrivo il motivo per cui non puoi semplicemente confrontare le magnitudini dei coefficienti e indicarti alcune soluzioni che sono state pensate finora.

Secondo Allison (1999), a differenza di OLS, i coefficienti di regressione logistica sono influenzati dall'eterogeneità non osservata anche quando tale eterogeneità non è correlata alla variabile di interesse.

Quando si adatta una regressione logistica come:

(1)

ln(11pi)=β0+β1x1i

Stai infatti adattando un'equazione che prevede il valore di una variabile latente che rappresenta la propensione sottostante di ogni osservazione ad assumere il valore nella variabile binaria dipendente, cosa succede se è al di sopra di una certa soglia. L'equazione per questo è (Williams, 2009): 1 y y1y

(2)

y=α0+α1x1i+σε

Si presume che il termine sia indipendente dagli altri termini e segua una distribuzione logistica - o una distribuzione normale in caso di probit e una distribuzione log-logistica in caso di log-log complementare e una distribuzione cauchy nel caso di Cauchit.ε

Secondo Williams (2009), i coefficienti nell'equazione 2 sono correlati ai coefficienti nell'equazione 1 attraverso:βαβ

(3)

βj=αjσj=1,...,J.

Nelle equazioni 2 e 3, è il fattore di ridimensionamento della variazione non osservata e possiamo vedere che la dimensione dei coefficienti stimati dipende da , che non viene osservato. Sulla base di ciò, Allison (1999), Williams (2009) e Mood (2009), tra gli altri, sostengono che non è possibile confrontare ingenuamente i coefficienti tra i modelli logistici stimati per diversi gruppi, paesi o periodi.β σσβσ

Questo perché i confronti possono portare a conclusioni errate se la variazione non osservata differisce tra gruppi, paesi o periodi. Entrambi i confronti che utilizzano modelli diversi e l'utilizzo di termini di interazione all'interno dello stesso modello presentano questo problema. Oltre a logit, questo vale anche per i suoi cugini probit, clog-log, cauchit e, per estensione, per i modelli di rischio temporale discreto stimati utilizzando queste funzioni di collegamento. Anche i modelli logit ordinati ne sono influenzati.

Williams (2009) sostiene che la soluzione è quella di modellare la variazione non osservata attraverso un modello di scelta eterogenea (aka, un modello in scala di posizione), e fornisce un richiamo Stata richiesto oglm per questo (Williams 2010). In R, i modelli di scelta eterogenea possono essere adattati alla hetglm()funzione del glmxpacchetto, che è disponibile tramite CRAN. Entrambi i programmi sono molto facili da usare. Infine, Williams (2009) menziona la PLUMroutine di SPSS per adattarsi a questi modelli, ma non l'ho mai usato e non posso commentare quanto sia facile da usare.

Tuttavia, esiste almeno un documento di lavoro che mostra che i confronti utilizzando modelli di scelta eterogenea possono essere ancora più distorti se l'equazione della varianza è erroneamente specificata o si verifica un errore di misurazione.

Mood (2010) elenca altre soluzioni che non implicano la modellizzazione della varianza, ma utilizzano il confronto delle variazioni di probabilità previste.

Apparentemente si tratta di un problema non risolto e spesso vedo articoli in conferenze del mio campo (Sociologia) che escogitano diverse soluzioni per questo. Ti consiglierei di vedere cosa fanno le persone nel tuo campo e poi decidere come affrontarlo.

Riferimenti


Sto cercando di implementare la soluzione Williams (2009) in R e sembra che le nuove versioni del pacchetto glmx non abbiano più la funzione hetprob (). Volevo solo verificare se conosci qualche alternativa per questo?
AliCivil,

1
Non uso Glmx da un po 'e non sapevo che fosse cambiato. Ora è disponibile tramite CRAN e, a quanto pare, la funzione utilizzata per il probit hereroskedastic è chiamata hetglm (). Aggiornerò questa risposta per riflettere più avanti (qui è l'ora di andare a letto). Spero che questo aiuti per ora.
Kenji,

3

Ci sono cambiamenti tra i set di dati? Posso rispondere senza vedere i dati! Sì. Ci sono. Quanto sono grandi? Questa è la chiave. Per me, il modo di vedere è guardando. Avrai rapporti di probabilità per ogni variabile indipendente per ogni set di dati - sono diversi nei modi in cui le persone troverebbero interessanti? Ora, è vero che ognuno avrà un errore standard e così via, e probabilmente ci sono modi per vedere se sono statisticamente significativamente diversi l'uno dall'altro, ma è davvero una domanda interessante? Se lo è, un modo per testarlo facilmente con il software sarebbe quello di combinare tutti gli studi e includere "studio" come un'altra variabile indipendente. Potresti quindi anche testare le interazioni, se lo desideri. Se vuoi farlo dipende dalle tue domande sostanziali.

Per quanto riguarda il confronto delle variabili all'interno di un modello, il problema principale con i punteggi standardizzati è che sono standardizzati sul campione specifico. Quindi, le stime dei parametri e così via sono quindi in termini di deviazioni standard delle variabili nel tuo particolare campione. Anche se il tuo campione è veramente un campione casuale di una popolazione, avrà deviazioni standard (leggermente) diverse da altri campioni casuali. Questo rende le cose confuse.

L'altro problema è che cosa significa anche la questione della "dimensione relativa". Se i tuoi IV sono cose ben comprese, puoi confrontare gli OR attraverso intervalli che significano qualcosa.


È utile, grazie Peter. Il motivo per cui ho posto la prima domanda è perché ho visto esattamente questo - confronti di coefficienti tra modelli all'interno di un campione e confronti tra modelli di campioni diversi - in documenti refereed. Non pensavo fosse l'approccio giusto e, evidentemente, ho ragione. Per quanto riguarda i dettagli tecnici, non posso semplicemente stimare un modello su tutti e sei i campioni e un termine di interazione tra il predittore chiave che voglio confrontare e una variabile che specifica ciascun campione (che rappresenta un periodo di tempo diverso)? È quello che stavi dicendo? Ho bisogno di una variabile per ogni s
Ejs

Ciao @ejs. Dovresti codificare "campionare" allo stesso modo di qualsiasi altra variabile categorica: codifica fittizia o codifica di effetti o altro.
Peter Flom - Ripristina Monica

Per quanto riguarda le interazioni .... sì, possono essere difficili da interpretare. Mi piace un approccio grafico per mostrare cosa significano.
Peter Flom - Ripristina Monica

3

Guilherme ha i soldi qui. Mentre le altre risposte sono utili, si noti che la regressione logistica (e tutte le regressioni non lineari come Poisson, per quella materia) sono fondamentalmente diverse dalla regressione lineare. Potrebbero esserci seri problemi con il fattore di ridimensionamento logit quando si esegue la stessa analisi su sei set di dati diversi e quindi si esegue tale analisi sul set di dati combinato. I cambiamenti nei coefficienti potrebbero non avere nulla a che fare con differenze significative (anche se statisticamente significative o sostanzialmente importanti). Potrebbero avere tutto a che fare con l'eterogeneità inosservata tra i campioni. Devi assolutamente provarlo. Molti ricercatori (se non la maggior parte) nei settori delle scienze sociali e politiche lo ignorano. Guilherme dà gli articoli fondamentali su questo che consiglio a tutti di guardare. I suggerimenti di Peters sono pratici, ma semplicemente codificare una variabile fittizia per il campione da cui provengono i dati non affronterà questa eterogeneità nel fattore di ridimensionamento. Puoi farlo in regressione lineare e l'eterogeneità non dovrebbe influire sui tuoi coefficienti, ma qui può.

Un altro aspetto dell'effetto dell'eterogeneità inosservata, unico per logit vs. regressione lineare, è l'effetto di regressori diversi in ciascun set di dati. Se non hai le stesse variabili, o probabilmente se sono misurate in modo diverso, hai una forma di distorsione da variabile omessa. A differenza della regressione lineare, una variabile omessa ortogonale al regressore chiave può comunque distorcere la stima. Come dice Cramer:

Anche con i regressori ortogonali, quindi, le variabili omesse deprimono verso zero, relativamente al suo valore nell'equazione completa. In altre parole, il dei modelli discreti varia inversamente all'entità dell'eterogeneità non osservata. La conseguenza pratica è che le stime dei campioni che differiscono al riguardo non sono direttamente comparabili. ( http://dare.uva.nl/document/2/96199 ) ßβ^β^

Cramer sottolinea anche se le stime dei coefficienti sono distorte verso il basso quando si omette una variabile, i derivati ​​parziali non lo sono. Questo è abbastanza complicato e dovresti leggere l'articolo per una spiegazione più lucida - il punto generale è, non guardare esclusivamente le probabilità di registro o i rapporti di probabilità. Considerare le probabilità e i derivati ​​previsti; vedere il comando margins in Stata per maggiori dettagli. JD Long ha un documento che approfondisce qui.

Infine, ci sono un certo numero di articoli che puoi utilizzare su Google per discutere dei termini di interazione nei modelli logit. La mia comprensione è stata quella di prendere il coefficiente logit su un'interazione come guida ma non definitiva, soprattutto se si preferisce vedere i coefficienti come rapporti di probabilità esponenziali. Osservare le probabilità previste e l'effetto marginale medio è migliore (di nuovo, consultare la documentazione sul comando margin di Stata per il logit, anche se si utilizza SPSS questo sarà comunque utile).

Non ho abbastanza familiarità con SPSS per sapere come quel pacchetto può affrontare questi problemi, ma dirò questo: quando ti imbatterai in problemi statistici più profondi come questo, è un'indicazione che è tempo per te di passare a un altro pacchetto flessibile e sofisticato come Stata o R.


+1 per raccomandare effetti marginali e per raccomandare di spostarsi in R.
Kenji il

1

Un altro strumento che può essere utile è il coefficiente di regressione standardizzato, o almeno una pseudo-versione approssimativa. È possibile ottenere una di queste versioni moltiplicando il coefficiente ottenuto per la deviazione standard del predittore. (Esistono altre versioni e alcuni dibattiti su quello migliore, ad esempio vedi Menard 2002, Applied Logistic Regression Analysis ( Google books )). Questo ti darà un modo per valutare la forza dell'effetto attraverso gli studi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.