Mi concentrerò principalmente sulle tue prime tre domande. Le risposte brevi sono: (1) devi confrontare l'effetto del IV sul DV per ogni periodo di tempo, ma (2) solo confrontare le dimensioni può portare a conclusioni errate, e (3) ci sono molti modi per farlo ma nessun consenso su quale sia corretto.
Di seguito descrivo il motivo per cui non puoi semplicemente confrontare le magnitudini dei coefficienti e indicarti alcune soluzioni che sono state pensate finora.
Secondo Allison (1999), a differenza di OLS, i coefficienti di regressione logistica sono influenzati dall'eterogeneità non osservata anche quando tale eterogeneità non è correlata alla variabile di interesse.
Quando si adatta una regressione logistica come:
(1)
ln( 11 - pio) =β0+ β1X1 i
Stai infatti adattando un'equazione che prevede il valore di una variabile latente che rappresenta la propensione sottostante di ogni osservazione ad assumere il valore nella variabile binaria dipendente, cosa succede se è al di sopra di una certa soglia. L'equazione per questo è (Williams, 2009): 1 y ∗y*1y*
(2)
y*= α0+ α1X1 i+ σε
Si presume che il termine sia indipendente dagli altri termini e segua una distribuzione logistica - o una distribuzione normale in caso di probit e una distribuzione log-logistica in caso di log-log complementare e una distribuzione cauchy nel caso di Cauchit.ε
Secondo Williams (2009), i coefficienti nell'equazione 2 sono correlati ai coefficienti nell'equazione 1 attraverso:βαβ
(3)
βj= αjσj = 1 , . . . , J.
Nelle equazioni 2 e 3, è il fattore di ridimensionamento della variazione non osservata e possiamo vedere che la dimensione dei coefficienti stimati dipende da , che non viene osservato. Sulla base di ciò, Allison (1999), Williams (2009) e Mood (2009), tra gli altri, sostengono che non è possibile confrontare ingenuamente i coefficienti tra i modelli logistici stimati per diversi gruppi, paesi o periodi.β σσβσ
Questo perché i confronti possono portare a conclusioni errate se la variazione non osservata differisce tra gruppi, paesi o periodi. Entrambi i confronti che utilizzano modelli diversi e l'utilizzo di termini di interazione all'interno dello stesso modello presentano questo problema. Oltre a logit, questo vale anche per i suoi cugini probit, clog-log, cauchit e, per estensione, per i modelli di rischio temporale discreto stimati utilizzando queste funzioni di collegamento. Anche i modelli logit ordinati ne sono influenzati.
Williams (2009) sostiene che la soluzione è quella di modellare la variazione non osservata attraverso un modello di scelta eterogenea (aka, un modello in scala di posizione), e fornisce un richiamo Stata richiesto oglm
per questo (Williams 2010). In R, i modelli di scelta eterogenea possono essere adattati alla hetglm()
funzione del glmx
pacchetto, che è disponibile tramite CRAN. Entrambi i programmi sono molto facili da usare. Infine, Williams (2009) menziona la PLUM
routine di SPSS per adattarsi a questi modelli, ma non l'ho mai usato e non posso commentare quanto sia facile da usare.
Tuttavia, esiste almeno un documento di lavoro che mostra che i confronti utilizzando modelli di scelta eterogenea possono essere ancora più distorti se l'equazione della varianza è erroneamente specificata o si verifica un errore di misurazione.
Mood (2010) elenca altre soluzioni che non implicano la modellizzazione della varianza, ma utilizzano il confronto delle variazioni di probabilità previste.
Apparentemente si tratta di un problema non risolto e spesso vedo articoli in conferenze del mio campo (Sociologia) che escogitano diverse soluzioni per questo. Ti consiglierei di vedere cosa fanno le persone nel tuo campo e poi decidere come affrontarlo.
Riferimenti
- Allison, PD (1999). Confronto tra coefficienti Logit e Probit tra gruppi. Sociological Methods & Research, 28 (2), 186–208.
- Mood, C. (2010). Regressione logistica: perché non possiamo fare ciò che pensiamo di poter fare e cosa possiamo fare al riguardo. European Sociological Review, 26 (1), 67–82.
- Williams, R. (2009). Utilizzo di modelli di scelta eterogenea per confrontare i coefficienti di logit e probit tra gruppi. Sociological Methods & Research, 37 (4), 531–559.
- Williams, R. (2010). Montaggio di modelli a scelta eterogenea con oglm. The Stata Journal, 10 (4), 540-567.