Interpretazione della regressione logistica ordinale


17

Ho eseguito questa regressione logistica ordinale in R:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Ho ottenuto questo riassunto del modello:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633 

Posso ottenere le probabilità di registro del coefficiente per mpgquesto:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679 

E le probabilità del registro delle soglie come:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353 

Qualcuno potrebbe dirmi se la mia interpretazione di questo modello è corretta:

All'aumentare mpgdi un'unità, le probabilità di spostarsi dalla categoria 1 carbin una delle altre 5 categorie, diminuiscono di -0,23. Se le probabilità del registro superano la soglia di 0,0015, il valore previsto per un'auto sarà la categoria 2 di carb. Se le probabilità del registro superano la soglia di 0,0121, il valore previsto per un'auto sarà di categoria 3 carbe così via.

Risposte:


10

Hai le probabilità perfettamente confuse e le probabilità del registro. Le probabilità del registro sono i coefficienti; le probabilità sono coefficienti esponenziali. Inoltre, l'interpretazione probabilità va il contrario . (Sono cresciuto con l'econometria pensando alle variabili dipendenti limitate, e l'interpretazione delle probabilità della regressione ordinale è ... uhm ... divertente per me.) Quindi la tua prima affermazione dovrebbe leggere: "All'aumentare mpg di un'unità, le probabilità di osservare la categoria 1 carb rispetto ad altre 5 categorie aumentare del 21%. "

Per quanto riguarda l'interpretazione delle soglie, devi davvero tracciare tutte le curve previste per poter dire qual è la previsione modale:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

inserisci qui la descrizione dell'immagine

La curva blu per la 3a categoria non è mai salita, e nemmeno la curva viola per la 6a categoria. Quindi se non altro direi che per i valori dimpg superiori a 27 ha, la categoria più probabile è 1; tra 18 e 27, categoria 2; tra 4 e 18, categoria 4; e sotto 4, categoria 8. (Mi chiedo che cosa stai studiando: camion commerciali? La maggior parte delle autovetture al giorno d'oggi dovrebbe avere mpg> 25). Puoi provare a determinare i punti di intersezione in modo più accurato.

Ho anche notato che hai queste strane categorie che vanno 1, 2, 3, 4, quindi 6 (saltando 5), quindi 8 (saltando 7). Se 5 e 7 mancavano dal design, va bene. Se queste sono categorie valide che carbnon rientrano, non va bene.


Nota come ho usato "passare dalla categoria 1 di carb a una qualsiasi delle altre 5 categorie". È sbagliato? Sto lottando per fare i conti con "Man mano che il mpg aumenta di un'unità, le probabilità di osservare la categoria 1 di carboidrati rispetto ad altre 5 categorie aumentano del 21%". Ciò implica che se mpg aumenta di circa 5 unità, ci sarà una probabilità del 100% di osservare la categoria 1. Ma se mpg è aumentato di 5 unità, ci dovrebbe essere una maggiore probabilità di osservare la categoria 8, non la categoria 1.
luciano

3
Ho aggiunto la figura; Sospettavo che avrebbe semplificato l'interpretazione della tua risposta - spero che ti piaccia. (A proposito, la documentazione per ? Mtcars dice che i dati sono i risultati dei test di un numero del 1974 di Motor Trends .)
gung - Ripristina Monica

Qualcuno potrebbe rispondere all'ultima domanda di Luciano? Trovo che questo sia molto interessante.
Erosennin,

1
mpg23134515

1
Come polrdefinito dal modello logit P(Y <= k | x) = zeta_k - eta, se l'interpretazione di @ StasK non dovesse essere letta, "Man mano che mpg aumenta di un'unità, le probabilità di osservare la categoria 1 carb rispetto ad altre 5 categorie aumentano del 26% ( exp(-(-0.2335)) = 1.26)."
moremo

3

Nel modello logit ordinato, le probabilità formano il rapporto tra la probabilità che si trovi in ​​qualsiasi categoria al di sotto di una soglia specifica rispetto alla probabilità che si trovi in ​​una categoria al di sopra della stessa soglia (ad esempio, con tre categorie: probabilità di essere nella categoria A o B vs C, nonché la probabilità di essere nella categoria A vs. B o C).

Questo porta al modello logit P(Y <= k | x) = zeta_k - etacome specificato nella descrizione di polr(). Pertanto, i rapporti di probabilità possono essere costruiti per categorie diverse o per regressori diversi. Quest'ultimo, il più comune, confronta le quote per le stesse categorie ma regressori diversi e uguali

oddS(yun'K|Xun')oddS(yBK|XB) = exp(-(ηun'-ηB)).

Il rapporto di probabilità per diverse categorie è definito come

oddS(yioK|Xio)oddS(yiom|Xio) = exp(ζK-ζm),

per cui il rapporto è indipendente dai regressori. Questa proprietà porta al modello di probabilità proporzionale nome alternativo .

In questo esempio semplice, ma forse non molto intuitivo, potresti formulare: Per un aumento di una unità nel regressore mpg, le probabilità di osservare la categoria 1 rispetto a qualsiasi categoria superiore (o le probabilità di osservare una categoria al di sotto di una certa soglia vs. osservando qualsiasi categoria al di sopra della stessa soglia) vengono moltiplicati per 1,26 o aumentati del 26% ( exp(-(-0.233 - 0)) = 1.263). Se si desidera formulare un rapporto di probabilità di diverse categorie, si potrebbe, ad esempio, dire le probabilità di essere nella categoria 1 rispetto a qualsiasi categoria sopra rispetto alle probabilità di essere nella categoria 1 o 2 rispetto a qualsiasi categoria sopra uguale aexp((-6.470) - (-4.415)) = 0.128 . Per cui quest'ultima interpretazione non è molto utile in questa configurazione specifica. Un esempio di un rapporto di probabilità per diverse categorie potrebbe essere la probabilità di andare al college rispetto alla probabilità di andare al liceo.

Infine, potresti essere interessato a quanto una variabile esplicativa deve cambiare per raggiungere la categoria di risposta più alta successiva. Per questo si confronta la lunghezza dell'intervallo(ζK-ζK-1)con un coefficiente adeguato. Questo dà un'idea di quanto grande debba essere il cambiamento nel proprio regressore per spostare la risposta dalla categoriaK alla categoria superiore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.