Coefficiente negativo nella regressione logistica ordinata


17

Supponiamo di avere la risposta ordinale e un insieme di variabili che pensiamo spiegherò . Quindi eseguiamo una regressione logistica ordinata di (matrice di progettazione) su (risposta).X : = [ x 1 , x 2 , x 3 ] y X yy:{Bad, Neutral, Good}{1,2,3}X:=[x1,x2,x3]yXy

Supponiamo che il coefficiente stimato di , chiamalo , nella regressione logistica ordinata sia . Come posso interpretare il odds ratio (OR) di ?β 1 - 0,5 e - 0,5 = 0,607x1β^10.5e0.5=0.607

Dico "per un aumento di 1 unità in , ceteris paribus, le probabilità di osservare sono volte la probabilità di osservare e per la stessa modifica in x_1 , le probabilità di osservare \ text {Neutral} \ cup \ text {Good} sono 0.607 volte le probabilità di osservare \ text {Bad} "? Buono 0.607 Cattivo Neutro x 1 Neutro Buono 0.607 Cattivox1Good0.607BadNeutralx1NeutralGood0.607Bad

Non riesco a trovare alcun esempio di interpretazione del coefficiente negativo nel mio libro di testo o in Google.


2
Si, è corretto. È quasi identico a come interpreti i coefficienti positivi.
Peter Flom - Ripristina Monica

2
NB: di solito diciamo "regresso y su X ", non viceversa.
gung - Ripristina Monica

Risposte:


25

Sei sulla strada giusta, ma dai sempre un'occhiata alla documentazione del software che stai utilizzando per vedere quale modello è effettivamente adatto. Supponi una situazione con una variabile dipendente categoriale Y con le categorie ordinate 1,,g,,k e i predittori X1,,Xj,,Xp .

"In the wild", puoi trovare tre opzioni equivalenti per scrivere il modello teorico di probabilità proporzionale con diversi significati di parametri impliciti:

  1. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g+β1X1++βpXp(g=1,,k1)
  2. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g(β1X1++βpXp)(g=1,,k1)
  3. logit(p(Yg))=lnp(Yg)p(Y<g)=β0g+β1X1++βpXp(g=2,,k)

(I modelli 1 e 2 hanno la limitazione che nelle regressioni logistiche binarie separate , il non varia con , e , il modello 3 ha la stessa restrizione su e richiede che )k1βjgβ01<<β0g<<β0k1βjβ02>>β0g>>β0k

  • Nel modello 1, un positivo significa che un aumento predittore è associata ad un aumento probabilità per una bassa categoria in .βjXjY
  • Il modello 1 è in qualche modo controintuitivo, quindi il modello 2 o 3 sembra essere il preferito nel software. Qui, una positiva significa che un aumento del predittore è associata ad un aumento probabilità per una più alta categoria in .βjXjY
  • I modelli 1 e 2 portano alle stesse stime per , ma le loro stime per hanno segni opposti.β0gβj
  • I modelli 2 e 3 portano alle stesse stime per , ma le loro stime per hanno segni opposti.βjβ0g

Supponendo che il tuo software utilizzi il modello 2 o 3, puoi dire "con un aumento di 1 unità in , ceteris paribus, le probabilità previste di osservare ' ' rispetto all'osservazione ' "cambia di un fattore di .", e similmente "con un aumento di 1 unità in , ceteris paribus, le probabilità previste di osservare" 'rispetto all'osservazione' 'cambia di un fattore di . " Si noti che nel caso empirico, abbiamo solo le probabilità previste, non quelle effettive.X1Y=GoodY=Neutral OR Badeβ^1=0.607X1Y=Good OR NeutralY=Badeβ^1=0.607

Ecco alcune illustrazioni aggiuntive per il modello 1 con categorie. Innanzitutto, l'assunzione di un modello lineare per i logit cumulativi con probabilità proporzionali. In secondo luogo, le probabilità implicite di osservare al massimo la categoria . Le probabilità seguono funzioni logistiche con la stessa forma. k=4ginserisci qui la descrizione dell'immagine

Per le stesse probabilità di categoria, il modello rappresentato implica le seguenti funzioni ordinate: inserisci qui la descrizione dell'immagine

PS Per quanto ne so, il modello 2 viene utilizzato in SPSS, nonché nelle funzioni R MASS::polr()e ordinal::clm(). Il modello 3 è utilizzato nelle funzioni R rms::lrm()e VGAM::vglm(). Sfortunatamente, non conosco SAS e Stata.


@Harokitty Il modello di regressione logistica binaria non ha termini di errore come il modello di regressione lineare. Nota che stiamo modellando una probabilità, non la variabile dipendente stessa. L'ipotesi di una distribuzione dell'errore per deve essere specificata separatamente, ad es. In R con . Yglm(..., family=binomial)
Caracal,

Hai un riferimento che si occupa del modo di esprimere la specifica # 2 nella tua lista di 3 alternative?

1
@Harokitty Viene brevemente descritto nell '"Analisi dei dati categoriali ordinali" di Agresti, sezione 3.2.2, p49, equazione 3.8 . In alternativa in "Analisi dei dati categorici" di Agresti, sezione 9.4, p323, equazione 9.12.
Caracal,

Ciao, scusa se ti disturbo, hai un riferimento per il terzo? Agresti non sembra parlarne.

2
@Jase Bene, Agresti usa semplicemente nella sezione collegata sopra. Per , vedere "Strategie di modellazione della regressione" di Harrell, sezione 13.3.1, p333, eqn 13.4. logit(Y>g)logit(Yg)
Caracal,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.