Come gestire la variabile categoriale ordinale come variabile indipendente


18

Sto usando un modello logit. La mia variabile dipendente è binaria. Tuttavia ho una variabile indipendente che è categorica e contiene le risposte: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Quindi, è ordinale ("quantitativo categorico"). Non sono sicuro di come gestirlo nel modello. Sto usando gretl.

[Nota da @ttnphns: anche se la domanda dice che il modello è logit (perché il dipendente è categorico), il problema cruciale - variabili ordinali indipendenti - è sostanzialmente uguale, sia il dipendente categoriale o quantitativo. Pertanto, la domanda è ugualmente rilevante, per esempio, anche per la regressione lineare, come lo è per la regressione logistica o per altri modelli di logit.]


La mia variabile dipendente assume valore 0 e 1, ho 6 variabili indipendenti, 3 delle quali sono categoriche, queste variabili sono del tipo "come valuti i servizi sanitari locali nella tua zona? Come valuti i trasporti locali nella tua zona e come valuti servizi di polizia nella tua zona? le risposte sono molto buone, buone, nella media, povere e povere.
rahmat,

@Tim Se la variabile dipendente è binaria, non è necessaria alcuna regressione ordinale. L'implicazione è quella di gestire un predittore ordinale usando variabili indicatore (fittizie).
Nick Cox,

grazie tim, se non sbaglio quello che dici è che dovrei creare un manichino per tutte le categorie ?? per esempio, ho cinque risposte (molto buone, buone, medie, povere e povere) per una variabile indipendente, quindi dovrei creare 5 manichini.
Rahmat,

Risposte:


14

Il problema con la variabile indipendente ordinale è che poiché, per definizione, non sono noti i veri intervalli metrici tra i suoi livelli , nessuna relazione di tipo appropriata - a parte l'ombrello "monotonico" - può essere assunta apriori. Dobbiamo fare qualcosa al riguardo, ad esempio: "schermare o combinare varianti" o "preferire ciò che massimizza qualcosa".

Se insisti nel considerare il tuo indice di gradimento IV come ordinale (anziché come intervallo o nominale), ho un paio di alternative per te.

  1. Usa contrasti polinomiali. Vale a dire che ciascuno di questi predittori utilizzato nel modello entra non solo linearmente, ma anche quadraticamente e cubicamente. Quindi, non solo è possibile catturare un effetto monotonico lineare, ma più generale (l'effetto lineare corrisponde al predittore mantenuto come scala / intervallo e gli altri due effetti hanno un sapore con intervalli non uguali). Inoltre, è possibile inserire anche i manichini di ciascun predittore, che verificheranno l'effetto nominale / fattoriale. Alla fine di tutto ciò, sai quanto il tuo predittore agisce come fattore, quanto la covariata lineare e quanto la covariata non lineare. Questa opzione è facile da eseguire in quasi tutte le regressioni (modelli lineari, logistici, altri lineari generalizzati). Consumerà df s, quindi la dimensione del campione dovrebbe essere abbastanza grande.
  2. Utilizzare la regressione di ridimensionamento ottimale . Questo approccio trasforma monotonicamente un predittore ordinale in un intervallo in modo da massimizzare l'effetto lineare sul predittore. CATREG (regressione categorica) è un'implementazione di questa idea in SPSS. Un problema del tuo caso specifico è che vuoi fare logistica, non regressione lineare ma CATREG non è basato sul modello logit. Penso che questo ostacolo sia relativamente minore poiché il tuo predittore è solo di 2 categorie (binario): voglio dire che potresti ancora fare CATREG per un ridimensionamento ottimale, quindi fare la regressione logistica finale con i predittori di scala trasformata ottenuti.
  3. Si noti inoltre che in un semplice caso di una scala DV ordinale e di un test Jonckheere-Terpstra IV ordinale potrebbe essere un'analisi ragionevole invece della regressione.

Potrebbero esserci anche altri suggerimenti. I tre precedenti sono ciò che mi viene in mente leggendo immediatamente la tua domanda.

Lascia che ti raccomandi di visitare anche questi thread: Associazione tra nominale e scala o ordinale ; Associazione tra ordinale e scala . Potrebbero essere utili nonostante non si tratti di regressioni specifiche.

Ma queste discussioni riguardano le regressioni, in particolare la logistica: devi guardare dentro: uno , due , tre , quattro , cinque .


(+1) (1) Puoi anche usare solo i primi contrasti polinomiali se pensi che siano abbastanza. (2) La definizione dei predittori dalla risposta nello stesso set di dati dovrebbe comportare un avviso di integrità. (3) Puoi anche penalizzare la discrepanza tra i coefficienti dei livelli adiacenti - vedi stats.stackexchange.com/q/77796/17230 .
Scortchi - Ripristina Monica

1
@Scortchi, grazie per il commento. Per quanto riguarda (2) - sì, in particolare, è ovviamente più affidabile eseguire un ridimensionamento ottimale su un sottoinsieme separato dei dati su cui verrà eseguita la regressione finale. (3) - grazie, mi farò conoscere.
ttnphns,

1
Un'altra opzione è quella di utilizzare un modello aditivo e rappresentare la variabile indipendente ordinale tramite una spline.
kjetil b halvorsen,

2
@kjetilbhalvorsen, Sì, è possibile, grazie. Questa opzione è già implicita in Pt 2 perché uno dei metodi di ridimensionamento ottimale per le variabili ordinali utilizza la spline.
ttnphns,

7

Solo per aggiungere altre eccellenti risposte: un modo moderno di gestirlo potrebbe essere tramite un modello additivo, che rappresenta la variabile ordinale indipendente tramite una spline. Se sei abbastanza sicuro che l'effetto della variabile sia monotono, potresti limitarti a una spline monotona. (Per un esempio di spline monotone in uso, vedere Ricerca della funzione per adattarsi alla curva simil-sigmoidea ).

In R, se si rende il predittore ordinale un "fattore ordinato" (ad esempio con il codice ord <- factor(sample(1:5,20,replace=TRUE),ordered=TRUE) ), in un modello lineare verrà rappresentato tramite polinomi ortogonali.


4
Sarebbe bello solo espanderlo un po ', per includere qualche dettaglio in più su come funzionerà con i predittori ordinali.
ttnphns,

0

k1k


3
n

1
grazie tim e nick. Quindi devo eseguire tutti e quattro i manichini nella regressione. giusto? in tal caso, ho 3 variabili categoriali ciascuna con 5 risposte. pertanto, il mio modello avrà 12 variabili. giusto?
Rahmat,

1
Grazie @NickCox - Sono nuovo nel mondo dei CV e apprezzo le rispettive correzioni
Austin T

1
Sfortunatamente, non hai spiegato perché saranno necessarie variabili fittizie. Non credo che questa risposta, come per come è attualmente, sembri una risposta alla domanda.
ttnphns,

2
A sostegno, non credo che sia un caso di argomentare che gli indicatori sono necessari ; è solo che permettono di catturare una varietà di effetti, incluse relazioni non monotone.
Nick Cox,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.