Imparare la regressione ordinale in R?


10

Sto lavorando a un progetto e ho bisogno di risorse per mettermi al passo.

Il set di dati contiene circa 35000 osservazioni su circa 30 variabili. Circa la metà delle variabili sono categoriche con alcune che hanno molti diversi valori possibili, vale a dire se si dividono le variabili categoriali in variabili fittizie si avrebbero molte più di 30 variabili. Ma probabilmente ancora nell'ordine di un paio di centinaia di max. (N> p).

La risposta che vogliamo prevedere è ordinale con 5 livelli (1,2,3,4,5). I predittori sono un mix di continuo e categorico, circa la metà di ciascuno. Questi sono i miei pensieri / piani finora: 1. Tratta la risposta come una continua regressione lineare alla vaniglia. 2. Eseguire la logistica nominale e ordinale e la regressione probit 3. Utilizzare MARS e / o un altro tipo di regressione non lineare

Ho familiarità con la regressione lineare. MARS è abbastanza ben descritto da Hastie e Tibshirani. Ma sono in perdita quando si tratta di logit / probit ordinali, soprattutto con così tante variabili e un set di big data.

Il pacchetto r glmnetcr sembra essere la mia migliore scommessa finora, ma la documentazione difficilmente è sufficiente per portarmi dove devo essere.

Dove posso andare per saperne di più?


Ti suggerisco di aggiungere anche il tag R.
Christopher Louden,

1
Dato che questa è una domanda sul modello statistico, potresti voler visitare il sito Web di CrossValidated , ma tieni presente che è una pratica terribile cross-postare le domande: o vorrai formularlo per evidenziare le questioni metodologiche che stanno affrontando o migrano l'intera domanda.
StasK,

Senza spiegare veramente perché, ISL osserva (a p. 137) che l'analisi discriminante (come LDA, QDA) viene utilizzata più spesso delle estensioni di classe multiple della regressione logistica. Vale quindi la pena di esaminare pacchetti come LDA penalizzato .
MattBagg,

Risposte:



6

Un pacchetto R abbastanza potente per la regressione con una risposta categorica ordinaria è VGAM, sul CRAN. La vignetta contiene alcuni esempi di regressione ordinale, ma è vero che non l'ho mai provato su un set di dati così grande, quindi non posso stimare quanto tempo potrebbe richiedere. È possibile trovare materiale aggiuntivo su VGAM nella pagina dell'autore . In alternativa puoi dare un'occhiata alla compagna di Laura Thompson al libro "Analisi categorica dei dati" di Agresti. Il capitolo 7 del libro di Thompson descrive i modelli di logit cumulativi, che vengono spesso utilizzati con le risposte ordinali.

Spero che sia di aiuto!


3

Se non hai alcuna familiarità con la regressione ordinale, proverei a leggere prima il capitolo Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) sull'argomento - pur non essendo scritto per R, il libro è molto bravo a trasmettere la logica generale e i "do's" e "do nots".

Come domanda: quali sono esattamente le vostre risposte catgeories? Se sono una sorta di scala, come "buono - cattivo" sarebbe bene usare una regressione lineare (la ricerca di mercato lo fa sempre ...), ma se gli articoli sono più disgiunti, una regressione ordinale potrebbe essere migliore . Ricordo vagamente che alcuni libri sulla modellizzazione dell'equazione strutturale menzionavano che la regressione lineare era superiore per le buone scale rispetto al probit - bit al momento non ricordo il libro, scusami!

Il problema più grave potrebbe essere il numero di variabili fittizie - un paio di centinaia di variabili fittizie renderanno l'analisi lenta, difficile da interpretare e probabilmente instabile - ci sono abbastanza casi per ogni combinazione fittizia / fittizia?


3

Un riferimento standard scritto dal punto di vista delle scienze sociali è il libro sulle variabili dipendenti limitate di J Scott Long . Va molto più in profondità di quanto Tabachnik abbia suggerito in un'altra risposta : Tabachnik è nel migliore dei casi un ricettario, con poche o nessuna spiegazione del "perché", e sembra che tu trarrai beneficio da capirlo in modo più dettagliato che puoi trovare in Long's libro. La regressione ordinale dovrebbe essere trattata nella maggior parte dei corsi introduttivi di econometria (la sezione trasversale e i dati del panel di Wooldridge sono un ottimo libro di laurea), così come i corsi quantitativi di scienze sociali (sociologia, psicologia), anche se immagino che questi torneranno indietro al libro di Long.

Dato che il tuo numero di variabili è quasi inferiore alla dimensione del campione, probabilmente il pacchetto R che dovresti cercare è ordinalpiuttosto che glmnetcr. Un'altra risposta ha detto che puoi trovare questa funzionalità in un MASSpacchetto più tradizionale .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.