Sto lavorando a un progetto e ho bisogno di risorse per mettermi al passo.
Il set di dati contiene circa 35000 osservazioni su circa 30 variabili. Circa la metà delle variabili sono categoriche con alcune che hanno molti diversi valori possibili, vale a dire se si dividono le variabili categoriali in variabili fittizie si avrebbero molte più di 30 variabili. Ma probabilmente ancora nell'ordine di un paio di centinaia di max. (N> p).
La risposta che vogliamo prevedere è ordinale con 5 livelli (1,2,3,4,5). I predittori sono un mix di continuo e categorico, circa la metà di ciascuno. Questi sono i miei pensieri / piani finora: 1. Tratta la risposta come una continua regressione lineare alla vaniglia. 2. Eseguire la logistica nominale e ordinale e la regressione probit 3. Utilizzare MARS e / o un altro tipo di regressione non lineare
Ho familiarità con la regressione lineare. MARS è abbastanza ben descritto da Hastie e Tibshirani. Ma sono in perdita quando si tratta di logit / probit ordinali, soprattutto con così tante variabili e un set di big data.
Il pacchetto r glmnetcr sembra essere la mia migliore scommessa finora, ma la documentazione difficilmente è sufficiente per portarmi dove devo essere.
Dove posso andare per saperne di più?