Variabile dipendente continua con variabile indipendente ordinale


17

Data una variabile dipendente continua y e variabili indipendenti tra cui una variabile ordinale X 1 , come posso inserire un modello lineare in R? Ci sono documenti su questo tipo di modello?

Risposte:


29

@ Scortchi ti ha coperto con questa risposta su Coding per una covariata ordinata . Ho ripetuto la raccomandazione sulla mia risposta a Effetto di due IV demografici sulle risposte ai sondaggi (scala Likert) . In particolare, la raccomandazione è di usare Gertheiss' (2013) pacchetto ordPens , e di sottoporre alla Gertheiss e Tutz (2009a) per lo sfondo teorico e uno studio di simulazione.

La funzione specifica che probabilmente desideri è ordSmooth* . Ciò essenzialmente uniforma i coefficienti fittizi tra i livelli delle variabili ordinali per essere meno diversi da quelli per i ranghi adiacenti, il che riduce il sovradimensionamento e migliora le previsioni. In genere esegue una stima migliore o (a volte molto) migliore della massima probabilità (ovvero dei minimi quadrati ordinari in questo caso) di un modello di regressione per dati continui (o nei loro termini, metrici) quando i dati sono effettivamente ordinali. Sembra compatibile con tutti i tipi di modelli lineari generalizzati e consente di inserire predittori nominali e continui come matrici separate.

Numerosi riferimenti aggiuntivi di Gertheiss, Tutz e colleghi sono disponibili ed elencati di seguito. Alcuni di questi possono contenere alternative - anche Gertheiss e Tutz (2009a) discutono del ridge ridge come un'altra alternativa. Non ho ancora analizzato tutto da solo, ma basti dire che questo risolve il problema di @ Erik di troppo poca letteratura sui predittori ordinali!

Riferimenti

- Gertheiss, J. (2013, 14 giugno). ordPen: selezione e / o smoothing dei predittori ordinali , versione 0.2-1. Estratto da http://cran.r-project.org/web/packages/ordPens/ordPens.pdf .
- Gertheiss, J., Hogger, S., Oberhauser, C., & Tutz, G. (2011). Selezione di variabili indipendenti su scala ordinaria con applicazioni alla classificazione internazionale di set di core funzionanti. Giornale della Royal Statistical Society: Series C (Applied Statistics), 60 (3), 377–395.
- Gertheiss, J., & Tutz, G. (2009a). Regressione penalizzata con predittori ordinali. Revisione statistica internazionale, 77 (3), 345–365. Estratto da http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf .
- Gertheiss, J., & Tutz, G. (2009b). Selezione di funzioni supervisionate nella profilatura proteomica basata sulla spettrometria di massa mediante potenziamento a blocchi. Bioinformatica, 25 (8), 1076-1077.
- Gertheiss, J., & Tutz, G. (2009c). Ridimensionamento variabile e metodi vicini più vicini. Journal of Chemometrics, 23 (3), 149–151. - Gertheiss, J. & Tutz, G. (2010). Modellazione sparsa di variabili esplicative categoriali. The Annals of Applied Statistics, 4 , 2150–2180.
- Hofner, B., Hothorn, T., Kneib, T., & Schmid, M. (2011). Un framework per la selezione imparziale del modello basata sull'aumento. Journal of Computational and Graphical Statistics, 20 (4), 956-971. Estratto da http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf .
- Oelker, M.-R., Gertheiss, J., & Tutz, G. (2012). Regolarizzazione e selezione del modello con predittori categorici e modificatori di effetti in modelli lineari generalizzati. Dipartimento di Statistica: relazioni tecniche, n . 122 . Estratto da http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf .
- Oelker, M.-R., & Tutz, G. (2013). Una famiglia generale di sanzioni per la combinazione di diversi tipi di sanzioni in modelli strutturati generalizzati. Dipartimento di Statistica: relazioni tecniche, n . 139 . Estratto da http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf .
- Petry, S., Flexeder, C., & Tutz, G. (2011). Lazo fuso a coppie. Dipartimento di Statistica: relazioni tecniche, n. 102. Estratto da http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf .
- Rufibach, K. (2010). Un algoritmo set attivo per stimare i parametri in modelli lineari generalizzati con predittori ordinati. Statistiche computazionali e analisi dei dati, 54 (6), 1442-1456. Estratto da http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail .
- Tutz, G. (2011, ottobre). Metodi di regolarizzazione per dati categorici. Monaco di Baviera: Ludwig-Maximilians-Universität. Estratto da http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf .
- Tutz, G. e Gertheiss, J. (2013). Scala di valutazione come predittori: la vecchia domanda sul livello di scala e alcune risposte.Psychometrika , 1-20.


15

Quando sono presenti più predittori e il predittore di interesse è ordinale, è spesso difficile decidere come codificare la variabile. Codificarlo come categoriale perde le informazioni sull'ordine, mentre codificarlo come numerico impone una linearità sugli effetti delle categorie ordinate che potrebbero essere lontani dai loro effetti reali. Per la prima, la regressione isotonica è stata proposta come un modo per affrontare la non monotonia, ma si tratta di una procedura di selezione dei modelli basata sui dati, che come molte altre procedure basate sui dati, richiede un'attenta valutazione del modello adattato finale e del significato dei suoi parametri. Per quest'ultimo, le spline possono mitigare parzialmente il presupposto della linearità rigida, ma i numeri devono ancora essere assegnati alle categorie ordinate e i risultati sono sensibili a queste scelte. Nel nostro documento (Li and Shepherd, 2010, Introduzione, paragrafi 3-5),

YXZYZXZYX

XZ

Abbiamo sviluppato un pacchetto R, PResiduals , disponibile presso CRAN. Il pacchetto contiene funzioni per eseguire il nostro approccio per tipi di risultati lineari e ordinali. Stiamo lavorando per aggiungere altri tipi di risultati (ad es. Conteggio) e caratteristiche (ad es. Consentire interazioni). Il pacchetto contiene anche funzioni per il calcolo del nostro residuo, che è un residuo su scala di probabilità, per vari modelli di regressione.

Riferimenti

Li, C. & Shepherd, BE (2010). Test di associazione tra due variabili ordinali durante la regolazione per le covariate. JASA, 105, 612–620.

Li, C. & Shepherd, BE (2012). Un nuovo residuo per i risultati ordinali. Biometrika 99, 473–480.


7

Generalmente c'è molta letteratura sulle variabili ordinali come dipendenti e poco sull'usarle come predittori. Nella pratica statistica di solito si presume che siano continui o categorici. È possibile verificare se un modello lineare con il predittore come variabile continua sembra un buon adattamento, controllando i residui.

A volte sono anche codificati cumulativamente. Un esempio potrebbe essere che una variabile ordinale x1 con i livelli 1,2 e 3 abbia una variabile binaria fittizia d1 per x1> 1 e una variabile binaria fittizia d2 per x1> 2. Quindi il coefficiente per d1 è l'effetto che si ottiene quando si aumenta l'ordinale da 2 a 3 e il coefficiente per d2 è l'effetto che si ottiene quando si ordina da 2 a 3.

Ciò rende l'interpretazione spesso più facilmente, ma equivale a usarla come variabile categorica a fini pratici.

Gelman suggerisce persino che si potrebbe usare il predittore ordinale sia come fattore categorico (per gli effetti principali) sia come variabile continua (per interazioni) per aumentare la flessibilità dei modelli.

La mia strategia personale è di solito quella di considerare se trattarli come continui abbia senso e risultati in un modello ragionevole e usarli come categorici solo se necessario.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.