Dati di base : ho ~ 1.000 persone contrassegnate con valutazioni: '1,' [buono] '2,' [medio] o '3' [cattivo] - questi sono i valori che cercherò di prevedere per le persone in futuro . Inoltre, ho alcune informazioni demografiche: sesso (categorico: M / F), età (numerico: 17-80) e razza (categorico: nero / caucasico / latino).
Ho principalmente quattro domande:
Inizialmente stavo cercando di eseguire il set di dati descritto sopra come analisi di regressione multipla. Ma di recente ho imparato che, poiché la mia dipendenza è un fattore ordinato e non una variabile continua, dovrei usare la regressione logistica ordinale per qualcosa del genere. Inizialmente stavo usando qualcosa del genere
mod <- lm(assessment ~ age + gender + race, data = dataset)
, qualcuno può indicarmi la giusta direzione?Da lì, supponendo che ottenga coefficienti con cui mi sento a mio agio, capisco come collegare solo valori numerici per x1, x2, ecc. - Ma come dovrei affrontare la razza, ad esempio, dove ci sono più risposte: nero / caucasico / latino? Quindi, se mi dice che il coefficiente caucasico è 0,289 e qualcuno che sto cercando di prevedere è caucasico, come posso ricollegarlo poiché il valore non è numerico?
Ho anche dei valori casuali mancanti: alcuni per razza, altri per genere, ecc. Devo fare qualcosa in più per assicurarmi che non stia distorcendo nulla? (Ho notato quando il mio set di dati viene caricato in R-Studio, quando i dati mancanti vengono caricati come
NA
, R dice qualcosa di simile(162 observations deleted due to missingness)
- ma se vengono caricati come spazi vuoti, non fa nulla.)Supponendo che tutto ciò funzioni e che ho nuovi dati con sesso, età e razza su cui voglio prevedere - c'è un modo più semplice in R di eseguire tutto ciò attraverso qualunque sia la mia formula con nuovi coefficienti, piuttosto che farlo manualmente? (Se questa domanda non è appropriata qui, posso riportarla al forum R.)