Regressione per variabili indipendenti categoriali e dipendente continuo


20

Ho appena capito che ho sempre lavorato al problema della regressione in cui le variabili indipendenti erano sempre numeriche. Posso usare la regressione lineare nel caso in cui tutte le variabili indipendenti siano categoriche?

Risposte:


24

Solo qualche semantica e per essere chiari:

  • variabile dipendente == outcome == " y " nelle formule di regressione come y=β0+β1X1+β2X2+...+βKXK
  • variabile indipendente == predittore == uno di " " nelle formule di regressione come y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_kXKy=β0+β1X1+β2X2+...+βKXK

Quindi nella maggior parte dei casi il tipo di regressione dipende dal tipo di variabile dipendente, risultato o " "y . Ad esempio, la regressione lineare viene utilizzata quando la variabile dipendente è continua, la regressione logistica quando la dipendente è categorica con 2 categorie e la regressione multinomi (n) al quando la dipendente è categorica con più di 2 categorie. I predittori possono essere qualsiasi cosa (nominali o ordinali categorici, o continui o un mix) .

(L'osservazione di seguito potrebbe essere ridondante per te, ma la aggiungo comunque)

Tuttavia, si noti che la maggior parte dei software richiede di ricodificare i predittori categorici in un sistema numerico binario . Questo significa solo codificare il sesso su 0 per le femmine e 1 per i maschi o viceversa. Per le variabili categoriali con più di 2 livelli dovrai ricodificarli in variabili fittizie dove è il numero di livelli e questi manichini contengono uno 0 o 1 quando si trovano nella categoria corrispondente. In questo modo ogni individuo (campione) dovrebbe essere rappresentato avendo un 1 per la variabile fittizia di cui fa parte e uno 0 per gli altri, oppure uno 0 per tutti i manichini quando fa parte del gruppo di riferimento.L-1L


Grazie. mentre scrivo nel titolo della domanda, la variabile dipendente è continua. Quindi prendo la tua risposta come "puoi usare la regressione lineare, a patto di eseguire una codifica fittizia". Perfavore, correggimi se sbaglio.
Famargar

sì, è quello che stavo dicendo.
IWS,

2
Vedo che hai modificato la domanda per aggiungere una seconda domanda e pubblicato qui una domanda simile: stats.stackexchange.com/questions/267137/… . Inoltre, ti chiedo cosa intendi per lisciare le tue previsioni o cosa intendi per prevedere valori discreti. AFAIK una regressione lineare ti fornirà il valore medio della dipendenza continua in base alle variabili del tuo predittore (attraverso la formula di regressione). Si prega di elaborare
IWS

1
nXiony

1
Nel caso di una variabile ordinale si può sempre scegliere di assumere che sia "abbastanza continuo" usarlo come se fosse un predittore continuo (semplicemente non usando i manichini, ma inserendo la variabile come versione numerica). Tuttavia, se lo fai e hai solo pochi livelli, stai adattando una linea retta (assumendo così la linearità) attraverso solo pochi punti (quindi nota che la quantità di livelli è importante qui). Una scala Likert è un buon esempio di una variabile utilizzata in questo modo, che purtroppo crea problemi in varie occasioni.
IWS,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.