Sono consapevole del fatto che le variabili categoriali con livelli k dovrebbero essere codificate con variabili k-1 nella codifica fittizia (analogamente per le variabili categoriali multivalore). Mi chiedevo quanto fosse un problema una codifica one-hot (ovvero usando invece le variabili k) rispetto alla codifica fittizia per diversi metodi di regressione, principalmente regressione lineare, regressione lineare penalizzata (Lasso, Ridge, ElasticNet), basata su alberi (foreste casuali , macchine per aumentare la pendenza).
So che nella regressione lineare si verificano problemi di multi-collinearità (anche se in pratica ho inserito la regressione lineare usando OHE senza problemi).
Tuttavia, la codifica fittizia deve essere utilizzata in tutti e quanto potrebbero essere errati i risultati se si utilizza la codifica one-hot?
Il mio focus è sulla previsione nei modelli di regressione con più variabili categoriali (ad alta cardinalità), quindi non mi interessano gli intervalli di confidenza.