Sto lottando per trovare un metodo per ridurre il numero di categorie nei dati nominali o ordinali.
Ad esempio, diciamo che voglio costruire un modello di regressione su un set di dati che ha una serie di fattori nominali e ordinali. Anche se non ho problemi con questo passaggio, mi imbatto spesso in situazioni in cui una caratteristica nominale è senza osservazioni nel set di addestramento, ma successivamente esiste nel set di dati di convalida. Ciò porta naturalmente a un errore quando il modello presenta casi (finora) invisibili. Un'altra situazione in cui vorrei combinare le categorie è semplicemente quando ci sono troppe categorie con poche osservazioni.
Quindi le mie domande sono:
- Mentre mi rendo conto che potrebbe essere meglio combinare molte categorie nominali (e ordinali) in base alle precedenti informazioni di base sul mondo reale che rappresentano, esistono metodi sistematici (
R
preferibilmente pacchetti) disponibili? - Quali linee guida e suggerimenti faresti riguardo alle soglie di soglia e così via?
- Quali sono le soluzioni più popolari in letteratura?
- Esistono altre strategie oltre alla combinazione di piccole categorie nominali in una nuova categoria "ALTRI"?
Sentiti libero di intervenire se hai anche altri suggerimenti.