Quali tecniche sono disponibili per il collasso (o il raggruppamento) di molte categorie a poche, allo scopo di usarle come input (predittore) in un modello statistico?
Considera una variabile come quella di uno studente universitario (disciplina scelta da uno studente universitario). Non è ordinato e categorico, ma può potenzialmente avere dozzine di livelli distinti. Diciamo che voglio usare major come predittore in un modello di regressione.
L'uso di questi livelli così com'è per la modellazione porta a tutti i tipi di problemi perché ce ne sono così tanti. Molta precisione statistica sarebbe eliminata per usarli, e i risultati sono difficili da interpretare. Raramente siamo interessati a major specifici - è molto più probabile che siano interessati a grandi categorie (sottogruppi) di major. Ma non è sempre chiaro come dividere i livelli in tali categorie di livello superiore o anche quante categorie di livello superiore utilizzare.
Per i dati tipici sarei felice di usare l'analisi dei fattori, la fattorizzazione a matrice o una tecnica di modellazione latente discreta. Ma le major sono categorie reciprocamente esclusive, quindi sono restio a sfruttare la loro covarianza per qualsiasi cosa.
Inoltre, non mi interessano le categorie principali da sole. Mi interessa produrre categorie di livello superiore coerenti rispetto al mio risultato di regressione . Nel caso del risultato binario, ciò mi suggerisce qualcosa come l'analisi discriminante lineare (LDA) per generare categorie di livello superiore che massimizzano le prestazioni discriminatorie. Ma la LDA è una tecnica limitata e mi sembra di trascinare dati sporchi. Inoltre, qualsiasi soluzione continua sarà difficile da interpretare.
Nel frattempo qualcosa basato sulle covarianze, come l'analisi della corrispondenza multipla (MCA), mi sembra sospetto in questo caso a causa della dipendenza intrinseca tra variabili fittizie reciprocamente esclusive: sono più adatte per studiare più variabili categoriche, piuttosto che più categorie della stessa variabile.
modifica : per essere chiari, si tratta di comprimere le categorie (non selezionarle) e le categorie sono predittori o variabili indipendenti. Con il senno di poi, questo problema sembra un momento opportuno per "regolarizzarli tutti e lasciare che Dio li risolva". Sono contento di vedere questa domanda è interessante per così tante persone!