Ho un ampio set di dati costituito dai valori di diverse centinaia di variabili finanziarie che potrebbero essere utilizzate in una regressione multipla per prevedere il comportamento di un fondo indicizzato nel tempo. Vorrei ridurre il numero di variabili a dieci o giù di lì, pur mantenendo il maggior potere predittivo possibile. Aggiunto: l'insieme ridotto di variabili deve essere un sottoinsieme dell'insieme di variabili originale per preservare il significato economico delle variabili originali. Pertanto, ad esempio, non dovrei finire con combinazioni lineari o aggregati delle variabili originali.
Alcuni (probabilmente ingenui) pensieri su come farlo:
- Esegui una regressione lineare semplice con ogni variabile e scegli le dieci con i valori più grandi . Naturalmente, non vi è alcuna garanzia che le dieci migliori variabili individuali combinate siano il miglior gruppo di dieci.
- Eseguire un'analisi dei componenti principali e provare a trovare le dieci variabili originali con le associazioni più grandi con i primi assi principali.
Non credo di poter eseguire una regressione gerarchica perché le variabili non sono realmente nidificate. Provare tutte le possibili combinazioni di dieci variabili è computazionalmente impossibile perché ci sono troppe combinazioni.
Esiste un approccio standard per affrontare questo problema di riduzione del numero di variabili in una regressione multipla?
Sembra che questo sarebbe un problema sufficientemente comune che ci sarebbe un approccio standard.
Una risposta molto utile potrebbe essere quella che non menziona solo un metodo standard, ma fornisce anche una panoramica di come e perché funziona. In alternativa, se non esiste un approccio standard ma piuttosto uno con più punti di forza e di debolezza, una risposta molto utile sarebbe quella che discute i loro pro e contro.
Il commento di Whuber di seguito indica che la richiesta nell'ultimo paragrafo è troppo ampia. Invece, accetterei come buona risposta un elenco dei principali approcci, forse con una descrizione molto breve di ciascuno. Una volta che ho i termini posso scavare i dettagli su ciascuno di me.