Selezione del numero di componenti principali sparsi da includere nella regressione


9

Qualcuno ha esperienza con gli approcci per selezionare il numero di componenti principali sparsi da includere in un modello di regressione?


Non ho esperienza specifica, ma suppongo che la validazione incrociata sarebbe un buon approccio (come sempre).
ameba,

Risposte:


4

Anche se non ho approfondimenti diretti sulla tua domanda, ho incontrato alcuni articoli di ricerca , che potrebbero essere di tuo interesse. Cioè, ovviamente, se capisco correttamente che stai parlando di PCA sparsa , regressione dei componenti principali e argomenti correlati. In tal caso, ecco i documenti:


1
Non sapevo di tutti questi riferimenti. Sono molto bravi - grazie.
Frank Harrell,

@FrankHarrell: Prego! Sono contento di poterti aiutare.
Aleksandr Blekh,

1

I risultati della convalida incrociata sono stati inoltre utilizzati per determinare il numero ottimale di dimensioni per lo spazio LSI. Troppe dimensioni non hanno sfruttato la potenza predittiva dei dati; mentre troppe dimensioni hanno comportato un adattamento eccessivo. La Fig. 4 mostra la distribuzione degli errori medi per i modelli con numeri diversi di dimensioni LSI. I modelli con spazi LSI a quattro dimensioni hanno prodotto sia il minor numero medio di errori sia il minor numero mediano di errori, quindi il modello finale è stato realizzato utilizzando uno spazio LSI a quattro dimensioni.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Posso pubblicare una copia se non sei un membro ieee.

Questo è da un articolo che ho scritto a undergrad. Ho avuto un problema in cui dovevo decidere quante dimensioni (indicizzazione semantica latente è simile alla PCA) da utilizzare nel mio modello di regressione logistica. Quello che ho fatto è stato scegliere una metrica (ovvero il tasso di errore quando si utilizza una probabilità di segnalazione di 0,5) e ho esaminato la distribuzione di questo tasso di errore per diversi modelli addestrati su un numero diverso di dimensioni. Ho quindi scelto il modello con il tasso di errore più basso. È possibile utilizzare altre metriche come l'area sotto la curva ROC.

Puoi anche usare qualcosa come la regressione graduale per scegliere il numero di dimensioni per te. Che tipo di regressione stai preformando in modo specifico?

Cosa intendi con sparse tra l'altro?


Il PC sparso è ad esempio PCA con L1 (lazo). Nel PCA ordinario di solito possiamo inserire i termini in ordine di variazione spiegato. Con PCA sparse le cose sono un po 'più irregolari, quindi la selezione è forse più difficile.
Frank Harrell,

La domanda riguardava specificamente i componenti principali sparsi , e questa risposta (buona com'è) non la affronta affatto , quindi -1.
ameba,

Y

@FrankHarrell che può potenzialmente accadere ma è meno incline a succedere se usi AIC invece di R-quadrato
Andrew Cassidy,

@amoeba Sono confuso ... no Non ho affrontato la parte "sparsa" dei commenti principali, ma hai fatto lo stesso suggerimento per utilizzare la convalida incrociata in un commento?
Andrew Cassidy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.