Non scegli un sottoinsieme delle tue 99 (100-1) variabili originali.
Ciascuno dei componenti principali sono combinazioni lineari di tutte le 99 variabili predittive (variabili x, IV, ...). Se si utilizzano i primi 40 componenti principali, ciascuno di essi è una funzione di tutte le 99 variabili predittive originali. (Almeno con il normale PCA - ci sono versioni sparse / regolarizzate come SPCA di Zou, Hastie e Tibshirani che produrranno componenti basati su un minor numero di variabili.)
Considera il semplice caso di due variabili positivamente correlate, che per semplicità supponiamo siano ugualmente variabili. Quindi il primo componente principale sarà un multiplo (frazionario) della somma di entrambe le variate e il secondo sarà un multiplo (frazionario) della differenza delle due variate; se i due non sono ugualmente variabili, il primo componente principale peserà più pesantemente quello più variabile, ma coinvolgerà comunque entrambi.
yX
Quindi usi le tue 40 nuove variabili come se fossero predittori a sé stanti, proprio come faresti con qualsiasi problema di regressione multipla. (In pratica, ci sono modi più efficienti per ottenere le stime, ma lasciamo da parte gli aspetti computazionali e trattiamo solo un'idea di base)
Per quanto riguarda la tua seconda domanda, non è chiaro cosa intendi per "inversione dell'APC".
XZ= XWXn × 99W99 × 4040y^= Zβ^PC
y^=Zβ^PC=XWβ^PC=Xβ^∗β^∗=Wβ^PCyX. Ovviamente non è lo stesso dei coefficienti che ottieni stimando una regressione sulle X originali - è regolarizzato facendo il PCA; anche se otterresti coefficienti per ciascuna delle tue X originali in questo modo, hanno solo il df del numero di componenti che hai montato.
Vedi anche Wikipedia sulla regressione del componente principale .