In effetti, non vi è alcuna garanzia che i principali componenti principali (PC) abbiano un potere predittivo maggiore rispetto a quelli a bassa varianza.
Esempi del mondo reale possono essere trovati dove questo non è il caso, ed è facile costruire un esempio artificiale in cui, ad esempio, solo il PC più piccolo ha alcuna relazione con .y
Questo argomento è stato discusso molto sul nostro forum e, in (sfortunata) assenza di un thread chiaramente canonico, posso solo fornire diversi collegamenti che insieme forniscono vari esempi di vita reale e artificiale:
E lo stesso argomento, ma nel contesto della classificazione:
Tuttavia, in pratica, un buon PC spesso non spesso hanno un potere predittivo più di quelli a bassa varianza, ed inoltre, utilizzando solo un buon PC può produrre migliore potere predittivo che usare tutti i PC.
In situazioni con molti predittori e relativamente pochi punti dati n (ad es. Quando p ≈ n o persino p > n ), la regressione ordinaria si sovrappone e deve essere regolarizzata. La regressione dei componenti principali (PCR) può essere vista come un modo per regolarizzare la regressione e tenderà a dare risultati superiori. Inoltre, è strettamente correlato alla regressione della cresta, che è un modo standard di regolarizzazione della contrazione. Mentre l'utilizzo della regressione della cresta è generalmente un'idea migliore, la PCR si comporterà spesso in modo ragionevolmente buono. Vedi Perché funziona il restringimento? per la discussione generale sul compromesso della variazione di bias e su come il restringimento può essere utile.pnp≈np>n
In un certo senso, si può dire che sia la regressione della cresta sia la PCR presumono che la maggior parte delle informazioni su siano contenute nei grandi PC di X , e questa ipotesi è spesso giustificata.yX
Vedi la risposta successiva di @cbeleites (+1) per alcune discussioni sul perché questa ipotesi è spesso giustificata (e anche questo thread più recente: la riduzione della dimensionalità è quasi sempre utile per la classificazione? Per alcuni ulteriori commenti).
Hastie et al. in The Elements of Statistical Learning (sezione 3.4.1) commentare questo nel contesto della regressione della cresta:
[T] i piccoli valori singolari [...] corrispondono a direzioni nello spazio di colonna di hanno una piccola varianza, e la regressione della cresta restringe maggiormente queste direzioni. [...] La regressione della cresta protegge dalla varianza potenzialmente elevata dei gradienti stimata nelle direzioni brevi. L'assunto implicito è che la risposta tenderà a variare maggiormente nelle direzioni di elevata varianza degli input. Questo è spesso un presupposto ragionevole, dal momento che i predittori sono spesso scelti per lo studio perché variano con la variabile di risposta, ma non è necessario tenerli in generale.X
Vedi le mie risposte nei seguenti thread per i dettagli:
Linea di fondo
Per problemi ad alta dimensione, la pre-elaborazione con PCA (che significa ridurre la dimensionalità e mantenere solo i migliori PC) può essere vista come un modo di regolarizzazione e spesso migliorerà i risultati di qualsiasi analisi successiva, sia essa una regressione o un metodo di classificazione. Ma non vi è alcuna garanzia che ciò funzioni e spesso esistono approcci di regolarizzazione migliori.