In che modo i principali componenti principali possono conservare il potere predittivo su una variabile dipendente (o persino portare a previsioni migliori)?


25

Supponiamo che io sono in esecuzione una regressione YX . Perché selezionando i componenti principali di di , il modello mantiene il suo potere predittivo su ?kXY

Capisco che dal punto di vista della riduzione di dimensionalità / selezione delle caratteristiche, se sono gli autovettori della matrice di covarianza di con i primi autovalori , allora sono i principali componenti principali di con le variazioni massime. Possiamo quindi ridurre il numero di funzionalità a e conservare la maggior parte del potere predittivo, a quanto ho capito.v1,v2,...vkXkXv1,Xv2...Xvkkk

Ma perché i componenti principali mantengono il potere predittivo su ?kY

Se parliamo di un generale OLS , non v'è alcuna ragione per suggerire che se la funzione ha la massima varianza, quindi ha il maggior potere predittivo su .YZZiZiY

Aggiorna dopo aver visto i commenti: immagino di aver visto tonnellate di esempi di utilizzo di PCA per la riduzione della dimensionalità. Ho ipotizzato che ciò significhi che le dimensioni che ci rimangono hanno il potere più predittivo. Altrimenti qual è il punto di riduzione della dimensionalità?


3
Lei ha ragione: non c'è motivo di supporre matematica i primi PC di X hanno alcun potere predittivo - così come non v'è alcuna ragione matematica in generale a supporre che qualsiasi insieme di covariate X ha alcuna relazione a tutti per un dato Y . Sembra che potresti riferirti ad alcune affermazioni che hai riscontrato: esattamente cosa dice e chi l'ha detto? KXXY
whuber

@whuber Immagino di aver visto tonnellate di esempi di utilizzo di PCA per la riduzione delle dimensioni. Ho ipotizzato che ciò significhi che le dimensioni che ci rimangono hanno i poteri più predittivi. Altrimenti è questo il punto di ridurre le dimensioni?
Vendetta,

Risposte:


43

In effetti, non vi è alcuna garanzia che i principali componenti principali (PC) abbiano un potere predittivo maggiore rispetto a quelli a bassa varianza.

Esempi del mondo reale possono essere trovati dove questo non è il caso, ed è facile costruire un esempio artificiale in cui, ad esempio, solo il PC più piccolo ha alcuna relazione con .y

Questo argomento è stato discusso molto sul nostro forum e, in (sfortunata) assenza di un thread chiaramente canonico, posso solo fornire diversi collegamenti che insieme forniscono vari esempi di vita reale e artificiale:

E lo stesso argomento, ma nel contesto della classificazione:


Tuttavia, in pratica, un buon PC spesso non spesso hanno un potere predittivo più di quelli a bassa varianza, ed inoltre, utilizzando solo un buon PC può produrre migliore potere predittivo che usare tutti i PC.

In situazioni con molti predittori e relativamente pochi punti dati n (ad es. Quando p n o persino p > n ), la regressione ordinaria si sovrappone e deve essere regolarizzata. La regressione dei componenti principali (PCR) può essere vista come un modo per regolarizzare la regressione e tenderà a dare risultati superiori. Inoltre, è strettamente correlato alla regressione della cresta, che è un modo standard di regolarizzazione della contrazione. Mentre l'utilizzo della regressione della cresta è generalmente un'idea migliore, la PCR si comporterà spesso in modo ragionevolmente buono. Vedi Perché funziona il restringimento? per la discussione generale sul compromesso della variazione di bias e su come il restringimento può essere utile.pnpnp>n

In un certo senso, si può dire che sia la regressione della cresta sia la PCR presumono che la maggior parte delle informazioni su siano contenute nei grandi PC di X , e questa ipotesi è spesso giustificata.yX

Vedi la risposta successiva di @cbeleites (+1) per alcune discussioni sul perché questa ipotesi è spesso giustificata (e anche questo thread più recente: la riduzione della dimensionalità è quasi sempre utile per la classificazione? Per alcuni ulteriori commenti).

Hastie et al. in The Elements of Statistical Learning (sezione 3.4.1) commentare questo nel contesto della regressione della cresta:

[T] i piccoli valori singolari [...] corrispondono a direzioni nello spazio di colonna di hanno una piccola varianza, e la regressione della cresta restringe maggiormente queste direzioni. [...] La regressione della cresta protegge dalla varianza potenzialmente elevata dei gradienti stimata nelle direzioni brevi. L'assunto implicito è che la risposta tenderà a variare maggiormente nelle direzioni di elevata varianza degli input. Questo è spesso un presupposto ragionevole, dal momento che i predittori sono spesso scelti per lo studio perché variano con la variabile di risposta, ma non è necessario tenerli in generale.X

Vedi le mie risposte nei seguenti thread per i dettagli:


Linea di fondo

Per problemi ad alta dimensione, la pre-elaborazione con PCA (che significa ridurre la dimensionalità e mantenere solo i migliori PC) può essere vista come un modo di regolarizzazione e spesso migliorerà i risultati di qualsiasi analisi successiva, sia essa una regressione o un metodo di classificazione. Ma non vi è alcuna garanzia che ciò funzioni e spesso esistono approcci di regolarizzazione migliori.


Grazie per aver raccolto i riferimenti nella tua risposta. Eccone un altro recente. C'è una risposta con ulteriori collegamenti.
ttnphns,

Grazie, @ttnphns! Non ho visto quel post, perché non aveva un tag [pca] (sto seguendo da vicino solo una manciata di tag specifici). In realtà, sono piuttosto infelice che ci sia una raccolta sciolta di 5-10 thread strettamente correlati, senza domande e senza risposte davvero perfette e senza veri duplicati tra di loro. Preferirei avere un thread canonico che potrebbe essere usato per riferimenti futuri ...
Ameba dice Reinstate Monica

Ho aggiunto il tag a quella domanda. La "perfetta" risposta enciclopedica su quel tema interessante attende il suo autore. :-) Potresti decidere di diventare uno.
ttnphns,

Rilevante anche: la risposta di onestop
kjetil b halvorsen

11

Oltre alle risposte che già si concentrano sulle proprietà matematiche, vorrei commentare da un punto di vista sperimentale.

Riepilogo: i processi di generazione dei dati sono spesso ottimizzati in modo da rendere i dati adatti alla regressione del componente principale (PCR) o dei minimi quadrati parziali (PLS).


Sono chimico analitico. Quando progetto un esperimento / metodo per misurare (regressione o classificazione) qualcosa, utilizzo le mie conoscenze sull'applicazione e sugli strumenti disponibili per ottenere dati che trasportano un buon rapporto segnale-rumore rispetto al compito da svolgere. Ciò significa che i dati che generi sono progettati per avere una grande covarianza con la proprietà di interesse.
Questo porta a una struttura di varianza in cui la varianza interessante è grande e i PC successivi porteranno solo il (piccolo) rumore.

Preferirei anche metodi che forniscano informazioni ridondanti sull'attività da svolgere, al fine di ottenere risultati più solidi o più precisi. PCA concentra i canali di misurazione ridondanti in un PC, che quindi porta molta varianza ed è quindi uno dei primi PC.

Se ci sono confonditori noti che porteranno a una grande varianza che non è correlata alla proprietà di interesse, di solito cercherò di correggerli il più possibile durante la preelaborazione dei dati: in molti casi questi confonditori sono noti natura fisica o chimica e questa conoscenza suggerisce modi appropriati per correggere i confondenti. Ad esempio, misuro gli spettri Raman al microscopio. La loro intensità dipende dall'intensità della luce laser e da quanto riesco a focalizzare il microscopio. Entrambi portano a cambiamenti che possono essere corretti normalizzando ad esempio un segnale che è noto per essere costante.
Pertanto, grandi contributori di varianza che non contribuiscono alla soluzione potrebbero essere stati eliminati prima che i dati entrassero in PCA, lasciando una varianza per lo più significativa nei primi PC.


Ultimo ma non meno importante, qui c'è un po 'di una profezia che si autoavvera: ovviamente la PCR viene eseguita con dati in cui ha senso assumere la varianza delle informazioni che trasportano. Se, ad esempio, penso che potrebbero esserci importanti confonditori per i quali non so come correggere, sceglierei immediatamente il PLS, che è meglio ignorare i grandi contributi che non aiutano con l'attività di previsione.


+1. Questa è un'aggiunta eccellente, grazie per aver partecipato alla discussione.
ameba dice Ripristina Monica il

@amoeba: grazie per le belle parole. Come sempre, anche la tua risposta è molto accurata. In effetti, mi affido a te che ti occupi di [pca]!
cbeleites supporta Monica il

6

La PCA viene talvolta utilizzata per correggere i problemi causati da variabili collineari in modo che la maggior parte della variazione nello spazio X venga catturata dai componenti principali di K.

Ma questo problema matematico non è ovviamente lo stesso di catturare la maggior parte delle variazioni sia nello spazio X, Y in modo tale che la variazione inspiegata sia il più piccola possibile.

I minimi quadrati parziali cercano di farlo in quest'ultimo senso:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

Come altri hanno sottolineato, non esiste un collegamento diretto tra i principali autovettori k e il potere predittivo. Scegliendo la parte superiore e utilizzandoli come base, stai conservando parte dell'energia superiore (o varianza lungo quell'asse).

Può essere che l'asse che spiega la maggiore varianza sia effettivamente utile per la previsione, ma in generale non è così.


Quando dici "in generale", intendi in generale in pratica o in generale in teoria?
ameba dice che ripristini Monica il

@amoeba In generale perché è facile costruire un set di dati in cui la proiezione dei dati sull'asse di varianza massima k superiore non è predittiva / discriminatoria.
Vladislavs Dovgalecs,

-1

Vorrei offrire una semplice spiegazione.

PCA equivale a rimuovere alcune funzionalità in modo intuitivo. Ciò riduce le possibilità di sovra-adattamento.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.