La PCA è instabile in multicollinearità?


25

So che in una situazione di regressione, se si dispone di un insieme di variabili altamente correlate, questo è generalmente "negativo" a causa dell'instabilità dei coefficienti stimati (la varianza va verso l'infinito mentre il determinante va verso lo zero).

La mia domanda è se questa "cattiveria" persista in una situazione di PCA. I coefficienti / carichi / pesi / autovettori per un determinato PC diventano instabili / arbitrari / non unici man mano che la matrice di covarianza diventa singolare? Sono particolarmente interessato al caso in cui viene conservato solo il primo componente principale e tutti gli altri vengono ignorati come "rumore" o "qualcos'altro" o "non importante".

Non penso che lo sia, perché rimarrai solo con alcuni componenti principali che hanno zero o vicino a zero varianza.

È facile vedere questo non è il caso del semplice caso estremo con 2 variabili - supponiamo che siano perfettamente correlate. Quindi il primo PC sarà la relazione lineare esatta, e il secondo PC sarà perpendicolare al primo PC, con tutti i valori del PC pari a zero per tutte le osservazioni (cioè varianza zero). Mi chiedo se sia più generale.


8
Il tuo ragionamento è buono. In realtà, ci si aspetterebbe che si verifichi instabilità quando due o più autovalori sono quasi coincidenti, poiché, sebbene gli autovalori siano determinati, gli autovettori non lo sono, e quindi nemmeno i carichi. Per ragioni numeriche, esiste anche instabilità negli autovalori (e autovettori) di dimensioni molto ridotte rispetto all'autovalore massimo.
whuber

Il commento @whuber risponde alla tua domanda, ma vorrei notare che in caso di 2 variabili perfettamente correlate, il PCA non dovrebbe avere problemi. La matrice di covarianza sarebbe di grado 1, quindi ci sarà solo 1 autovalore diverso da zero, quindi solo 1 PC. Le variabili originali saranno i multipli di questo PC. L'unico problema potrebbe essere la stabilità numerica.
mpiktas,

In effetti, penso che starebbe peggio se avessi variabili moderatamente correlate rispetto a quando hai variabili molto correlate. Anche dal punto di vista numerico, se stai usando un algoritmo come NIPALS che rimuove i PC in ordine
JMS

Una cosa: "altamente correlati" e "colinear" non sono gli stessi. Se sono coinvolte più di 2 variabili, la colinearità non implica correlazione.
Peter Flom - Ripristina Monica

Risposte:


11

La risposta potrebbe essere data in termini ancora più semplici: la regressione multipla ha un passo in più rispetto al pca se vista in termini di algebra lineare, e dal secondo passo l'instabilità nasce:

Il primo passo di pca e mult. la regressione può essere vista come il factoring della matrice di correlazione in due fattori colposi L L t , che sono triangolari e che è indifferente alle correlazioni basse o alte. (Il pca può quindi essere visto come una rotazione di quel (triangolare) fattore cholesky in posizione pc (questo è chiamato rotazione Jacobi per quanto mi ricordo) RLLt

Il mult. la procedura di regressione consiste nell'applicare un'inversione di quel fattore volgare meno la riga e la colonna della variabile dipendente, che è convenientemente nell'ultima riga della matrice di correlazione. L'instabilità entra in gioco qui: se le variabili indipendenti sono altamente correlate, allora la diagonale del fattore cholesky L può degenerare in valori numerici molto piccoli - e invertire ciò che introduce quindi il problema della divisione di quasi zero.L
L


Questo è più o meno quello che stavo cercando. In effetti, avendo letto la tua risposta mi viene in mente un'altra spiegazione: le rotazioni sono numericamente stabili, indipendentemente dal determinante della matrice di covarianza / correlazione. E poiché la PCA può essere definita come trovare la migliore rotazione dell'asse coordinato, sarà anche numericamente stabile.
Probislogic,

Sì, per esempio nelle "basi della fattanalisi" di Stan Mulaik è stata esplicitamente menzionata la stabilità della rotazione del PC (metodo Jacobi), se ricordo correttamente la fonte. Nella mia implementazione dell'analisi fattoriale, faccio tutto dopo essere stato colto da rotazioni: PCA, Varimax e persino il "factoring dell'asse principale" (PAF in SPSS) possono essere ricostruiti sulla base delle rotazioni. Se la regressione multipla si basa sul fattore cholesky L e la parte di L che contiene le variabili indipendenti è in posizione PC, allora la multicollinearità può essere controllata meglio.
Gottfried Helms,

3

La PCA è spesso un mezzo per raggiungere un fine; portando a input per una regressione multipla o per l'uso in un'analisi del cluster. Penso che nel tuo caso, stai parlando dell'utilizzo dei risultati di un PCA per eseguire una regressione.

In tal caso, il tuo obiettivo di eseguire un PCA è quello di sbarazzarti della mulitcollinearità e ottenere input ortogonali a una regressione multipla, non sorprende che questo sia chiamato regressione dei componenti principali. Qui, se tutti i tuoi input originali fossero ortogonali, allora fare un PCA ti darebbe un altro set di input ortogonali. Perciò; se stai facendo un PCA, si potrebbe presumere che i tuoi input abbiano multicollinearità.

λio^iothλio^p

Riferimenti

Johnson & Wichern (2001). Analisi statistica multivariata applicata (6a edizione). Prentice Hall.


6
Non sono sicuro che l'OP sia dopo la PCR. PCA è anche un buon modo per sintetizzare set di dati multivariati (non necessariamente per eseguire la riduzione dei dati per un uso successivo in un framework di modellazione), ovvero approssimare la matrice VC a una di ordine inferiore mantenendo la maggior parte delle informazioni. La domanda sembra essere: ho ragione nell'interpretare i primi autovalori e PC (come combinazioni lineari delle variabili originali) anche se ci fossero alcuni effetti di collinearità? La tua risposta non sembra indirizzare direttamente alla domanda del PO.
chl

2
buona risposta su PCA in generale, ma che dire di quando PCA è il prodotto finale ? Cioè, l'obiettivo è quello di produrre un singolo PC. @Chl è proprio sul denaro con la sua interpretazione della questione
probabilityislogic

@chl Qual è la tua risposta alla domanda: "Ho ragione quando interpreto i primi autovalori e PC anche se ci fossero alcuni effetti di collinearità?" Lo chiedo perché sto cercando di capire quando è una buona idea mantenere variabili altamente correlate quando si esegue la riduzione della dimensionalità. A volte, quando sappiamo dalla teoria che due variabili sono guidate dalle stesse variabili latenti, dovresti rimuovere una delle variabili per non contare l'effetto della variabile latente due volte. Sto cercando di pensare a quando va bene mantenere le variabili correlate.
Amatya,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.