Qual è la relazione tra analisi dei componenti indipendenti e analisi dei fattori?


67

Sono nuovo di Independent Component Analysis (ICA) e ho solo una comprensione rudimentale del metodo. Mi sembra che l'ICA sia simile all'analisi fattoriale (FA) con una sola eccezione: l'ICA presume che le variabili casuali osservate siano una combinazione lineare di componenti / fattori indipendenti non gaussiani, mentre il modello FA classico presuppone che le variabili casuali osservate sono una combinazione lineare di componenti / fattori gaussiani correlati.

Quanto sopra è accurato?


1
Questa risposta a un'altra domanda ( PCA trova iterativamente le direzioni della più grande varianza; ma come trovare un intero sottospazio con la più grande varianza? ) Vale la pena guardare.
Piotr Migdal,

Risposte:


72

inserisci qui la descrizione dell'immagine

FA, PCA e ICA sono tutti "correlati", in quanto tutti e tre cercano vettori di base contro i quali vengono proiettati i dati, in modo da massimizzare i criteri di inserimento qui. Pensa ai vettori di base come ad incapsulare semplicemente combinazioni lineari.

Ad esempio, supponiamo che la tua matrice di dati fosse una matrice x , ovvero hai due variabili casuali e osservazioni di esse ciascuna. Supponiamo quindi di aver trovato un vettore di base di . Quando estrai (il primo) segnale, (chiamalo vettore ), viene fatto come segue:Z2NNw=[0.14]y

y=wTZ

Questo significa semplicemente "Moltiplicare 0,1 per la prima riga dei dati e sottrarre 4 volte la seconda riga dei dati". Quindi questo dà , che è ovviamente un vettore x che ha la proprietà che hai massimizzato i suoi criteri di inserimento-qui.y1N

Quindi quali sono questi criteri?

Criteri del secondo ordine:

In PCA trovi vettori di base che "spiegano meglio" la varianza dei tuoi dati. Il primo vettore base (ovvero il più alto classificato) sarà quello che meglio si adatta a tutte le variazioni dai dati. Anche il secondo ha questo criterio, ma deve essere ortogonale al primo, e così via e così via. (Si scopre che i vettori di base per PCA non sono altro che gli autovettori della matrice di covarianza dei dati).

In FA, c'è differenza tra esso e PCA, perché FA è generativo, mentre PCA no. Ho visto la FA come descritta come "PCA con rumore", dove i "disturbi" sono chiamati "fattori specifici". Tuttavia, la conclusione generale è che PCA e FA si basano su statistiche di secondo ordine (covarianza) e nulla sopra.

Criteri di ordine superiore:

In ICA, trovi di nuovo vettori di base, ma questa volta vuoi vettori di base che danno un risultato, in modo tale che questo vettore risultante sia uno dei componenti indipendenti dei dati originali. Puoi farlo massimizzando il valore assoluto della kurtosi normalizzata - una statistica del 4 ° ordine. Ossia, proietti i tuoi dati su un vettore base e misuri la curtosi del risultato. Modifichi un po 'il tuo vettore di base (di solito attraverso l'ascesa a gradiente), quindi misuri di nuovo la curtosi, ecc. Alla fine ti imbatterai in un vettore di base che ti darà un risultato che ha la kurtosi più alta possibile, e questo è il tuo indipendente componente.

Il diagramma in alto sopra può aiutarti a visualizzarlo. Puoi vedere chiaramente come i vettori ICA corrispondono agli assi dei dati (indipendentemente l'uno dall'altro), mentre i vettori PCA cercano di trovare direzioni in cui la varianza è massimizzata. (Un po 'come risultante).

Se nel diagramma in alto i vettori PCA sembrano quasi corrispondere ai vettori ICA, è solo una coincidenza. Ecco un'altra istanza su dati diversi e matrice di mixaggio in cui sono molto diversi. ;-)

inserisci qui la descrizione dell'immagine


2
Sembra che tu abbia familiarità con entrambi i metodi. Come persona competente, puoi rispondere se questi metodi implicitamente implicano che i vettori di base sono ortogonali? Come si possono scoprire i componenti primari o indipendenti che hanno una proiezione diversa da zero l'uno sull'altro, qualcosa come due nuvole di punti orientate all'incirca di 45 gradi l'una rispetto all'altra?
mbaitoff,

2
@mbaitoff ICA recupererà una serie di vettori ortogonali, sì. In secondo luogo, quando hai come ti stai chiedendo, due segnali che hanno una proiezione diversa da zero l'uno sull'altro - questo è esattamente ciò che l'ICA sta cercando di annullare. Ecco perché i vettori della base finale trovati dall'ICA sono ortogonali tra loro. Quindi, quando proietti i tuoi dati su quei due nuovi vettori, saranno ortogonali tra loro.
Spacey,

1
@Tarantula Ho fatto una domanda di cosa sto parlando: stats.stackexchange.com/questions/6575/… , puoi vedere l'illustrazione, i.stack.imgur.com/U6fWb.png . Non riesco a capire come una base ortogonale possa descrivere quelle due nuvole. Per me è ovvio che due vettori che descrivono le principali direzioni di oscillazione non sono ortogonali.
mbaitoff,

@mbaitoff Hai preso i tuoi dati da due sensori e li hai tracciati uno contro l'altro e vedi quelle due modalità, quindi sai che sono almeno correlate. Quindi la domanda diventa: come puoi proiettare tutti i punti che hai lì, in modo tale che siano indipendenti? (vale a dire, su base ortogonale come quello che trova ICA). Questo è ciò che l'ICA trova per te. Non capisco cosa intendi quando dici "Non riesco a capire come una base ortogonale possa descrivere quelle due nuvole". Perchè no?
Spacey,

@Tarantula Oh, ora capisco cosa significa! Ho pensato che fosse come "trovare due vettori ortogonali sulla trama originale", mentre in realtà significa "trovare due vettori sulla trama originale una proiezione sulla quale li renderanno ortogonali (indipendenti)".
mbaitoff,

31

Non proprio. L'analisi fattoriale opera con i secondi momenti e spera davvero che i dati siano gaussiani, in modo che i rapporti di probabilità e cose del genere non siano influenzati dalla non normalità. L'ICA, d'altra parte, è motivato dall'idea che quando sommi le cose, ottieni qualcosa di normale, grazie al CLT, e spera davvero che i dati non siano normali, in modo che i componenti non normali possano essere estratti da loro. Per sfruttare la non normalità, l'ICA cerca di massimizzare il quarto momento di una combinazione lineare degli input:

maxa:a=11ni[a(xix¯)]4

Semmai, ICA dovrebbe essere confrontato con PCA, che massimizza il secondo momento (varianza) di una combinazione standardizzata di input.


risposta piacevole e croccante
Subhash C. Davar

qual è il 4 ° momento qui? PL.EXPLAIN.
Subhash C. Davar

@ subhashc.davar Il quarto momento è la curtosi, ovvero il grado in cui i dati erano o più pesanti o con una coda più leggera rispetto alla distribuzione normale. en.wikipedia.org/wiki/Kurtosis
javadba
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.