L'analisi dei componenti indipendenti (ICA) viene utilizzata per separare una miscela lineare di componenti statisticamente indipendenti e, soprattutto, non gaussiani † nei suoi costituenti. Il modello standard per un ICA privo di rumore è
x = A s
dove è il vettore di osservazione o dati, s è un segnale sorgente / componenti originali (non gaussiani) e A è un vettore di trasformazione che definisce la miscelazione lineare dei segnali costituenti. In genere, A e s sono sconosciuti.XSUNUNS
Pre-processing
Ci sono due principali strategie di pre-elaborazione in ICA, vale a dire centratura e sbiancamento / sferica. I motivi principali della pre-elaborazione sono:
- Semplificazione degli algoritmi
- Riduzione della dimensionalità del problema
- Riduzione del numero di parametri da stimare.
- Evidenziando le caratteristiche del set di dati non spiegate facilmente dalla media e dalla covarianza.
Dall'introduzione di G. Li e J. Zhang, "Sphering and its properties", The Indian Journal of Statistics, Vol. 60, serie A, parte I, pagg. 119-133, 1998:
Valori anomali, cluster o altri tipi di gruppi e concentrazioni vicino a curve o superfici non piane sono probabilmente le caratteristiche importanti che interessano gli analisti di dati. In generale, non sono ottenibili attraverso la semplice conoscenza della media campionaria e della matrice di covarianza. In queste circostanze, è desiderabile separare le informazioni contenute nelle matrici media e covarianza e ci costringe a esaminare aspetti dei nostri set di dati diversi da quelle nature ben comprese. Centratura e sfera è un approccio semplice e intuitivo che elimina le informazioni di covarianza media e aiuta a evidenziare strutture al di là della correlazione lineare e delle forme ellittiche, e quindi viene spesso eseguito prima di esplorare display o analisi di set di dati
1. Centratura:
La centratura è un'operazione molto semplice e si riferisce semplicemente alla sottrazione della media . In pratica, si utilizza la media di esempio e si crea un nuovo vettore x c = x - ¯ x , dove ¯ x è la media dei dati. Geometricamente, sottrarre la media equivale atradurreil centro delle coordinate nell'origine. La media può sempre essere aggiunta nuovamente al risultato alla fine (ciò è possibile perché la moltiplicazione della matrice è distributiva).E { x }Xc= x - x¯¯¯X¯¯¯
2. Sbiancamento:
Sbiancamento è una trasformazione che converte i dati in modo tale che esso ha una matrice di covarianza di identità, cioè, . Normalmente, lavori con la matrice di covarianza di esempio,E { xcXTc} = I
Σˆ= C. XcXTc
dove è solo il mio segnaposto pigro per il fattore di normalizzazione appropriato (a seconda delle dimensioni di x ). Un nuovo vettore sbiancato viene creato comeCX
Xw= Σˆ- 1 / 2Xc
che avrà una covarianza di . Geometricamente, lo sbiancamento è una trasformazione in scala . Ecco un piccolo esempio in Mathematica:io
s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[Transpose@x.x/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]
Il primo diagramma è la densità articolare di due vettori casuali distribuiti uniformemente, o i componenti . Il secondo mostra l'effetto di moltiplicazione per un vettore di trasformazione A . Il quadrato viene inclinato e ridimensionato in un rombo. Moltiplicandosi con la matrice sbiancante, la densità articolare ritorna su un quadrato leggermente ruotato rispetto all'originale.SUN
Xw= AwSwUNw
E { xwXTw}= E { AwSw( AwSw)T}= AwE { swSTw} ATw= AwUNTw= I
SioUN
Se, dopo la trasformazione, ci sono autovalori vicini allo zero, questi possono essere scartati in modo sicuro in quanto sono solo rumore e ostacoleranno solo la stima a causa del "sovraccarico".
3. Altre pre-elaborazioni
Potrebbero esserci altre fasi di preelaborazione coinvolte in determinate applicazioni specifiche che è impossibile coprire in una risposta. Ad esempio, ho visto alcuni articoli che utilizzano il registro delle serie storiche e alcuni altri che filtrano le serie storiche. Sebbene possa essere adatto per le loro particolari applicazioni / condizioni, i risultati non vengono riportati in tutti i campi.
† Credo che sia possibile usare ICA se al massimo uno dei componenti è gaussiano, anche se al momento non riesco a trovare un riferimento per questo.
Perché si chiama "sferica"?
nn{-1,1}
NormalDistribution[]
Il primo è la densità articolare per due gaussiani non correlati, il secondo in trasformazione e il terzo dopo lo sbiancamento. In pratica sono visibili solo i passaggi 2 e 3.