Sto eseguendo un'attività di classificazione del testo con R e ottengo una matrice di termini documento con dimensioni 22490 per 120.000 (solo 4 milioni di voci diverse da zero, meno dell'1% delle voci). Ora voglio ridurre la dimensionalità utilizzando PCA (analisi dei componenti principali). Sfortunatamente, R non è in grado di gestire questa enorme matrice, quindi memorizzo questa matrice sparsa in un file nel "Matrix Market Format", sperando di usare alcune altre tecniche per fare PCA.
Quindi qualcuno potrebbe darmi qualche suggerimento per utili librerie (qualunque sia il linguaggio di programmazione), che potrebbe fare facilmente PCA con questa matrice su larga scala o fare un PCA a mano libera da solo, in altre parole, calcolare inizialmente la matrice di covarianza, e quindi calcolare gli autovalori e gli autovettori per la matrice di covarianza .
Quello che voglio è calcolare tutti i PC (120.000) e scegliere solo i migliori PC N, che rappresentano una varianza del 90% . Ovviamente, in questo caso, devo dare una soglia a priori per impostare alcuni valori di varianza molto piccoli su 0 (nella matrice di covarianza), altrimenti la matrice di covarianza non sarà scarsa e le sue dimensioni sarebbero 120.000 per 120.000, che è impossibile da gestire con una sola macchina. Inoltre, i caricamenti (autovettori) saranno estremamente grandi e dovrebbero essere archiviati in formato sparse.
Grazie mille per qualsiasi aiuto!
Nota: sto usando una macchina con 24 GB di RAM e 8 core CPU.