Implementazione efficiente della memoria delle decomposizioni parziali del valore singolare (SVD)

10

Per la riduzione del modello, voglio calcolare i vettori singolari di sinistra associati ai - diciamo 20 - valori singolari più grandi di una matrice , dove e . Sfortunatamente, la mia matrice sarà densa senza alcuna struttura. $A \in \mathbb R^{N,k}$ $N\approx 10^6$ $k\approx 10^3$ $A$

Se chiamo semplicemente la svdroutine dal numpy.linalgmodulo in Python per una matrice casuale di queste dimensioni, mi imbatto in un errore di memoria. Ciò è dovuto alla destinazione di per la decomposizione . $V\in \mathbb R^{N,N}$ $A = VSU$

Ci sono algoritmi in giro che evitano questa trappola? Ad esempio impostando solo i singoli vettori associati a valori singolari diversi da zero.

Sono pronto a scambiare tempo e precisione di calcolo.

— Jan
fonte

1

Interessante, sembra che Numpy non sappia come fare un SVD sottile ...

— JM,

Grazie per il suggerimento. Infatti, numpy.linalg.svd ha l'opzione full_matricesche deve essere impostata su False in modo che vengano calcolate solo le parti 'diverse da zero'. Tuttavia, c'è un modo per ridurre ulteriormente il calcolo?

— Jan

3

Il numpybackend utilizza il codice fortran, la LAPACKE_dgesvdroutine per svd standard. Tuttavia, in genere la tua matrice è C_CONTIGOUS(verifica con matrix.flags). Pertanto copia i dati per l'allineamento Fortran. Inoltre, durante l'esecuzione del dackvd di routine, è necessaria un'altra copia della matrice (o almeno la memoria per essa). È possibile eliminare una copia se si assicura che l'allineamento della memoria sia in stile Fortran sin dall'inizio.

— Bort

6

Se vuoi solo pochi valori / vettori singolari, ARPACK dovrebbe fare il trucco. I documenti SVD non sono eccezionali e questa distribuzione è più aggiornata.

EDIT: Se vuoi farlo in Python, SciPy ha un wrapper . Poiché la tua matrice è densa, potresti provare il formato BSR ( block sparse row ).

— Max Hutchinson
fonte

Vedrò come ARPACK si integra con Python ...

— gennaio

1

Sembra che Scipy abbia involucri. Li aggiungerò per rispondere al corpo.

— Max Hutchinson,

2

Dai un'occhiata a sklearn.decomposition.TruncatedSVD in scikit-learn 0.14-rc.
(Credo che le persone di scikit-learn seguano stackoverflow.com/questions/tagged/scikit-learn , quindi farei domande dettagliate lì.)

$^{6+3}$

— Denis
fonte

10^{6} \times 10^{3}

$10^6 \times 10^3$

2

Forse puoi provare questo.

https://github.com/jakevdp/pypropack

Questo è un wrapper Python per il pacchetto PROPACK, che implementa efficienti scomposizioni di valori singolari parziali di grandi matrici sparse e operatori lineari.

— Mass Zhou
fonte

2

Intel MKL implementa il nuovo algoritmo Jacobi-SVD. Ecco i dettagli di implementazione: http://www.netlib.org/lapack/lawnspdf/lawn169.pdf http://www.fernuni-hagen.de/MATHPHYS/veselic/downloads/j02.pdf

E la routine LAPACK: http://software.intel.com/sites/products/documentation/hpc/mkl/mklman/GUID-732F9EE1-BCEC-4D9B-9B93-AF5499B21140.htm#DRMAC08-1

Le dimensioni del lavoro sono ovviamente regolabili. Puoi chiamare facilmente le funzioni C da Python usando Cython, SWIG o qualsiasi altro meccanismo di avvolgimento.

— Tolga Birdal
fonte