Come scegliere un numero ottimale di fattori latenti nella fattorizzazione a matrice non negativa?

Data una matrice $\mathbf V^{m \times n}$ , la fattorizzazione a matrice non negativa (NMF) trova due matrici non negative $\mathbf W^{m \times k}$ e $\mathbf H^{k \times n}$ (cioè con tutti gli elementi $\ge 0$ ) per rappresentare la matrice decomposta come:

V \approx W H,

$\mathbf V \approx \mathbf W\mathbf H,$

$\mathbf W$ $\mathbf H$

‖ V - W H ‖^{2} .

$\|\mathbf V-\mathbf W\mathbf H\|^2.$

Esistono pratiche comuni per stimare il numero in NMF? Come si può, ad esempio, utilizzare la validazione incrociata a tale scopo? $k$

— Steve Sailer
fonte

Non ho citazioni (e in realtà ho fatto una rapida ricerca su Google Scholar e non sono riuscito a trovarne), ma credo che la convalida incrociata dovrebbe essere possibile.

— ameba dice di reintegrare Monica l'

Potresti dirmi maggiori dettagli su come eseguire la validazione incrociata per NMF? I valori K per la norma Frobenius diminuiranno sempre all'aumentare del numero di K.

— Steve Sailer,

Per cosa stai facendo NMF? Rappresenta nello spazio di dimensione inferiore (senza supervisione) o fornisce raccomandazioni (supervisionato). Quanto è grande la tua ? Devi spiegare una certa percentuale della varianza? Puoi applicare il CV dopo aver definito la metrica oggettiva. Ti incoraggio a pensare all'applicazione e a trovare una metrica che abbia senso.

V

$V$

V

$V$

— ignorante

Risposte:

Per scegliere un numero ottimale di fattori latenti nella fattorizzazione a matrice non negativa, utilizzare la convalida incrociata.

Come hai scritto, lo scopo di NMF è trovare $\mathbf W$ e $\mathbf H$ a bassa dimensione con tutti gli elementi non negativi che minimizzino l'errore di ricostruzione $\|\mathbf V-\mathbf W\mathbf H\|^2$ . Immagina di tralasciare un elemento di $\mathbf V$ , ad esempio $V_{ab}$ , e di eseguire NMF della matrice risultante con una cella mancante. Ciò significa trovare $\mathbf W$ e $\mathbf H$ minimizzando l'errore di ricostruzione su tutte le celle non mancanti:

\sum_{i j \neq a b} (V_{i j} - [W H]_{i j})^{2} .

$\sum_ {ij\ne ab} (V_{ij}-[\mathbf W\mathbf H]_{ij})^2.$

Una volta fatto ciò, possiamo prevedere l'elemento lasciato fuori $V_{ab}$ calcolando $[\mathbf W\mathbf H]_{ab}$ e calcolando l'errore di previsione

e_{a b} = (V_{a b} - [W H]_{a b})^{2} .

$e_{ab}=(V_{ab}-[\mathbf W\mathbf H]_{ab})^2.$ Si può ripetere questa procedura tralasciando tutti gli elementi

V_{a b}

$V_{ab}$ uno alla volta e riassumendo gli errori di predizione su tutti

a

$a$ e

b

$b$ . Ciò si tradurrà in un valore PRESS complessivo (somma residua prevista dei quadrati)

E (k) = \sum_{a b} e_{a b}

$E(k)=\sum_{ab}e_{ab}$ che dipenderà da

k

$k$ . Eventualmente la funzione

E (k)

$E(k)$ avrà un minimo che può essere usato come

k

$k$ 'ottimale'.

Si noti che questo può essere costoso dal punto di vista computazionale, poiché il NMF deve essere ripetuto per ogni valore lasciato fuori e potrebbe anche essere difficile da programmare (a seconda di quanto sia facile eseguire NMF con valori mancanti). In PCA si può aggirare questo tralasciando le file complete di $\mathbf V$ (che accelera molto i calcoli), vedere la mia risposta in Come eseguire la convalida incrociata per PCA per determinare il numero di componenti principali? , ma questo non è possibile qui.

Naturalmente tutti i soliti principi di convalida incrociata si applicano qui, quindi si possono tralasciare molte celle alla volta (invece di una sola) e / o ripetere la procedura solo per alcune celle casuali invece di eseguire il ciclo su tutte le celle. Entrambi gli approcci possono aiutare ad accelerare il processo.

Modifica (marzo 2019): guarda questo bellissimo scritto illustrato di @AlexWilliams : http://alexhwilliams.info/itsneuronalblog/2018/02/26/crossval . Alex utilizza https://github.com/kimjingu/nonnegfac-python per NMF con valori mancanti.

— ameba dice Reinstate Monica
fonte

Per quanto ne so, ci sono due buoni criteri: 1) il coefficiente di correlazione copenetica e 2) confrontare la somma residua dei quadrati con i dati randomizzati per un insieme di gradi (forse c'è un nome per quello, ma non ricordo)

Coefficiente di correlazione copenetica: si ripete NMF più volte per rango e si calcola quanto siano simili i risultati. In altre parole, quanto sono stabili i cluster identificati, dato che il seme iniziale è casuale. Scegli la K più alta prima che il coefficiente cophenetic scenda.
RSS contro dati randomizzati Per qualsiasi approccio di riduzione della dimensionalità, c'è sempre una perdita di informazioni rispetto ai dati originali (stimati da RSS). Ora esegui NMF per aumentare K e calcola RSS con il tuo set di dati originale e un set di dati randomizzato. Quando si confronta RSS in funzione di K, l'RSS diminuisce all'aumentare di K nel set di dati originale, ma questo è meno il caso del set di dati randomizzato. Confrontando entrambe le pendenze, ci dovrebbe essere una K dove si incrociano. In altre parole, quante informazioni potresti permetterti di perdere (= K più alto) prima di essere nel rumore.

Spero di essere stato abbastanza chiaro.

Modifica: ho trovato quegli articoli.

1.Jean-P. Brunet, Pablo Tamayo, Todd R. Golub e Jill P. Mesirov. Scoperta di metagenes e pattern molecolari mediante fattorizzazione a matrice. In Atti della National Academy of Sciences degli Stati Uniti, 101 (12): 4164-4169, 2004.

2. Attila Frigyesi e Mattias Hoglund. Fattorizzazione a matrice non negativa per l'analisi di dati complessi di espressione genica: identificazione di sottotipi tumorali clinicamente rilevanti. Cancer Informatics, 6: 275-292, 2008.

— Jean-Paul Abbuehl
fonte

Non è chiaro perché l'RSS di dati casuali dovrebbe essere inferiore all'RSS calcolato con i dati originali quando K è piccolo? Per il resto capisco che RSS di random dovrebbe diminuire più lentamente di quello sui dati originali.

— Malik Koné,

Nella fattorizzazione NMF, il parametro (annotato nella maggior parte della letteratura) è il rango dell'approssimazione di ed è scelto in modo tale che . La scelta del parametro determina la rappresentazione dei tuoi dati in una base troppo completa composta dalle colonne di ; il . Il risultato è che i ranghi delle matrici e hanno un limite superiore di $k$ $r$ $V$ $k < \text{min}(m, n)$ $V$ $W$ $w_i \text{ , } i = 1, 2, \cdots, k$ $W$ $H$ e il prodotto è un'approssimazione di basso rango di ; anche al massimo. Quindi la scelta di dovrebbe costituire una riduzione di dimensionalità in cui può essere generato / esteso dai vettori di base di cui sopra. $k$ $WH$ $V$ $k$ $k < \text{min}(m, n)$ $V$

Ulteriori dettagli possono essere trovati nel capitolo 6 di questo libro di S. Theodoridis e K. Koutroumbas.

Dopo aver minimizzato la funzione di costo prescelta rispetto a e , la scelta ottimale di , ( scelta empiricamente lavorando con diversi spazi secondari delle caratteristiche) dovrebbe dare , un'approssimazione di , con caratteristiche rappresentative della matrice iniziale dei dati . $W$ $H$ $k$ $V^*$ $V$ $V$

Lavorare con diversi spazi secondari di funzionalità, nel senso che, il numero di colonne in , è il numero di vettori di base nel sotto-spazio NMF. E lavorare empiricamente con valori diversi di equivale a lavorare con spazi di caratteristiche con ridotte dimensioni. $k$ $W$ $k$

— Gilles
fonte

Ma la domanda era su come scegliere il

ottimale ! Puoi fornirci qualche idea al riguardo?

k

$k$

— ameba dice Reinstate Monica l'

@amoeba Se non ho letto male la domanda iniziale, è "Esistono pratiche comuni per stimare il numero

in NMF?". Il

ottimale viene scelto empiricamente . Ho ampliato la mia risposta.

k

$k$

k

$k$

— Gilles,

La tua spiegazione della fattorizzazione NMF ha un senso totale, ma la domanda iniziale era specificamente sulle pratiche comuni per stimare k. Ora hai scritto che si può scegliere k "empiricamente" (ok) "lavorando con diversi spazi secondari delle caratteristiche". Non sono sicuro di capire cosa significhi "lavorare con diversi spazi secondari di funzionalità", potresti approfondire? Come si dovrebbe lavorare con loro ?? Qual è la ricetta per scegliere k? Questo è il problema (almeno per come l'ho capito). Sarà felice di ripristinare il mio voto negativo!

— ameba dice di reintegrare Monica l'

Apprezzo le tue modifiche e mi dispiace molto per essere così stupido. Ma supponiamo di avere i miei dati e provo [empiricamente] vari valori di

tra 1 e 50. Come dovrei scegliere quello che ha funzionato meglio ??? Ecco come capisco la domanda originale e non riesco a trovare nulla nella tua risposta al riguardo. Per favore fatemi sapere se l'ho perso o se pensate che la domanda originale fosse diversa.

k

$k$

— ameba dice di reintegrare Monica l'

@amoeba Dipende dall'applicazione, dai dati e da ciò che vuoi realizzare. È solo la riduzione della dimensionalità o la separazione delle fonti, ecc.? Ad esempio, nelle applicazioni audio, diciamo la separazione delle sorgenti, il

ottimale sarebbe quello che ti offre la migliore qualità quando ascolti le fonti audio separate. La motivazione per la scelta qui sarà ovviamente diversa se, ad esempio, stavi lavorando con le immagini.

k

$k$

— Gilles,