Qual è il punto di decomposizione del valore singolare?


9

Non capisco perché la riduzione della dimensione sia importante. Qual è il vantaggio di prendere alcuni dati e ridurne la dimensione?


3
Il tono della domanda non invita a risposte costruttive. Ti preghiamo di considerare di riformulare la tua domanda.
Sasha,

2
Il punto potrebbe essere quello di ridurre il volume di dati necessari per memorizzare determinate informazioni a scapito di una leggera perdita di precisione (ad es. Compressione dell'immagine JPEG).
Sasha,

2
Grazie per i tuoi commenti, @Sasha. È una domanda ragionevole, quindi ho fatto una modifica minore per evitare l'impressione di schiettezza (sicuramente non intenzionale) trasmessa dalla formulazione originale.
whuber


Si esegue SVD per la modellazione di argomenti NON probabilistica. Per la modellazione di argomenti che è probabilistica utilizzare LDA. Se NON stai modellando un argomento, usa PCA.
Brad,

Risposte:


18

La decomposizione del valore singolare (SVD) non equivale a ridurre la dimensionalità dei dati. È un metodo per scomporre una matrice in altre matrici che ha molte proprietà meravigliose che non entrerò qui. Per ulteriori informazioni su SVD, vedere la pagina di Wikipedia .

Ridurre la dimensionalità dei dati è talvolta molto utile. Può darsi che tu abbia molte più variabili delle osservazioni; questo non è raro nel lavoro genomico. È possibile che abbiamo diverse variabili che sono altamente correlate, ad esempio quando sono fortemente influenzate da un piccolo numero di fattori sottostanti e desideriamo recuperare una certa approssimazione dei fattori sottostanti. Le tecniche di riduzione della dimensionalità come l'analisi dei componenti principali, il ridimensionamento multidimensionale e l'analisi delle variabili canoniche ci forniscono informazioni sulle relazioni tra osservazioni e / o variabili che potremmo non essere in grado di ottenere in altro modo.

Un esempio concreto: alcuni anni fa stavo analizzando un sondaggio sulla soddisfazione dei dipendenti che conteneva oltre 100 domande. Bene, nessun manager sarà mai in grado di guardare oltre 100 domande che valgono le risposte, anche riassunte, e fare di più che indovinare cosa significhi tutto, perché chi può dire come sono collegate le risposte e cosa le sta guidando, davvero ? Ho eseguito un'analisi fattoriale sui dati, per la quale ho avuto oltre 10.000 osservazioni, e ho trovato cinque fattori molto chiari e facilmente interpretabili che potrebbero essere utilizzati per sviluppare punteggi specifici del manager (uno per ogni fattore) che riassumessero la totalità di il sondaggio con oltre 100 domande. Una soluzione molto migliore rispetto al dump del foglio di calcolo Excel che era stato il metodo precedente per riportare i risultati!


Un metodo chiamato "thin SVD" viene utilizzato per la riduzione della dimensionalità. Vedi Wikipedia su SVD.
cyborg,

5

Per quanto riguarda il secondo punto della domanda, i vantaggi della riduzione della dimensionalità per un set di dati possono essere:

  • ridurre lo spazio di archiviazione necessario
  • accelerare il calcolo (ad esempio negli algoritmi di machine learning), meno dimensioni significano les computing, anche meno dimensioni possono consentire l'utilizzo di algoritmi inadatti per un gran numero di dimensioni
  • rimuovere le funzionalità ridondanti, ad esempio inutile memorizzare le dimensioni di un terreno sia in metri quadrati che in miglia quadrate (forse la raccolta dei dati era difettosa)
  • ridurre la dimensione di un dato in 2D o 3D può permetterci di tracciarlo e visualizzarlo, magari osservare schemi, darci informazioni

Oltre a questo, oltre a PCA, SVD ha molte applicazioni in Signals Processing, NLP e molte altre


2

Dai un'occhiata a questa mia risposta . La scomposizione del valore singolare è un componente chiave dell'analisi dei componenti principali , che è una tecnica di analisi dei dati molto utile e molto potente.

Viene spesso utilizzato negli algoritmi di riconoscimento facciale e ne faccio un uso frequente nel mio lavoro di giorno come analista di hedge fund.


1
Le procedure SVD e PCA (sebbene correlate) non sono diverse?
B_Miner

2
Hai ragione. SVD è un metodo per ottenere una soluzione al problema PCA.
Bayerj,

1
@B_Miner Sì, ecco perché ho detto che svd è un componente chiave di pca. Mi sono concentrato su pca perché la domanda riguarda la riduzione dimensionale (per la quale pca è appropriata e svd non lo è)
Chris Taylor,

Forse la scelta della parola del componente è stata quella che ha temporaneamente gettato via @B_Miner. :)
Cardinale
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.