Non capisco perché la riduzione della dimensione sia importante. Qual è il vantaggio di prendere alcuni dati e ridurne la dimensione?
Non capisco perché la riduzione della dimensione sia importante. Qual è il vantaggio di prendere alcuni dati e ridurne la dimensione?
Risposte:
La decomposizione del valore singolare (SVD) non equivale a ridurre la dimensionalità dei dati. È un metodo per scomporre una matrice in altre matrici che ha molte proprietà meravigliose che non entrerò qui. Per ulteriori informazioni su SVD, vedere la pagina di Wikipedia .
Ridurre la dimensionalità dei dati è talvolta molto utile. Può darsi che tu abbia molte più variabili delle osservazioni; questo non è raro nel lavoro genomico. È possibile che abbiamo diverse variabili che sono altamente correlate, ad esempio quando sono fortemente influenzate da un piccolo numero di fattori sottostanti e desideriamo recuperare una certa approssimazione dei fattori sottostanti. Le tecniche di riduzione della dimensionalità come l'analisi dei componenti principali, il ridimensionamento multidimensionale e l'analisi delle variabili canoniche ci forniscono informazioni sulle relazioni tra osservazioni e / o variabili che potremmo non essere in grado di ottenere in altro modo.
Un esempio concreto: alcuni anni fa stavo analizzando un sondaggio sulla soddisfazione dei dipendenti che conteneva oltre 100 domande. Bene, nessun manager sarà mai in grado di guardare oltre 100 domande che valgono le risposte, anche riassunte, e fare di più che indovinare cosa significhi tutto, perché chi può dire come sono collegate le risposte e cosa le sta guidando, davvero ? Ho eseguito un'analisi fattoriale sui dati, per la quale ho avuto oltre 10.000 osservazioni, e ho trovato cinque fattori molto chiari e facilmente interpretabili che potrebbero essere utilizzati per sviluppare punteggi specifici del manager (uno per ogni fattore) che riassumessero la totalità di il sondaggio con oltre 100 domande. Una soluzione molto migliore rispetto al dump del foglio di calcolo Excel che era stato il metodo precedente per riportare i risultati!
Per quanto riguarda il secondo punto della domanda, i vantaggi della riduzione della dimensionalità per un set di dati possono essere:
Oltre a questo, oltre a PCA, SVD ha molte applicazioni in Signals Processing, NLP e molte altre
Dai un'occhiata a questa mia risposta . La scomposizione del valore singolare è un componente chiave dell'analisi dei componenti principali , che è una tecnica di analisi dei dati molto utile e molto potente.
Viene spesso utilizzato negli algoritmi di riconoscimento facciale e ne faccio un uso frequente nel mio lavoro di giorno come analista di hedge fund.