Dati ad alta dimensione: quali sono le tecniche utili da sapere?

14

A causa di varie maledizioni di dimensionalità , l'accuratezza e la velocità di molte delle comuni tecniche predittive si riducono su dati ad alta dimensione. Quali sono alcune delle tecniche / trucchi / euristiche più utili che aiutano a gestire efficacemente i dati ad alta dimensione? Per esempio,

Alcuni metodi statistici / di modellazione funzionano bene su set di dati ad alta dimensione?
Possiamo migliorare le prestazioni dei nostri modelli predittivi su dati ad alta dimensione utilizzando determinati (che definiscono nozioni alternative di distanza) o kernel (che definiscono nozioni alternative di punto dot)?
Quali sono le tecniche più utili di riduzione della dimensionalità per dati ad alta dimensione?

machine-learning statistics dimensionality-reduction

— ASX
fonte

10

Questa è una domanda molto ampia , che ritengo impossibile affrontare in modo completo in un'unica risposta. Pertanto, penso che sarebbe più utile fornire alcuni suggerimenti per risposte e / o risorse pertinenti. Questo è esattamente ciò che farò fornendo le seguenti informazioni e i miei pensieri.

Prima di tutto, dovrei menzionare il tutorial eccellente e completo sulla riduzione della dimensionalità di Burges (2009) di Microsoft Research. Tocca frequentemente aspetti ad alta dimensione dei dati durante la monografia. Questo lavoro, riferito alla riduzione della dimensionalità come riduzione della dimensione , presenta un'introduzione teorica al problema , suggerisce una tassonomia dei metodi di riduzione della dimensionalità, che consiste di metodi proiettivi e molteplici metodi di modellizzazione , oltre a fornire una panoramica di molteplici metodi in ciascuna categoria.

I metodi di "ricerca proiettiva " esaminati comprendono l'analisi dei componenti indipendenti (ICA) , l' analisi dei componenti principali (PCA) e le sue variazioni, come PCA del kernel e PCA probabilistico , analisi di correlazione canonica (CCA) e la sua variazione CCA del kernel , analisi discriminante lineare (LDA ) , riduzione della dimensione del kernel (KDR) e alcuni altri. I molteplici metodi esaminati includono il ridimensionamento multidimensionale (MDS) e la sua variazione MDS di riferimento , Isomap , Incorporamento lineare localee metodi grafici, come le autovapi laplaciane e il raggruppamento spettrale . Sto elencando la maggior parte dei metodi esaminati qui nel caso, se la pubblicazione originale è inaccessibile per te, online (link sopra) o offline (riferimenti).

C'è un avvertimento per il termine "completo" che ho applicato al lavoro di cui sopra. Sebbene sia effettivamente piuttosto completo, questo è relativo, poiché alcuni degli approcci alla riduzione della dimensionalità non sono discussi nella monografia, in particolare quelli focalizzati su variabili non osservabili (latenti) . Alcuni di essi sono citati, tuttavia, con riferimenti a un'altra fonte: un libro sulla riduzione della dimensionalità.

Ora tratterò brevemente alcuni aspetti più ristretti dell'argomento in questione facendo riferimento alle mie risposte pertinenti o correlate. Per quanto riguarda gli approcci di tipo vicini più vicini (NN) ai dati ad alta dimensione, si prega di consultare le mie risposte qui (in particolare consiglio di controllare il documento n. 4 nella mia lista). Uno degli effetti della maledizione della dimensionalità è che i dati ad alta dimensione sono spesso scarsi . Considerando questo fatto, ritengo che le mie risposte pertinenti qui e qui su regressione e PCA per dati sparsi e ad alta dimensione possano essere utili.

Riferimenti

Burges, CJC (2010). Riduzione dimensionale: una visita guidata. Foundations and Trends® in Machine Learning, 2 (4), 275-365. DOI: 10,1561 / 2.200.000,002 mila

— Aleksandr Blekh
fonte

0

Aleksander ha dato una risposta molto esauriente, ma ce ne sono alcuni che sono stati citati in giudizio molto ampiamente:

Per la riduzione della dimensionalità, viene utilizzato il PCA. Tuttavia, ciò comporta solo una trasformazione lineare e per la riduzione della dimensionalità non lineare, l'apprendimento collettivo è ciò che stai cercando.

La proiezione di dati di dimensioni inferiori a dimensioni superiori può essere eseguita utilizzando i kernel. Di solito lo fai, quando il tuo classificatore non è in grado di trovare un piano lineare di separazione nella dimensione corrente ma sarà in grado di trovare un iperpiano lineare che separa le classi in una dimensione superiore. I kernel sono ampiamente utilizzati negli SVM.

— ariete
fonte