La maledizione della dimensionalità influenza alcuni modelli più di altri?


15

I luoghi che ho letto sulla maledizione della dimensionalità lo spiegano congiuntamente a kNN e ai modelli lineari in generale. Vedo regolarmente i migliori ranghi di Kaggle usando migliaia di funzionalità nel set di dati che difficilmente ha 100.000 punti dati. Usano principalmente alberi potenziati e NN, tra gli altri. Che molte caratteristiche sembrano troppo alte e penso che sarebbero influenzate dalla maledizione della dimensionalità. Ma questo non sembra essere il caso in quanto questi modelli li rendono al top delle competizioni. Quindi, tornando alla mia domanda originale: alcuni modelli sono influenzati dalla maledizione della dimensionalità più di altri?

In particolare, sono interessato ai seguenti modelli (solo perché questi sono quelli di cui sono a conoscenza / usato):

  • Regressione lineare e logistica
  • Alberi decisionali / RandomForest / Boosted Trees
  • Reti neurali
  • SVM
  • kNN
  • k-significa raggruppamento

La risposta breve è sicuramente sì, ma forse vuoi modelli a cui sei realmente interessato? Sono sicuro che la community CV potrebbe parlarvi di migliaia di diversi tipi di modelli che sono interessati dalla maledizione della dimensionalità. Quindi restringere la tua attenzione a determinati tipi di modelli può aiutare a rispondere a questa domanda.

@RustyStatistician - Ho aggiunto alcuni modelli che mi interessano.
Dileep Kumar Patchigolla,

Sono abbastanza interessato a questa domanda ma è rimasta senza risposta. Come posso visualizzare questo in visibilità, per ottenere risposte?
Dileep Kumar Patchigolla,

Risposte:


16

In generale, la maledizione della dimensionalità rende il problema della ricerca attraverso uno spazio molto più difficile ed ha effetto sulla maggior parte degli algoritmi che "apprendono" attraverso il partizionamento del loro spazio vettoriale. Maggiore è la dimensionalità del nostro problema di ottimizzazione, più dati abbiamo bisogno per riempire lo spazio su cui stiamo ottimizzando.

Modelli lineari generalizzati

I modelli lineari soffrono immensamente della maledizione della dimensionalità. I modelli lineari suddividono lo spazio in un unico piano lineare. Anche se non stiamo cercando di calcolare direttamente

β^=(XX)1Xy
il problema posto è ancora molto sensibile alla collinearità e può essere considerato "mal condizionato" senza un qualche tipo di regolarizzazione. In spazi di dimensioni molto elevate, esiste più di un piano che può essere adattato ai dati e senza un adeguato tipo di regolarizzazione può comportare un comportamento molto scarso del modello. In particolare, ciò che fa la regolarizzazione è cercare di forzare l'esistenza di una soluzione unica. Sia la regolarizzazione L1 che quella quadrata L2 cercano di minimizzare i pesi e possono essere interpretati selezionando il modello con i pesi più piccoli per essere il modello più "corretto". Questo può essere pensato come una formulazione matematica di Occams Razor.

Alberi
decisionali Anche gli alberi decisionali soffrono della maledizione della dimensionalità. Gli alberi decisionali suddividono direttamente lo spazio di campionamento su ciascun nodo. All'aumentare dello spazio di campionamento, aumentano le distanze tra i punti dati, il che rende molto più difficile trovare una "buona" divisione.

Foreste
casuali Le foreste casuali utilizzano una raccolta di alberi decisionali per formulare previsioni. Invece di utilizzare tutte le funzionalità del tuo problema, i singoli alberi utilizzano solo un sottoinsieme delle funzionalità. Ciò riduce al minimo lo spazio su cui ciascun albero sta ottimizzando e può aiutare a combattere il problema della maledizione della dimensionalità.

Gli
algoritmi Boosted Tree Boosting come AdaBoost soffrono della maledizione della dimensionalità e tendono a sovraccaricare se la regolarizzazione non viene utilizzata. Non approfondirò, perché il post AdaBoost è meno o più incline al sovradimensionamento? spiega il motivo per cui meglio di me.

Reti neurali
Le reti neurali sono strane nel senso che entrambe sono e non sono influenzate dalla maledizione della dimensionalità dipendente dall'architettura, dalle attivazioni, dalla profondità, ecc. Quindi, ribadire la maledizione della dimensionalità è il problema che una grande quantità di punti sono necessari in alto dimensioni per coprire uno spazio di input. Un modo di interpretare le reti neurali profonde è pensare che tutti gli strati si aspettino che l'ultimo strato faccia una proiezione complicata di una varietà ad alta dimensione in una varietà a dimensione inferiore, dove poi l'ultimo strato si classifica al di sopra. Quindi, ad esempio in una rete convoluzionale per la classificazione in cui l'ultimo strato è un livello softmax, possiamo interpretare l'architettura come fare una proiezione non lineare su una dimensione più piccola e quindi fare una regressione logistica multinomiale (il livello softmax) su quella proiezione. Quindi, in un certo senso, la rappresentazione compressa dei nostri dati ci consente di aggirare la maledizione della dimensionalità. Anche in questo caso si tratta di un'interpretazione, in realtà la maledizione della dimensionalità influisce in realtà sulle reti neurali, ma non allo stesso livello dei modelli sopra descritti.

SVM
SVM tende a non sovraccaricare quanto i modelli lineari generalizzati a causa dell'eccessiva regolarizzazione che si verifica. Dai un'occhiata a questo post SVM, Overfitting, maledizione della dimensionalità per maggiori dettagli.

K-NN, K-Mezzi

Sia K-mean che K-NN sono fortemente influenzati dalla maledizione della dimensionalità, poiché entrambi usano la misura della distanza quadrata L2. Man mano che la quantità di dimensioni aumenta, aumenta anche la distanza tra i vari punti dati. Questo è il motivo per cui hai bisogno di una quantità maggiore di punti per coprire più spazio nella speranza che la distanza sia più descrittiva.

Sentiti libero di chiedere dettagli sui modelli, poiché le mie risposte sono piuttosto generali. Spero che sia di aiuto.


Ciao Amen Ottime spiegazioni sintetiche per tutti i modelli che ho chiesto. I problemi con i modelli lineari non sono ancora chiari per me: i modelli lineari funzionano meglio o peggio dei modelli k-NN e k-Means per lo stesso no: di dimensioni? E quando hai detto che la collinearità è un problema per i modelli lineari, implica che senza collinearità (o minima), le alte dimensioni non sono un problema con i modelli lineari?
Dileep Kumar Patchigolla,

È difficile quantificare se i modelli lineari funzioneranno meglio di k-nn o k-medie per un problema arbitrario. Se il tuo problema è linearmente separabile, piazzerei le mie scommesse sul modello lineare, mentre se il tuo spazio fosse un po 'più complicato, andrei con k-nn. La collinearità aggrava il problema della maledizione della dimensionalità, anche senza collinearità, la maledizione della dimensionalità è ancora valida. I mezzi K dovrebbero soffrire nella stessa misura di k-nn poiché entrambi sono guidati dal vicino e generalmente usano la stessa funzione di distanza. In realtà è difficile quantificare quanto è cattivo il COD. Spero che sia di aiuto!
Armen Aghajanyan,

Qual è la tua definizione di maledizione della dimensionalità (CoD)? La tua risposta sembra suggerire che i modelli lineari soffrono maggiormente di CoD, questo è fuorviante: essendo un metodo globale, i modelli lineari soffrono molto meno dei metodi localizzati come KNN.
Matifou,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.