perché il metodo di potenziamento è sensibile ai valori anomali


12

Ho trovato molti articoli che affermano che i metodi di potenziamento sono sensibili ai valori anomali, ma nessun articolo spiega il perché.

Nella mia esperienza, i valori anomali sono dannosi per qualsiasi algoritmo di apprendimento automatico, ma perché i metodi di potenziamento sono particolarmente sensibili?

In che modo i seguenti algoritmi si classificherebbero in termini di sensibilità ai valori anomali: boost-tree, foresta casuale, rete neurale, SVM e semplici metodi di regressione come la regressione logistica?


1
Ho modificato per cercare di chiarire (anche se metti degli spazi all'inizio di una riga, stackexchange lo tratterà come codice). Per il tuo secondo paragrafo, il potenziamento è cosa? Potrebbe essere necessario definire la sensibilità.
Jeremy Miles

1
Inoltre, i valori anomali e il rumore non sono la stessa cosa.
Jeremy Miles

Non vorrei contrassegnare questa domanda come ancora risolta. Non è chiaro se il potenziamento in realtà soffra di valori anomali più di altri metodi o meno. Sembra che la risposta accettata sia stata accettata principalmente a causa di errori di conferma.
risciacquo

Puoi condividere alcuni di questi articoli, per favore?
acnalb

Risposte:


11

I valori anomali possono essere dannosi per il potenziamento poiché il potenziamento costruisce ogni albero sui residui / errori degli alberi precedenti. I valori anomali avranno residui molto più grandi dei non valori anomali, quindi l'aumento del gradiente focalizzerà una quantità sproporzionata della sua attenzione su quei punti.


2
Sarà meglio se puoi fornire maggiori dettagli matematici all'OP!
Metariat,

5
@Matemattica Non sono d'accordo sul fatto che l'aggiunta di dettagli matematici fornirà ulteriore chiarezza qui. Sarebbe solo un simbolo per i gradienti degli alberi e un tasso di apprendimento per gli alberi successivi.
Ryan Zotti,

1
@RyanZotti: sono d'accordo con Metariat. Una notazione più formale risolverebbe un po 'di confusione. Ad esempio, nella frase "I valori anomali avranno residui molto più grandi dei non valori anomali" intendi i residui rispetto a cosa? Il modello stimato o quello vero? Se il primo, non è vero in generale e se il secondo, è irrilevante.
user603

1

Gli algoritmi che hai specificato sono per la classificazione, quindi presumo che non intendi valori anomali nella variabile target, ma input valori anomali della variabile. I metodi Albero potenziato dovrebbero essere abbastanza robusti rispetto ai valori anomali nelle funzioni di input poiché gli apprendenti di base sono suddivisioni dell'albero. Ad esempio, se la divisione è x > 35 e 5.000.000 vengono trattati allo stesso modo. Questa può essere o non essere una buona cosa, ma questa è una domanda diversa.

Se invece si trattasse di regressione e valori anomali nella variabile target, la sensibilità dei metodi dell'albero potenziato dipenderebbe dalla funzione di costo utilizzata. Ovviamente, l'errore al quadrato è sensibile agli outlier perché la differenza è al quadrato e ciò influenzerà notevolmente l'albero successivo dal momento che aumentano i tentativi di adattarsi alla perdita (gradiente della). Tuttavia, ci sono funzioni di errore più robuste che possono essere utilizzate per metodi ad albero potenziato come la perdita di Huber e la perdita assoluta.


0

Nel potenziamento proviamo a scegliere il set di dati su cui i risultati dell'algoritmo erano scarsi invece di scegliere casualmente il sottoinsieme di dati. Questi esempi concreti sono importanti da imparare, quindi se il set di dati ha molti valori anomali e l'algoritmo non sta funzionando bene su quelli, piuttosto che imparare quegli esempi difficili l'algoritmo proverà a selezionare sottoinsiemi con quegli esempi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.