L'aumento del gradiente è appropriato per i dati con tassi di eventi bassi come l'1%?


14

Sto provando a incrementare il gradiente su un set di dati con un tasso di eventi di circa l'1% utilizzando Enterprise miner, ma non riesce a produrre alcun output. La mia domanda è, dato che si tratta di un approccio basato sull'albero decisionale, è anche giusto usare il boost gradiente con un evento così basso?


3
Hai a che fare con un set di dati sbilanciato. Il potenziamento è davvero un buon modo per affrontarlo. Per i dettagli, consultare stats.stackexchange.com/questions/157940/…
DaL

Ma per me la regressione logistica sta dando risultati migliori rispetto alla foresta casuale o all'incremento gradiente. Volevo migliorare le prestazioni del mio modello, provando gli alberi potenziati.
user2542275

Il potenziamento si basa su classificatori deboli. Teoricamente, qualsiasi classificatore debole che è leggermente migliore di quello casuale farà. In pratica, algoritmi diversi sono più adatti ad alcuni set di dati, quindi il classificatore debole che scegli è importante. Puoi specificare di più sugli algoritmi che hai usato, i loro risultati e il set di dati?
DaL

Ok. Informazioni sul set di dati: dimensione del campione> 4 m, frequenza eventi = 1,2%. Numero di predittori che hanno un valore p significativo <0,05 sono 150. La regressione logistica con le variabili più significative ha dato un aumento di 3 al 20% della popolazione. La rete neurale ha dato un aumento di circa 2,8. L'aumento gradiente non ha prodotto alcun risultato, fino a quando non ho usato il campionamento stratificato con pesi precedenti inversi. Ma le prestazioni sono scadenti.
user2542275

Poiché il tuo set di dati è piuttosto grande, dovresti avere abbastanza campioni della tua classe di minoranza, quindi il problema è dovuto allo squilibrio relativo. Hai un bel po 'di funzionalità ma non troppe, ma in effetti l'albero decisionale è meno adatto a tali set di dati. Ti suggerisco di creare un set di dati bilanciato e vedere come i tuoi algoritmi si comportano su di esso. Quindi sarai in grado di applicare l'algoritmo sul set di dati originale come ho descritto nel primo commento.
DaL

Risposte:


7

(Per dare una breve risposta a questo :)

Va bene usare un algoritmo di macchina per incrementare il gradiente quando si ha a che fare con un set di dati sbilanciato. Quando si ha a che fare con un set di dati fortemente sbilanciato, è molto più importante mettere in discussione l'idoneità della metrica utilizzata. Dovremmo potenzialmente evitare metriche, come Precisione o Richiamo, basate su soglie arbitrarie e optare per metriche, come il punteggio AUCPR o Brier, che forniscano un quadro più accurato - vedere l'eccellente thread CV.SE su: Perché l'accuratezza non è la misura migliore per valutare i modelli di classificazione? per più). Allo stesso modo, si potrebbe potenzialmente assumere un approccio costo-sensibili assegnando diversi costi di errata classificazione (ad esempio si veda Masnadi-Shirazi & Vasconcelos (2011) Aumentare sensibili ai costiper una visione generale e proposte di modifiche agli algoritmi di potenziamento noti o per un'applicazione particolarmente interessante con un approccio più semplice, consultare il rapporto sulle sfide di Higgs Boson per l'algoritmo XGBoost; Chen & He (2015) Higgs Boson Discovery with Boosted Trees fornisce maggiori dettagli).

Vale anche la pena notare che se impieghiamo un classificatore probabilistico (come GBM) possiamo / dovremmo esaminare attivamente la calibrazione delle probabilità restituite (ad es. Vedi Zadrozny & Elkan (2002) Trasformare i punteggi dei classificatori in accurate stime di probabilità multiclasse o Kull et al. ( 2017) Calibrazione beta: un miglioramento fondato e facilmente implementato sulla calibrazione logistica per classificatori binari ) per migliorare potenzialmente le prestazioni del nostro studente. Soprattutto quando si lavora con dati sbilanciati per catturare adeguatamente i cambiamenti di tendenza potrebbe essere più informativo della semplice etichettatura dei dati. In tal senso, alcuni potrebbero sostenere che gli approcci sensibili ai costi non sono poi così vantaggiosi alla fine (ad esempio, vedere Nikolaou et al. (2016)Algoritmi di boosting sensibili ai costi: ne abbiamo davvero bisogno? ). Per ribadire il punto originale, tuttavia, gli algoritmi di potenziamento non sono intrinsecamente dannosi per i dati sbilanciati e in alcuni casi possono offrire un'opzione molto competitiva.


Credo che il punteggio di Brier sia equivalente alla misura della precisione, quindi avrà gli stessi limiti della precisione quando si valutano modelli di eventi rari.
RobertF

Il punteggio Brier non equivale alla precisione. Si noti che utilizziamo la probabilità prevista per il calcolo del punteggio di Brier mentre per il calcolo della precisione utilizziamo le etichette in base al limite rigido delle probabilità previste.
usεr11852,

Grazie per il chiarimento: usare la probabilità stimata anziché 0/1 per la classe prevista ha più senso.
RobertF

Freddo. Sono contento che l'abbiamo risolto! :)
usεr11852
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.