La classificazione GBM soffre di classi di classi squilibrate?


16

Ho a che fare con un problema di classificazione binaria supervisionata. Vorrei utilizzare il pacchetto GBM per classificare le persone come non infette / infette. Ho 15 volte più infetto di individui infetti.

Mi chiedevo se i modelli GBM soffrono nel caso di classi di dimensioni squilibrate? Non ho trovato riferimenti a questa domanda.

Ho provato a regolare i pesi assegnando un peso di 1 agli individui non infetti e un peso di 15 agli infetti, ma ho ottenuto scarsi risultati.


1
(nota a margine) Sarebbe utile se fornissi ciò che GBM rappresenta e un link al pacchetto.
Memming

1
Quale funzione di perdita stai usando per il tuo modello di aumento gradiente? Quando si tratta di classi squilibrate, ho visto scarse prestazioni quando ho usato un errore assoluto medio perché sembra favorire la classe più comune. Quando ho usato l'errore quadratico medio, le prestazioni sono migliorate notevolmente
Ryan Zotti il

Solo per riferimento futuro, trovo che anche la funzione di perdita predefinita utilizzata dalla perdita logaritmica del cursore (deviazione incrociata) sia abbastanza utile. (penalizza pesantemente i casi sbagliati in una scala logaritmica negativa)
Lily Long

Risposte:


4

Nella mia esperienza, GBM in effetti soffre di classi squilibrate. Ho avuto un buon successo usando il campionamento SMOTE, che crea dati sintetici mentre sovracampiona la classe di minoranza. Lo puoi trovare nel DMwRpacchetto.


Sono un po 'confuso. GBM non dovrebbe essere un approccio per gestire lo squilibrio dei dati?
Dai

5

Penso che i tuoi dati siano simili ai dati Secom sui quali ho lavorato in passato e ho dovuto affrontare molte difficoltà. Di seguito è quello che ho provato:

  • Diverse tecniche di campionamento
  • Diversi classificatori come Random Forest, ANN, GBM, metodi Ensemble, ecc.

Ho anche provato SVM di classe 1 che ha dato risultati migliori rispetto ad altri come adaboost, Random Forest. Puoi provare anche quello.

E posso vedere che hai posto questa domanda 1 anno fa, quindi se hai trovato il modo migliore allora gentilmente pubblicalo qui in modo che io possa ottenere aiuto da esso per ottenere una migliore precisione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.