approcci di formazione per set di dati altamente squilibrati


16

Ho un set di dati di test altamente squilibrato. Il set positivo è composto da 100 casi mentre il set negativo è composto da 1500 casi. Per quanto riguarda la formazione, ho un pool di candidati più ampio: il set di formazione positivo ha 1200 casi e il set di formazione negativo ha 12000 casi. Per questo tipo di scenario, ho diverse scelte:

1) Utilizzo di SVM ponderato per l'intero set di allenamento (P: 1200, N: 12000)

2) Utilizzando SVM basato sul set di addestramento campionato (P: 1200, N: 1200), i 1200 casi negativi vengono campionati da 12000 casi.

Esiste una guida teorica per decidere quale approccio è migliore? Dal momento che il set di dati di test è altamente sbilanciato, dovrei usare anche il set di training sbilanciato?


1
controlla le seguenti domande: Apprendimento supervisionato con eventi "rari" e Modo migliore per gestire un set di dati multiclasse non bilanciato con SVM . Questo aiuta ? Francamente, le tue domande sembrano piuttosto simili;).
Steffen,

Risposte:



0

Regressione logistica espansa a coppie, apprendimento basato su ROC, Boosting e Bagging (aggregazione Bootstrap), gruppo cluster basato su link (LCE), rete bayesiana, classificatori centroidi più vicini, tecniche bayesiane, set approssimativo ponderato, k-NN

e molti metodi di campionamento per gestire gli squilibri.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.