Ho un set di dati di test altamente squilibrato. Il set positivo è composto da 100 casi mentre il set negativo è composto da 1500 casi. Per quanto riguarda la formazione, ho un pool di candidati più ampio: il set di formazione positivo ha 1200 casi e il set di formazione negativo ha 12000 casi. Per questo tipo di scenario, ho diverse scelte:
1) Utilizzo di SVM ponderato per l'intero set di allenamento (P: 1200, N: 12000)
2) Utilizzando SVM basato sul set di addestramento campionato (P: 1200, N: 1200), i 1200 casi negativi vengono campionati da 12000 casi.
Esiste una guida teorica per decidere quale approccio è migliore? Dal momento che il set di dati di test è altamente sbilanciato, dovrei usare anche il set di training sbilanciato?