Sto affrontando una situazione in cui il numero di esempi positivi e negativi in un set di dati è squilibrato.
La mia domanda è: ci sono delle regole empiriche che ci dicono quando dovremmo sottocampionare la grande categoria per forzare un qualche tipo di bilanciamento nel set di dati.
Esempi:
- Se il numero di esempi positivi è 1.000 e il numero di esempi negativi è 10.000, dovrei allenare il mio classificatore sull'insieme completo di dati o dovrei sottocampionare gli esempi negativi?
- La stessa domanda per 1.000 esempi positivi e 100.000 negativi.
- La stessa domanda per 10.000 positivi e 1.000 negativi.
- eccetera...