devi affrontare lo squilibrio di classe se / perché migliora il tuo modello (su dati invisibili). "Meglio" è qualcosa che devi definire te stesso. Potrebbe essere precisione, potrebbe essere un costo, potrebbe essere il vero tasso positivo ecc.
C'è una sottile sfumatura che è importante cogliere quando si parla di squilibrio di classe. Vale a dire, i tuoi dati sono sbilanciati perché:
- la distribuzione dei dati è essa stessa sbilanciata
In alcuni casi, una classe si presenta molto più di un'altra. E va bene In questo caso, devi verificare se alcuni errori sono più costosi di altri. Questo è l'esempio tipico di rilevare malattie mortali nei pazienti, capire se qualcuno è un terrorista, ecc. Torna alla breve risposta. Se alcuni errori sono più costosi di altri, ti consigliamo di "punirli" dando loro un costo più elevato. Pertanto, un modello migliore avrà un costo inferiore. Se tutti gli errori sono così gravi, non esiste un vero motivo per cui dovresti usare modelli sensibili ai costi.
È anche importante notare che l'utilizzo di modelli sensibili ai costi non è specifico per i set di dati non bilanciati. Puoi utilizzare tali modelli anche se i tuoi dati sono perfettamente bilanciati.
- non rappresenta la vera distribuzione dei dati
A volte i tuoi dati sono "sbilanciati" perché non rappresentano la vera distribuzione dei dati. In questo caso, devi stare attento, perché hai "troppi" esempi di una classe e "troppo pochi" dell'altra, quindi devi assicurarti che il tuo modello non si esageri troppo di queste classi.
Ciò è diverso dall'uso dei costi perché potrebbe non essere il caso che un errore sia peggiore di un altro. Ciò che accadrebbe è che verrai influenzato e non sarebbe vantaggioso per il tuo modello se i dati invisibili non avessero la stessa distribuzione dei dati su cui ti sei allenato.
Diciamo che ti do dati di allenamento e il tuo obiettivo è indovinare se qualcosa è rosso o blu. Sia che tu confonda blu con rosso o rosso con blu non fa molta differenza. I tuoi dati di allenamento hanno il 90% di casi rossi in cui nella vita reale accadono solo il 10% delle volte. Dovresti occupartene per migliorare il tuo modello.