Il ragionamento intuitivo è stato spiegato nel blogpost:
Se il nostro obiettivo è la previsione, questo causerà una distorsione definita. E peggio, sarà un pregiudizio permanente, nel senso che non avremo stime coerenti con l'aumentare della dimensione del campione.
Quindi, probabilmente il problema dei dati (artificialmente) bilanciati è peggiore del caso sbilanciato.
I dati bilanciati sono buoni per la classificazione, ma ovviamente perdi informazioni sulle frequenze di apparizione, che influenzeranno le metriche di precisione stesse, nonché le prestazioni di produzione.
Supponiamo che tu stia riconoscendo le lettere scritte a mano dell'alfabeto inglese (26 lettere). Riequilibrando ogni aspetto della lettera si darà a ogni lettera una probabilità di essere classificata (correttamente o meno) all'incirca 1/26, quindi il classificatore dimenticherà l'effettiva distribuzione delle lettere nel campione originale. Ed è ok quando il classificatore è in grado di generalizzare e riconoscere ogni lettera con alta precisione .
Ma se l'accuratezza e, soprattutto, la generalizzazione non è "così elevata" (non posso darti una definizione - puoi pensarla solo come un "caso peggiore") - i punti classificati erroneamente si distribuiranno equamente tra tutte le lettere , qualcosa di simile a:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Al contrario di senza bilanciamento (supponendo che "A" e "C" abbiano probabilità di aspetto molto più elevate nel testo)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
I casi così frequenti avranno meno classificazioni errate. Se va bene o no dipende dal tuo compito. Per il riconoscimento naturale del testo, si potrebbe sostenere che le lettere con frequenze più alte sono più praticabili, poiché preserverebbero la semantica del testo originale, avvicinando il compito di riconoscimento alla previsione (dove la semantica rappresenta tendenze ). Ma se stai cercando di riconoscere qualcosa di simile allo screenshot della chiave ECDSA (più entropia -> meno previsione) - mantenere i dati sbilanciati non sarebbe d'aiuto. Quindi, di nuovo, dipende.
La distinzione più importante è che la stima dell'accuratezza è, di per sé, distorta (come puoi vedere nell'esempio dell'alfabeto bilanciato), quindi non sai come il comportamento del modello viene influenzato dai punti più rari o più frequenti.
PS È sempre possibile tenere traccia delle prestazioni della classificazione sbilanciato con precisione / Recall metriche prime e decidere se è necessario aggiungere il bilanciamento o no.
EDIT : c'è ulteriore confusione nella teoria della stima proprio nella differenza tra media campionaria e media demografica. Ad esempio, potresti conoscere (probabilmente) la distribuzione effettiva delle lettere inglesi nell'alfabeto , ma il tuo campione (set di addestramento) non è abbastanza grande per stimarlo correttamente (con ). Quindi, al fine di compensare un , a volte si consiglia di riequilibrare le classi in base alla popolazione stessa o ai parametri noti da un campione più ampiop ( xio| θ)p ( xio| θ^)θ I - θ iθ^io- θio(quindi migliore stimatore). Tuttavia, in pratica non vi è alcuna garanzia che il "campione più ampio" sia distribuito in modo identico a causa del rischio di ottenere dati distorti in ogni fase (diciamo lettere inglesi raccolte dalla letteratura tecnica contro la narrativa rispetto all'intera biblioteca), quindi il bilanciamento potrebbe essere ancora dannoso.
Questa risposta dovrebbe anche chiarire i criteri di applicabilità per il bilanciamento:
Il problema dello squilibrio di classe è causato dal fatto che non ci sono abbastanza schemi appartenenti alla classe di minoranza, non dal rapporto di schemi positivi e negativi in sé. In genere, se si dispone di dati sufficienti, il "problema di squilibrio di classe" non si presenta
In conclusione, il bilanciamento artificiale è raramente utile se il set di allenamento è abbastanza grande. L'assenza di dati statistici da un campione più ampio distribuito in modo identico suggerisce anche che non è necessario un bilanciamento artificiale (soprattutto per la previsione), altrimenti la qualità dello stimatore è buona quanto la "probabilità di incontrare un dinosauro":
Qual è la probabilità di incontrare un dinosauro per strada?
1/2 o incontri un dinosauro o non incontri un dinosauro