Ho eseguito una convalida incrociata di 10 volte su diversi algoritmi di classificazione binaria, con lo stesso set di dati, e ho ricevuto risultati medi sia su micro che su macro. Va detto che si trattava di un problema di classificazione multi-etichetta.
Nel mio caso, i veri negativi e i veri positivi sono ponderati allo stesso modo. Ciò significa che prevedere correttamente i veri negativi è altrettanto importante che prevedere correttamente i veri positivi.
Le misure a media media sono inferiori a quelle a media macro. Ecco i risultati di una rete neurale e supporto vettoriale macchina:
Ho anche eseguito un test di suddivisione percentuale sullo stesso set di dati con un altro algoritmo. I risultati furono:
Preferirei confrontare il test di suddivisione percentuale con i risultati con una media delle macro, ma è giusto? Non credo che i risultati a media macro siano di parte perché i veri positivi e i veri negativi sono ponderati allo stesso modo, ma poi mi chiedo se questo equivale a confrontare le mele con le arance?
AGGIORNARE
Sulla base dei commenti mostrerò come vengono calcolate le medie e le macro.
Ho 144 etichette (le stesse delle caratteristiche o degli attributi) che voglio prevedere. Precisione, richiamo e misura F sono calcolati per ciascuna etichetta.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Considerando una misura binaria di valutazione B (tp, tn, fp, fn) che viene calcolata sulla base dei veri positivi (tp), veri negativi (tn), falsi positivi (fp) e falsi negativi (fn). Le macro e micro medie di una misura specifica possono essere calcolate come segue:
Usando queste formule possiamo calcolare le medie micro e macro come segue:
Pertanto, le misure micro-media aggiungono tutte le tp, fp e fn (per ciascuna etichetta), dopodiché viene effettuata una nuova valutazione binaria. Le misure a media macro aggiungono tutte le misure (precisione, richiamo o misura F) e si dividono per il numero di etichette, che è più simile a una media.
Ora, la domanda è quale usare?