Di recente ho dovuto scegliere una metrica per valutare gli algoritmi di classificazione multilabel e sono arrivato a questo argomento, il che è stato davvero utile. Ecco alcune aggiunte alla risposta di stpk, che sono state utili per fare una scelta.
- MAP può essere adattato ai problemi multilabel, al costo di un'approssimazione
- MAP non deve essere calcolato in k ma la versione multilabel potrebbe non essere adattata quando la classe negativa è preponderante
- MAP e (N) DCG possono entrambi essere riscritti come media ponderata dei valori di pertinenza classificati
Dettagli
Concentriamoci sulla precisione media (AP) poiché la precisione media media (MAP) è solo una media di AP su diverse query. AP è correttamente definito sui dati binari come l'area sotto la curva di richiamo di precisione, che può essere riscritta come media delle precisioni su ciascun elemento positivo. (vedi l'articolo di Wikipedia su MAP ) Una possibile approssimazione è di definirlo come la media delle precisioni per ciascunoarticolo. Purtroppo, perdiamo la bella proprietà che gli esempi negativi classificati alla fine dell'elenco non hanno alcun impatto sul valore di AP. (Ciò è particolarmente triste quando si tratta di valutare un motore di ricerca, con esempi molto più negativi di esempi positivi. Una possibile soluzione alternativa è sottocampionare gli esempi negativi, a costo di altri aspetti negativi, ad esempio le query con elementi più positivi diventeranno uguali difficile alle domande con pochi esempi positivi.)
D'altra parte, questa approssimazione ha la proprietà piacevole che si generalizza bene al caso multilabel. In effetti, nel caso binario, la precisione nella posizione k può anche essere interpretata come la rilevanza media prima della posizione k, dove la rilevanza di un esempio positivo è 1 e la rilevanza di un esempio negativo è 0. Questa definizione si estende in modo abbastanza naturale a il caso in cui esistono più di due diversi livelli di pertinenza. In questo caso, AP può anche essere definito come la media delle rilevanze per ciascuna posizione.
Questa espressione è quella scelta dal relatore del video citato da stpk nella loro risposta. Mostra in questo video che l'AP può essere riscritto come media ponderata delle pertinenze, del peso del fileK-th elemento nella classifica essere
wA pagK= 1Klog( KK)
dove Kè il numero di elementi da classificare. Ora abbiamo questa espressione, possiamo paragonarla al DCG. In effetti, DCG è anche una media ponderata delle pertinenze classificate, i pesi essendo:
wD C.solK= 1log( k + 1 )
Da queste due espressioni, possiamo dedurre che - AP pesa i documenti da 1 a 0. - DCG pesa i documenti indipendentemente dal numero totale di documenti.
In entrambi i casi, se esistono esempi molto più irrilevanti di esempi pertinenti, il peso totale del positivo può essere trascurabile. Per AP, una soluzione alternativa consiste nel sottocampionare i campioni negativi, ma non sono sicuro di come scegliere la proporzione del sottocampionamento, nonché se renderlo dipendente dalla query o dal numero di documenti positivi. Per DCG, possiamo tagliarlo a k, ma sorgono le stesse domande.
Sarei felice di saperne di più, se qualcuno qui ha lavorato sull'argomento.