Precisione media media vs rango reciproco medio

Sto cercando di capire quando è opportuno utilizzare MAP e quando utilizzare MRR. Ho trovato questa presentazione che afferma che MRR è meglio utilizzato quando il numero di risultati rilevanti è inferiore a 5 e migliore quando è 1. In altri casi MAP è appropriato. Ho due domande:

Non capisco davvero perché sia così.
Non riesco a trovare un riferimento citabile per questa affermazione.

Si prega di notare che non ho un background statistico molto forte, quindi la spiegazione di un profano sarebbe di grande aiuto. Grazie.

information-retrieval average-precision

— KG
fonte

Immagina di avere una sorta di query e che il tuo sistema di recupero ti abbia restituito un elenco classificato dei 20 principali elementi che ritiene più pertinenti alla tua query. Ora immagina anche che ci sia una verità fondamentale in questo, che in verità possiamo dire per ciascuno di quei 20 che "sì" è una risposta pertinente o "no" non lo è.

Il rango reciproco medio (MRR) ti fornisce una misura generale della qualità in queste situazioni, ma MRR si preoccupa solo del singolo elemento pertinente più alto . Se il tuo sistema restituisce un articolo rilevante nel terzo punto più alto, questo è ciò che interessa a MRR. Non importa se gli altri elementi rilevanti (supponendo che ce ne siano) siano classificati numero 4 o numero 20.

Pertanto, MRR è appropriato per giudicare un sistema in cui (a) c'è solo un risultato rilevante, oppure (b) nel tuo caso d'uso ti interessa davvero solo quello con il punteggio più alto. Questo potrebbe essere vero in alcuni scenari di ricerca Web, ad esempio, in cui l'utente vuole solo trovare una cosa su cui fare clic, non ne ha più bisogno. (Anche se in genere è vero, o saresti più felice con una ricerca sul web che ha restituito dieci risposte piuttosto buone, e potresti dare il tuo giudizio su quale di quelli su cui fare clic ...?)

La precisione media media (MAP) considera se tutti gli elementi rilevanti tendono a ottenere un punteggio elevato. Quindi nell'esempio tra i primi 20, non importa solo se c'è una risposta pertinente al numero 3, ma importa anche se tutti gli elementi "sì" in quella lista sono raggruppati verso l'alto.

Quando nel set di dati è presente una sola risposta rilevante, MRR e MAP sono esattamente equivalenti ai sensi della definizione standard di MAP.

Per capire perché, considera i seguenti esempi di giocattoli, ispirati agli esempi in questo post del blog :

Esempio 1

Query: "Capitale della California"

Risultati classificati: "Portland", "Sacramento", "Los Angeles"

Risultati classificati (rilevanza binaria): [0, 1, 0]

Numero di risposte corrette possibili: 1

Posizione reciproca: $\frac{1}{2}$

Precisione a 1: $\frac{0}{1}$

Precisione a 2: $\frac{1}{2}$

Precisione a 3: $\frac{1}{3}$

Precisione media = . $\frac{1}{m} * \frac{1}{2} = \frac{1}{1}*\frac{1}{2} = 0.5$

Come puoi vedere, la precisione media di una query con esattamente una risposta corretta è uguale al grado reciproco del risultato corretto. Ne consegue che il MRR di una raccolta di tali query sarà uguale al suo MAP. Tuttavia, come illustrato dal seguente esempio, le cose divergono se ci sono più di una risposta corretta:

Esempio 2

Query: "Città in California"

Risultati classificati: "Portland", "Sacramento", "Los Angeles"

Risultati classificati (rilevanza binaria): [0, 1, 1]

Numero di risposte corrette possibili: 2

Posizione reciproca: $\frac{1}{2}$

Precisione a 1: $\frac{0}{1}$

Precisione a 2: $\frac{1}{2}$

Precisione a 3: $\frac{2}{3}$

Precisione media = . $\frac{1}{m} * \big[ \frac{1}{2} + \frac{2}{3} \big] = \frac{1}{2} * \big[ \frac{1}{2} + \frac{2}{3} \big] = 0.38$

Pertanto, la scelta di MRR vs MAP in questo caso dipende interamente dal fatto che si desideri influenzare le classifiche dopo il primo colpo corretto.

— Dan Stowell
fonte