Test di significatività basato su precisione / richiamo / F1

È possibile eseguire un test di significatività basato esclusivamente su punteggi di precisione / richiamo / F1?

Ad esempio, se si incontrano 2 sistemi in un documento per il quale sono riportati solo P / R / F1 (sullo stesso set di dati, ecc.), È possibile eseguire un test di significatività statistica? Se sì, come viene fatto?

statistical-significance precision-recall

— Vam
fonte

Intuitivamente, ottenere un elevato P / R / F1 su un piccolo set di dati o su un set di dati molto uniforme / prevedibile è probabilmente più facile che ottenere un alto P / R / F1 su set di dati più grandi o più caotici. Pertanto, un miglioramento in P / R / F1 su un set di dati più ampio e più caotico è più significativo.

Seguendo questa intuizione, probabilmente avresti bisogno di accedere all'output dei metodi "black-box" per misurare la differenza nella distribuzione dei risultati, tenendo conto delle dimensioni e della varietà dell'insieme. La sola P / R / F1 è probabilmente un'informazione troppo scarsa.

Il test di significatività in questa impostazione di solito viene eseguito formando un'ipotesi nulla (i due algoritmi producono sempre lo stesso output) e quindi calcolando la probabilità di osservare la differenza di output che si sta osservando se gli algoritmi fossero effettivamente gli stessi. Se, ad esempio, la probabilità è inferiore a 0,05, si rifiuta l'ipotesi nulla e si conclude che il miglioramento è significativo.

Questo documento ha discussioni pertinenti: http://www.aclweb.org/anthology/C00-2137

— Pablo Mendes
fonte