È possibile eseguire un test di significatività basato esclusivamente su punteggi di precisione / richiamo / F1?
Ad esempio, se si incontrano 2 sistemi in un documento per il quale sono riportati solo P / R / F1 (sullo stesso set di dati, ecc.), È possibile eseguire un test di significatività statistica? Se sì, come viene fatto?