applicando la risposta di Erik a quella di Michael :
Puoi fare lo stesso tipo di pensiero a cui Erik fa riferimento quando sceglie la misura delle prestazioni.
Trovo utile fare riferimento a tali misure diverse dalle domande a cui rispondono (qui nel linguaggio di diagnostica medica a cui ho più familiarità - ma forse puoi semplicemente sostituire il paziente con testo e malattia con spam ;-)):
Sensibilità: dato che il paziente ha veramente la malattia, con quale probabilità il classificatore se ne rende conto?
Specificità: dato che il paziente non ha davvero la malattia, con quale probabilità il classificatore se ne rende conto?
Valore predittivo positivo: dato che il classificatore afferma che il paziente è malato, con quale probabilità ha davvero la malattia?
Valore predittivo negativo: dato che il classificatore afferma che il paziente non è malato, con quale probabilità il paziente non ha davvero la malattia?
Come vedi, i valori predittivi sono ciò a cui medici e pazienti sono veramente interessati. Tuttavia, quasi tutti caratterizzano il suo classificatore per sensibilità e specificità. Il motivo è che i valori predittivi devono tenere conto della prevalenza della malattia e che può variare enormemente (ordini di grandezza!) Per diversi tipi di pazienti.
Altre informazioni sull'argomento per la tua domanda:
Scommetto che hai ragione a preoccuparti.
Prendendo entrambi gli scenari di Erik in un esempio:
Ecco i campioni di test indipendenti:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(nota che questo test è stato su due lati, supponendo che i due classificatori sarebbero stati pubblicati anche se i risultati fossero stati il contrario ...)
Ecco la migliore situazione possibile: test accoppiato, e il nuovo classificatore è giusto per tutti i campioni, anche quello vecchio ha ragione, più altri 10:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(il valore p rimane al di sotto del magico 0,05 fintanto che non più di 10 campioni su 1000 sono stati previsti in modo diverso dai due classificatori).
Anche se i valori p sono la risposta giusta alla domanda sbagliata, c'è un'indicazione che è un po 'un posto stretto.
Tuttavia, tenendo conto della solita pratica scientifica, ovvero un numero sconosciuto (non pubblicato) di nuove funzionalità è stato testato e solo quello che ha funzionato leggermente meglio è stato pubblicato, il posto diventa ancora più stretto. E poi, il classificatore dell'80% potrebbe essere solo il successore di un classificatore del 79% ...
Se ti piace leggere il tedesco, ci sono alcuni libri davvero carini di Beck-Bornhold e Dubben. Se ricordo bene, Mit an Wahrscheinlichkeit grenzender Sicherheit ha una bella discussione su questi problemi. (Non so se esiste un'edizione inglese, una traduzione piuttosto letterale del titolo è "Con una certezza al limite della probabilità")