Confronto tra due risultati di accuratezza del classificatore per significatività statistica con t-test


17

Voglio confrontare l'accuratezza di due classificatori per significato statistico. Entrambi i classificatori vengono eseguiti sullo stesso set di dati. Questo mi porta a credere che dovrei usare un test t di un campione da quello che ho letto .

Per esempio:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

È questo il test giusto da usare? In tal caso, come posso calcolare se la differenza di precisione tra il classificatore è significativa?

O dovrei usare un altro test?

Risposte:


14

Probabilmente opterei per il test di McNemar se ti alleni i classificatori solo una volta. David Barber suggerisce anche un test bayesiano piuttosto accurato che mi sembra piuttosto elegante, ma non è ampiamente usato (è anche menzionato nel suo libro ).

Solo per aggiungere, come dice Peter Flom, la risposta è quasi certamente "sì" solo osservando la differenza di prestazioni e la dimensione del campione (prendo le cifre citate sono le prestazioni del set di test piuttosto che le prestazioni del set di allenamento).

Per inciso, Japkowicz e Shah hanno pubblicato un recente libro su "Valutare gli algoritmi di apprendimento: una prospettiva di classificazione" , non l'ho letto, ma sembra un riferimento utile per questo tipo di problemi.


1
Sto eseguendo una validazione incrociata di 10 volte per ottenere questi risultati. Significa che in realtà sono set di dati diversi. Questa è la dimensione totale, che viene suddivisa per test / treno in convalida incrociata
Chris

4
Le precisioni per ogni piega non saranno indipendenti, il che violerà i presupposti della maggior parte dei test statistici, ma probabilmente non sarà un grosso problema. Uso spesso 100 divisioni di allenamento / test casuali e quindi uso il test di valutazione con segno associato di Wilcoxon (uso le stesse divisioni casuali per entrambi i classificatori). Preferisco questo tipo di test poiché utilizzo spesso piccoli set di dati (poiché sono interessato a un overfitting), quindi la variabilità tra divisioni casuali tende a essere paragonabile alla differenza di prestazioni tra i classificatori.
Dikran Marsupial,

2
(+1) per Wilcoxon accoppiato test rank rank (e il link al libro ... se il toc può mantenere le sue promesse questo libro può diventare una lettura obbligata di tutti gli ML: O)
steffen

3
Ho anche usato test di livello firmati e test t accoppiati per confrontare i classificatori. Tuttavia, ogni volta che riporto l'utilizzo di un test unilaterale per questo scopo, ho problemi con i revisori, quindi sono tornato a utilizzare i test bilaterali!
BGreene,

2
Dato che l'OP ha chiarito nei commenti che la domanda riguardava effettivamente la convalida incrociata, potresti forse considerare di espandere la tua risposta per coprire tale argomento? Possiamo quindi modificare la Q. Questo è un argomento importante e ci sono un paio di domande molto correlate (o addirittura duplicate) ma nessuna ha una buona risposta. In un commento sopra, ti consigliamo di utilizzare un test accoppiato sulle stime del CV e dire che non pensi che la non indipendenza sia un grosso problema qui. Perchè no? Mi sembra un problema potenzialmente enorme!
ameba dice Ripristina Monica il

4

Posso dirti, senza nemmeno eseguire nulla, che la differenza sarà statisticamente significativa. Passa lo IOTT (test del trauma interoculare - ti colpisce tra gli occhi).

Se vuoi fare un test, tuttavia, potresti farlo come test di due proporzioni - questo può essere fatto con un test t di due campioni.

Tuttavia, potresti voler rompere "accuratezza" nei suoi componenti; sensibilità e specificità, oppure falso positivo e falso negativo. In molte applicazioni, il costo dei diversi errori è piuttosto diverso.


D'accordo - questo sarà chiaramente significativo. Nitpick: useresti uno -test per testare due proporzioni (approssimativamente) - questo ha a che fare con la convergenza di una distribuzione binomiale alla normale all'aumentare di n . Vedi sezione 5.2 en.wikipedia.org/wiki/Statistical_hypothesis_testingzn
Macro

Ripensandoci , un test può essere ancora asintoticamente valido, da parte del CLT, ma deve esserci un motivo per cui lo z- test viene solitamente utilizzato qui. tz
Macro

2
La percentuale di precisione che ho posto nella mia domanda è solo un esempio.
Chris,

0

Poiché l'accuratezza, in questo caso, è la proporzione di campioni correttamente classificati, possiamo applicare il test di ipotesi riguardante un sistema di due proporzioni.

Let p 1 e p 2 tramite le precisioni ottenute rispettivamente da classificatori 1 e 2, ed n è il numero di campioni. Il numero di campioni correttamente classificati nei classificatori 1 e 2 è rispettivamente x 1 e x 2 .p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

La statistica del test è data da

Z=p^1p^22p^(1p^)/n dove p^=(x1+x2)/2n

La nostra intenzione è di dimostrare che l'accuratezza globale del classificatore 2, ovvero , è migliore di quella del classificatore 1, che è p 1 . Questo incornicia la nostra ipotesi comep2p1

  • H0:p1=p2 (ipotesi nulla secondo cui entrambi sono uguali)
  • Ha:p1<p2 (ipotesi alternativa che afferma che quella più recente è migliore di quella esistente)

La regione di rifiuto è data da

Z<zα(se vero respinge e accetta H a )H0Ha

zααz0.5=1.645Z<-1.6451-α

Riferimenti:

  1. R. Johnson e J. Freund, Probabilità e statistiche di Miller e Freund per ingegneri, ottava edizione. Prentice Hall International, 2011. (Fonte primaria)
  2. Test di sintesi formula ipotesi concisa . (Adottato da [1])

Shouldn't p^ essere la media di p^1 e p^2? Quindi il denominatore dovrebbe essere 2n inp^=(X1+X2)/2n.
Shiva Tp,

Anche se concordo sul fatto che un test per le proporzioni potrebbe essere utilizzato, non vi è nulla nella domanda originale che suggerisca che un test unilaterale sia appropriato. Inoltre, "potremmo dire con una sicurezza del 95%" è un errore di interpretazione comune. Vedi ad esempio qui: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg,

@ShivaTp Effettivamente. Grazie per aver indicato la correzione dell'errore di stampa tanto necessaria. Modifica confermata.
Ébe Isaac,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.