Sto studiando un corso di apprendimento automatico e le diapositive delle lezioni contengono informazioni che ritengo contraddittorie con il libro raccomandato.
Il problema è il seguente: ci sono tre classificatori:
- classificatore A che fornisce migliori prestazioni nell'intervallo inferiore delle soglie,
- classificatore B che fornisce migliori prestazioni nell'intervallo superiore delle soglie,
- classificatore C cosa otteniamo lanciando una p-coin e selezionando tra i due classificatori.
Quale sarà la prestazione del classificatore C, vista su una curva ROC?
Le diapositive della lezione affermano che, semplicemente lanciando questa moneta, otterremo il magico " scafo convesso " della curva ROC del classificatore A e B.
Non capisco questo punto. Semplicemente lanciando una moneta, come possiamo ottenere informazioni?
La diapositiva della lezione
Cosa dice il libro
Il libro raccomandato ( Data Mining ... di Ian H. Witten, Eibe Frank e Mark A. Hall ) afferma invece che:
Per vedere questo, scegli un limite di probabilità particolare per il metodo A che dia tassi di vero e falso positivi rispettivamente di tA e fA e un altro limite per il metodo B che dia tB e fB. Se usi questi due schemi a caso con probabilità p e q, dove p + q = 1, otterrai tassi di vero e falso positivo di p. tA + q. TB e p. fA + q. fB. Questo rappresenta un punto che giace sulla retta che unisce i punti (tA, fA) e (tB, fB) e variando p e q è possibile tracciare l'intera linea tra questi due punti.
Secondo la mia comprensione, ciò che dice il libro è che per ottenere effettivamente informazioni e raggiungere lo scafo convesso dobbiamo fare qualcosa di più avanzato del semplice lancio di una p-coin.
AFAIK, il modo corretto (come suggerito dal libro) è il seguente:
- dovremmo trovare una soglia ottimale Oa per il classificatore A
- dovremmo trovare una soglia ottimale Ob per il classificatore B
definire C come segue:
- Se t <Oa, utilizzare il classificatore A con t
- Se t> Ob, utilizzare il classificatore B con t
- Se Oa <t <Ob, scegli tra il classificatore A con Oa e B con Ob in base alla probabilità come una combinazione lineare di dove siamo tra Oa e Ob.
È corretto? Se sì, ci sono alcune differenze chiave rispetto a quanto suggerito dalle diapositive.
- Non è un semplice lancio di monete, ma un algoritmo più avanzato che richiede punti e scelte definiti manualmente in base alla regione in cui cadiamo.
- Non utilizza mai i classificatori A e B con valori di soglia compresi tra Oa e Ob.
Puoi spiegarmi questo problema e qual è il modo corretto di capirlo , se la mia comprensione non era corretta?
Cosa accadrebbe se semplicemente lanciassimo una p-coin come suggerirebbero le diapositive? Penserei che otterremmo una curva ROC compresa tra A e B, ma mai "migliore" di quella migliore in un dato punto.
Per quanto posso vedere, davvero non capisco come le diapositive potrebbero essere corrette. Il calcolo probabilistico sul lato sinistro non ha senso per me.
Aggiornamento: trovato l'articolo scritto dall'autore originale che ha inventato il metodo dello scafo convesso: http://www.bmva.org/bmvc/1998/pdf/p082.pdf