Combinare i classificatori lanciando una moneta

Sto studiando un corso di apprendimento automatico e le diapositive delle lezioni contengono informazioni che ritengo contraddittorie con il libro raccomandato.

Il problema è il seguente: ci sono tre classificatori:

classificatore A che fornisce migliori prestazioni nell'intervallo inferiore delle soglie,
classificatore B che fornisce migliori prestazioni nell'intervallo superiore delle soglie,
classificatore C cosa otteniamo lanciando una p-coin e selezionando tra i due classificatori.

Quale sarà la prestazione del classificatore C, vista su una curva ROC?

Le diapositive della lezione affermano che, semplicemente lanciando questa moneta, otterremo il magico " scafo convesso " della curva ROC del classificatore A e B.

Non capisco questo punto. Semplicemente lanciando una moneta, come possiamo ottenere informazioni?

La diapositiva della lezione

diapositive di lezione

Cosa dice il libro

Il libro raccomandato ( Data Mining ... di Ian H. Witten, Eibe Frank e Mark A. Hall ) afferma invece che:

Per vedere questo, scegli un limite di probabilità particolare per il metodo A che dia tassi di vero e falso positivi rispettivamente di tA e fA e un altro limite per il metodo B che dia tB e fB. Se usi questi due schemi a caso con probabilità p e q, dove p + q = 1, otterrai tassi di vero e falso positivo di p. tA + q. TB e p. fA + q. fB. Questo rappresenta un punto che giace sulla retta che unisce i punti (tA, fA) e (tB, fB) e variando p e q è possibile tracciare l'intera linea tra questi due punti.

Secondo la mia comprensione, ciò che dice il libro è che per ottenere effettivamente informazioni e raggiungere lo scafo convesso dobbiamo fare qualcosa di più avanzato del semplice lancio di una p-coin.

AFAIK, il modo corretto (come suggerito dal libro) è il seguente:

dovremmo trovare una soglia ottimale Oa per il classificatore A
dovremmo trovare una soglia ottimale Ob per il classificatore B
definire C come segue:
- Se t <Oa, utilizzare il classificatore A con t
- Se t> Ob, utilizzare il classificatore B con t
- Se Oa <t <Ob, scegli tra il classificatore A con Oa e B con Ob in base alla probabilità come una combinazione lineare di dove siamo tra Oa e Ob.

È corretto? Se sì, ci sono alcune differenze chiave rispetto a quanto suggerito dalle diapositive.

Non è un semplice lancio di monete, ma un algoritmo più avanzato che richiede punti e scelte definiti manualmente in base alla regione in cui cadiamo.
Non utilizza mai i classificatori A e B con valori di soglia compresi tra Oa e Ob.

Puoi spiegarmi questo problema e qual è il modo corretto di capirlo , se la mia comprensione non era corretta?

Cosa accadrebbe se semplicemente lanciassimo una p-coin come suggerirebbero le diapositive? Penserei che otterremmo una curva ROC compresa tra A e B, ma mai "migliore" di quella migliore in un dato punto.

Per quanto posso vedere, davvero non capisco come le diapositive potrebbero essere corrette. Il calcolo probabilistico sul lato sinistro non ha senso per me.

Aggiornamento: trovato l'articolo scritto dall'autore originale che ha inventato il metodo dello scafo convesso: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot
fonte

Dalla mia lettura sia della diapositiva che pubblichi che dell'estratto del libro, sembrano descrivere esattamente la stessa cosa e le diapositive non sono in errore.

— cardinale

Si noti che non è nemmeno troppo difficile costruire una simulazione per convincerti del fatto indicato nella diapositiva. L'unica difficoltà che potresti avere è la costruzione di due curve ROC che sembrano più o meno così, ma è gestibile, diciamo, usando un modello di miscela gaussiana per generare le osservazioni e alcune regole di decisione non ottimali.

— cardinale

Risposte:

(Modificato)

Le diapositive delle lezioni sono giuste.

Il metodo A ha un "punto ottimale" che fornisce rispettivamente tassi di vero e falso positivo (TPA, FPA nel grafico). Questo punto corrisponderebbe a una soglia, o più in generale [*] a un limite di decisione ottimale per A. Lo stesso vale per B. (Ma le soglie e i confini non sono correlati).

Si è visto che il classificatore A si comporta bene sotto la preferenza "minimizza i falsi positivi" (strategia conservativa) e il classificatore B quando vogliamo "massimizzare i veri positivi" (strategia avida).

~~La risposta alla tua prima domanda è sostanzialmente sì, tranne per il fatto che la probabilità della moneta è (in un certo senso) arbitraria. Il clasiffier finale sarebbe:~~

~~$x$ $x$ $p$~~

(Corretto: in realtà, le lezioni sono completamente giuste, possiamo solo lanciare la moneta in ogni caso. Vedi i diagrammi)

$p$

[*] Dovresti essere generale qui: se pensi in termini di una singola soglia scalare, tutto ciò ha poco senso; una caratteristica monodimensionale con un classificatore basato su soglia non ti dà abbastanza gradi di libertà per avere classificatori diversi come A e B, che si compie lungo curve diverse quando i paramenters liberi (limite di decisione = soglia) variano. In altre parole: A e B sono chiamati "metodi" o "sistemi", non "classificatori"; perché A è un'intera famiglia di classificatori, parametrizzata da un parametro (scalare) che determina un limite di decisione, non solo uno scalare]

Ho aggiunto alcuni diagrammi per renderlo più chiaro:

inserisci qui la descrizione dell'immagine

$t$ $t$ $t$ $t_A=2$ $t$ $t_B=4$

In questo scenario, quindi, si può dire che la linea arancione riempita è il "classificatore A ottimale" (all'interno della sua famiglia), e lo stesso per B. Ma non si può dire se la linea arancione sia migliore della linea blu: si esegue meglio quando assegniamo costi elevati a falsi positivi, l'altro quando i falsi negativi sono molto più costosi.

inserisci qui la descrizione dell'immagine

Ora, potrebbe accadere che questi due classificatori siano troppo estremi per le nostre esigenze, vorremmo che entrambi i tipi di errori abbiano pesi simili. Preferiremmo, invece di usare il classificatore A (punto arancione) o B (punto blu) per ottenere una performance che si trova tra di loro. Come dice il corso, si può ottenere quel risultato semplicemente lanciando una moneta e scegliendo uno dei classificatori a caso.

Semplicemente lanciando una moneta, come possiamo ottenere informazioni?

Non otteniamo informazioni. Il nostro nuovo classificatore randomizzato non è semplicemente "migliore" di A o B, ma le sue prestazioni sono una media di A e B, per quanto riguarda i costi assegnati a ciascun tipo di errore. Questo può essere utile o meno per noi, a seconda di quali sono i nostri costi.

AFAIK, il modo corretto (come suggerito dal libro) è il seguente ... È corretto?

$p$

— leonbloy
fonte

@leonboy Credo che x sia la soglia e per valori bassi di x classificatore A funziona meglio. Per valori elevati di x classificatore B funziona meglio. Per migliore intendo per il dato tasso di falsi positivi il tasso di veri positivi è il più alto. Se tutto ciò che sappiamo è che A funziona meglio fino a un singolo punto in cui si incrociano e B per tutte le soglie superiori a quella, allora qualsiasi algoritmo che dia peso inferiore a 1 a A nella regione tra FPa e FPb in cui A ha il TP più elevato non può eseguire così come A. Quindi un tale algoritmo C deve scendere al di sotto di A in quella regione.

— Michael R. Chernick,

Analogamente nella regione tra FPa e FPb in cui TP è maggiore per B nessun algoritmo con p maggiore di 0 funzionerà meglio di B. La formula per TPc è corretta ma una media ponderata fissa tra TPb e TPa non può essere maggiore del maggiore di TPa e TPb. Deve cadere tra di loro. Ma il diagramma mostra sempre TPc sopra TPa e TPb in tutta la regione da FPa e FPb. Vedi qualcosa qui che ci manca? Non lo trovo nella tua risposta.

— Michael R. Chernick,

Va bene la lampadina si è spenta! X è un vettore nella tua mente piuttosto che una soglia scalare. Questo cambia davvero qualcosa? Gli aix FP sono una probabilità scalare. Il mio punto di attraversamento è il punto FP dell'uguaglianza per A e B. Potrebbero esserci molti vettori X che lo portano. Lo sto solo dicendo in qualsiasi momento lungo l'asse FP tra FPa e FPb. TPc = p TPa + (1-p) TPb. La linea nella trama è nel piano TP vs FP. Come può quella linea attraversare i punti sopra le curve sia per A che per B come l'OP ha messo in discussione (penso correttamente)?

— Michael R. Chernick,

@Michael: Penso che A e B siano metodi distinti che danno diverse decisioni al contorno. Ognuno ha un parametro regolabile (ciò che in 1D è una soglia), i parametri sono indipendenti e danno (per ciascuno) una famiglia di classificatori. Proverò a tracciare un diagramma per cercare di chiarire, resisti.

— leonbloy,

Ho dato a leonbloy un voto per quella bella descrizione. Ma mi piace il commento finale del cardinale perché questa discussione mi è chiara e concorda con il mio ultimo pensiero. @leobloy L'unica cosa che manca nel tuo diagramma è una trama dei punti per la regola randomizzata che batte entrambi i singoli. Immagino che tu possa descrivere la nuova regola come una che pondera i due errori in modo diverso, ma non è necessaria e penso meno confusa se lasci fuori quell'argomento.

— Michael R. Chernick,

Sono d'accordo con il tuo ragionamento. Se usi il classificatore lanciando una moneta per sceglierne uno quando ti trovi tra i punti A e B, il tuo punto sulla curva sarebbe sempre al di sotto del classificatore migliore e al di sopra di quello più povero e probabilmente non al di sopra di entrambi! Ci deve essere qualcosa di sbagliato nel diagramma. Nel punto in cui le 2 curve ROC si incrociano, l'algoritmo di selezione casuale avrà le stesse prestazioni dei due algoritmi. Non sarà sopra di esso nel modo in cui lo mostra il diagramma.

— Michael R. Chernick
fonte

Credo che la diapositiva sia corretta. Se usi due diverse procedure decisionali con due soglie diverse e poi prendi una decisione randomizzata, otterrai una combinazione convessa che darà un punto compreso tra le due. Questo punto può trovarsi sopra entrambe ( ! ) Delle curve con lo stesso tasso di falsi positivi. Questo perché la soglia utilizzata per ciascuna procedura è diversa in quel punto.

— cardinale

Quindi A e B nella combinazione convessa sono diversi da A e B che sono scelti individualmente a quel tasso di falsi positivi. Penso solo che il diagramma fosse confuso poiché non vedevo che A e B fossero stati scelti da una famiglia di classificatori.

— Michael R. Chernick,

A

$A$

B

$B$

Credo che questa risposta sia corretta, allegata al commento del cardinale! Uscire dall'area di intersezione potrebbe accadere, ma non è un metodo. Ho trovato il documento originale del ragazzo che ha inventato questo metodo e lo spiega molto bene! bmva.org/bmvc/1998/pdf/p082.pdf

— hyperknot

@zsero: credo che anche Michael riconoscerà che questa risposta era basata sulla comprensione del diagramma al momento della pubblicazione della risposta e la sua interpretazione è cambiata da quando sono comparsi i commenti e le altre risposte. Proprio come mostra la figura, si può ottenere tramite randomizzazione qualsiasi punto su qualsiasi linea tra un punto sulla prima curva e un punto sul secondo anche se il tasso positivo reale risultante domina le altre due curve per un dato tasso falso positivo.

— cardinale