Perché il classificatore bayes ingenuo è ottimale per la perdita 0-1?


13

Il classificatore Naive Bayes è il classificatore che assegna gli elementi x a una classe C base alla massimizzazione della posteriore ( C | x )P(C|x) per l'appartenenza alla classe e presuppone che le caratteristiche degli elementi siano indipendenti.

La perdita 0-1 è la perdita che assegna a qualsiasi classificazione errata una perdita di "1" e una perdita di "0" a qualsiasi classificazione corretta.

Leggo spesso (1) che il classificatore "Naive Bayes" è ottimale per la perdita 0-1. Perché è vero?

(1) Una fonte esemplare: classificatore Bayes ed errore Bayes


2
Potete fornire un riferimento per la vostra affermazione " Ho letto spesso che il classificatore" Naive Bayes "è ottimale per la perdita 0-1 "? Ad esempio, dove potresti aver letto questo tipo di affermazione in passato
Jon

1
modificato, aggiunto una fonte

Risposte:


16

In realtà questo è piuttosto semplice: il classificatore Bayes sceglie la classe che ha la maggiore probabilità di occorrenza a posteriori (la cosiddetta stima massima a posteriori ). La funzione di perdita 0-1 penalizza la classificazione errata, ovvero assegna la perdita minima alla soluzione che ha il maggior numero di classificazioni corrette. Quindi in entrambi i casi stiamo parlando della modalità di stima . Ricordare che la modalità è il valore più comune nel set di dati o il valore più probabile , quindi sia massimizzare la probabilità posteriore sia minimizzare la perdita 0-1 porta a stimare la modalità.

Se hai bisogno di una prova formale, quella è contenuta nel documento Introduzione alla teoria delle decisioni bayesiane di Angela J. Yu:

La funzione di perdita binaria 0-1 ha la forma seguente:

lx(s^,s)=1δs^s={1ifs^s0otherwise

dove è la funzione Delta del Kronecker. (...) la perdita attesa è:δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

Questo è vero per la massima stima a posteriori in generale. Quindi, se conosci la distribuzione posteriore, quindi ipotizzando una perdita di 0-1, la regola di classificazione più ottimale è quella di prendere la modalità della distribuzione posteriore, chiamiamo questo un classificatore Bayes ottimale . Nella vita reale di solito non conosciamo la distribuzione posteriore, ma piuttosto la stimiamo. Il classificatore Naive Bayes approssima il classificatore ottimale osservando la distribuzione empirica e assumendo l'indipendenza dei predittori. Quindi l'ingenuo classificatore Bayes non è di per sé ottimale, ma si avvicina alla soluzione ottimale. Nella tua domanda sembra che tu confonda queste due cose.


Penso di capire: quindi la prova formale sarebbe qualcosa sulla falsariga di Loss (action_1) = 1-P (action_2 | data) <--- vogliamo minimizzare questo. Ridurre al minimo questo è di nuovo uguale a massimizzare il priore della classe corretta (cioè massimizzare P (action_2 | dati). Ciò che mi confonde tuttavia è perché non tutti i classificatori sarebbero ottimali sotto questo aspetto - poiché questo sembra essere il requisito più fondamentale per l'assegnazione di un campione di dati a una classe. Quindi, se scegliamo sempre di assegnare il nostro campione di dati alla classe con un posteriore più elevato, non stiamo completando automaticamente questa ottimalità?

@TestGuest controlla la mia modifica per la prova formale.
Tim

Questo è il formalismo più complicato che ho visto per una prova del genere :)) grazie comunque, spero che aiuti anche gli altri.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.