Perché il classificatore bayes ingenuo è ottimale per la perdita 0-1?

Il classificatore Naive Bayes è il classificatore che assegna gli elementi $x$ a una classe $C$ base alla massimizzazione della posteriore $P(C|x)$ per l'appartenenza alla classe e presuppone che le caratteristiche degli elementi siano indipendenti.

La perdita 0-1 è la perdita che assegna a qualsiasi classificazione errata una perdita di "1" e una perdita di "0" a qualsiasi classificazione corretta.

Leggo spesso (1) che il classificatore "Naive Bayes" è ottimale per la perdita 0-1. Perché è vero?

(1) Una fonte esemplare: classificatore Bayes ed errore Bayes

Potete fornire un riferimento per la vostra affermazione " Ho letto spesso che il classificatore" Naive Bayes "è ottimale per la perdita 0-1 "? Ad esempio, dove potresti aver letto questo tipo di affermazione in passato

— Jon

modificato, aggiunto una fonte

In realtà questo è piuttosto semplice: il classificatore Bayes sceglie la classe che ha la maggiore probabilità di occorrenza a posteriori (la cosiddetta stima massima a posteriori ). La funzione di perdita 0-1 penalizza la classificazione errata, ovvero assegna la perdita minima alla soluzione che ha il maggior numero di classificazioni corrette. Quindi in entrambi i casi stiamo parlando della modalità di stima . Ricordare che la modalità è il valore più comune nel set di dati o il valore più probabile , quindi sia massimizzare la probabilità posteriore sia minimizzare la perdita 0-1 porta a stimare la modalità.

Se hai bisogno di una prova formale, quella è contenuta nel documento Introduzione alla teoria delle decisioni bayesiane di Angela J. Yu:

La funzione di perdita binaria 0-1 ha la forma seguente:

$l_{x} (\hat{s}, s^{*}) = 1 - δ_{\hat{s} s^{*}} = {\begin{cases} 1 & if \hat{s} \neq s^{*} \\ 0 & otherwise \end{cases}$ $l_\boldsymbol{x}(\hat s, s^*) = 1 - \delta_{\hat ss^*} = \begin{cases} 1 & \text{if} \quad \hat s \ne s^* \\ 0 & \text{otherwise} \end{cases}$
dove è la funzione Delta del Kronecker. (...) la perdita attesa è: $\delta$

$\begin{aligned} L_{x} (\hat{s}) & = \sum_{s^{*}} l_{x} (\hat{s}, s^{*}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} (1 - δ_{\hat{s} s^{*}}) P (s = s^{*} ∣ x) \\ = \sum_{s^{*}} P (s = s^{*} ∣ x) d s^{*} - \sum_{s^{*}} δ_{\hat{s} s^{*}} P (s = s^{*} ∣ x) \\ = 1 - P (s = s^{*} ∣ x) \end{aligned}$ $\begin{align} \mathcal{L}_\boldsymbol{x}(\hat s) &= \sum_{s^*} l_\boldsymbol{x}(\hat s, s^*) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} (1 - \delta_{\hat ss^*}) \; P(s = s^* \mid \boldsymbol{x}) \\ &= \sum_{s^*} P(s = s^* \mid \boldsymbol{x}) ds^* - \sum_{s^*} \delta_{\hat ss^*} P(s = s^* \mid \boldsymbol{x}) \\ &= 1 - P(s = s^* \mid \boldsymbol{x}) \end{align}$

Questo è vero per la massima stima a posteriori in generale. Quindi, se conosci la distribuzione posteriore, quindi ipotizzando una perdita di 0-1, la regola di classificazione più ottimale è quella di prendere la modalità della distribuzione posteriore, chiamiamo questo un classificatore Bayes ottimale . Nella vita reale di solito non conosciamo la distribuzione posteriore, ma piuttosto la stimiamo. Il classificatore Naive Bayes approssima il classificatore ottimale osservando la distribuzione empirica e assumendo l'indipendenza dei predittori. Quindi l'ingenuo classificatore Bayes non è di per sé ottimale, ma si avvicina alla soluzione ottimale. Nella tua domanda sembra che tu confonda queste due cose.

— Tim
fonte

Penso di capire: quindi la prova formale sarebbe qualcosa sulla falsariga di Loss (action_1) = 1-P (action_2 | data) <--- vogliamo minimizzare questo. Ridurre al minimo questo è di nuovo uguale a massimizzare il priore della classe corretta (cioè massimizzare P (action_2 | dati). Ciò che mi confonde tuttavia è perché non tutti i classificatori sarebbero ottimali sotto questo aspetto - poiché questo sembra essere il requisito più fondamentale per l'assegnazione di un campione di dati a una classe. Quindi, se scegliamo sempre di assegnare il nostro campione di dati alla classe con un posteriore più elevato, non stiamo completando automaticamente questa ottimalità?

@TestGuest controlla la mia modifica per la prova formale.

— Tim

Questo è il formalismo più complicato che ho visto per una prova del genere :)) grazie comunque, spero che aiuti anche gli altri.