Per una matrice di costi
L=[010.50]c1c2predictionc1c2truth
la perdita della previsione della classe quando la verità è la classe c 2 è L 12 = 0,5 e il costo della previsione della classe c 2 quando la verità è la classe c 1 è L 21 = 1 . Non ci sono costi per previsioni corrette, L 11 = L 22 = 0 . Il rischio condizionale R per la previsione di una classe k è quindic1c2L12=0.5c2c1L21=1L11=L22=0Rk
Per un riferimento vedere questenotea pagina 15.
R(c1|x)R(c2|x)=L11Pr(c1|x)+L12Pr(c2|x)=L12Pr(c2|x)=L22Pr(c2|x)+L21Pr(c1|x)=L21Pr(c1|x)
Al fine di ridurre al minimo il rischio / perdita, si prevede se il costo derivante dall'errore di farlo (che è la perdita della previsione errata moltiplicato per la probabilità posteriore che la previsione sia errata L 12 Pr ( c 2 | x ) ) è inferiore del costo di prevedere erroneamente l'alternativa,c1L12Pr(c2|x)
dove la seconda riga usa la regola di BayesPr(c2|x)∝Pr(x|c2)Pr(c2). Dato pari probabilità precedentiPr(c1)=Pr(c2)=0,5ottieni
1
L12Pr(c2|x)L12Pr(x|c2)Pr(c2)L12Pr(c2)L21Pr(c1)<L21Pr(c1|x)<L21Pr(x|c1)Pr(c1)<Pr(x|c1)Pr(x|c2)
Pr(c2|x)∝Pr(x|c2)Pr(c2)Pr(c1)=Pr(c2)=0.512<Pr(x|c1)Pr(x|c2)
quindi scegli di classificare un'osservazione in quanto è il rapporto di probabilità supera questa soglia. Ora non mi è chiaro se si desidera conoscere la "soglia migliore" in termini di rapporti di probabilità o in termini di attributo x . La risposta cambia in base alla funzione di costo. Utilizzo del gaussiano nella disuguaglianza con σ 1 = σ 2 = σ e μ 1 = 0 , μ 2 = 1 ,
1c1xσ1=σ2=σμ1=0μ2= 1
quindi una soglia di previsione in termini dixdurante la ricerca può essere raggiunta solo se le perdite da false previsioni sono le stesse, cioèL12=L21perché solo allora puoi avere illog(L12
12log( 12)log( 12)Xσ2X< 12 π√σexp[ - 12 σ2( x - μ1)2]12 π√σexp[ - 12 σ2( x - μ2)2]< log( 12 π--√σ) - 12 σ2( x - 0 )2- [ registro( 12 π--√σ) - 12 σ2( x - 1 )2]<−x22σ2+x22σ2−2x2σ2+12σ2<12σ2−log(12)<12−log(12)σ2
xL12=L21e ottieni
x0<1log(L12L21)=log(1)=0 .
x0<12