OP ritiene erroneamente che la relazione tra queste due funzioni sia dovuta al numero di campioni (cioè singolo vs tutti). Tuttavia, la differenza reale è semplicemente come selezioniamo le nostre etichette di formazione.
Nel caso della classificazione binaria possiamo assegnare le etichette o .y= ± 1y= 0 , 1
Come è già stato affermato, la funzione logistica è una buona scelta poiché ha la forma di una probabilità, cioè e come . Se scegliamo le etichette che possiamo assegnare σ( z)σ( - z) = 1 - σ( z)σ( z) ∈ ( 0 , 1 )z→ ± ∞y= 0 , 1
P (y= 1 | z)P (y= 0 | z)= σ( z) = 11 + e- z= 1 -σ( z) = 11 + ez
che può essere scritto in modo più compatto come .P (y| z) = σ( z)y( 1 - σ( z) )1 - y
È più semplice massimizzare la probabilità di log. Massimizzare la verosimiglianza equivale a minimizzare la verosimiglianza negativa. Per campioni , dopo aver preso il logaritmo naturale e alcune semplificazioni, scopriremo:m{ xio, yio}
l ( z) = - registro( ∏iomP ( yio| zio) ) = - ∑iomlog( P(yio| zio))=∑im−yizi+log(1+ezi)
Derivazione completa e informazioni aggiuntive sono disponibili su questo notebook jupyter . D'altra parte, potremmo invece aver usato le etichette . È abbastanza ovvio quindi che possiamo assegnarey= ± 1
P ( y| z) = σ( yz) .
È anche ovvio che . Seguendo gli stessi passaggi di prima in questo caso minimizziamo la funzione di perditaP ( y= 0 | z) = P ( y= - 1 | z) = σ( - z)
L ( z) = - registro( ∏jmP ( yj| zj) ) = - ∑jmlog( P(yj| zj) ) = ∑jmlog( 1 + e- yzj)
Dove segue l'ultimo passo dopo prendiamo il reciproco che è indotto dal segno negativo. Sebbene non dovremmo equiparare queste due forme, dato che in ciascuna forma assume valori diversi, tuttavia queste due sono equivalenti:y
- yiozio+ log( 1 + ezio) ≡ log( 1 + e- yzj)
Il caso è banale da mostrare. Se , quindi sul lato sinistro e sul lato destro.yio= 1yio≠ 1yio= 0yio=−1
Mentre ci possono essere ragioni fondamentali per cui abbiamo due forme diverse (vedi Perché ci sono due diverse formule / notazioni di perdita logistica? ), Una ragione per scegliere la prima è per considerazioni pratiche. Nel primo possiamo usare la proprietà per calcolare banalmente e , entrambi necessari per l'analisi della convergenza (ovvero per determinare la convessità della funzione di perdita calcolando l'Assia ).∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)