Perché esistono due diverse formule / notazioni di perdita logistica?


23

Ho visto due tipi di formulazioni logistiche di perdita. Possiamo facilmente dimostrare che sono identici, l'unica differenza è la definizione dell'etichetta y .

Formulazione / notazione 1, y{0,+1} :

L(y,βTx)=ylog(p)(1y)log(1p)

dove p=11+exp(βTx) , in cui la funzione logistica associa un numero realeβTxa intervalli di 0,1.

Formulazione / notazione 2, y{1,+1} :

L(y,βTx)=log(1+exp(yβTx))

Scegliere una notazione è come scegliere una lingua, ci sono pro e contro da usare l'uno o l'altro. Quali sono i pro e i contro di queste due notazioni?


I miei tentativi di rispondere a questa domanda è che sembra che la comunità delle statistiche apprezzi la prima notazione e che la comunità dell'informatica apprezzi la seconda notazione.

  • La prima notazione può essere spiegata con il termine "probabilità", poiché la funzione logistica trasforma un numero reale βTx in un intervallo di 0,1.
  • E la seconda notazione è più concisa ed è più facile da confrontare con la perdita della cerniera o la perdita 0-1.

Ho ragione? Altre intuizioni?


4
Sono sicuro che questo deve essere già stato chiesto più volte. Ad esempio stats.stackexchange.com/q/145147/5739
StasK

1
Perché dici che la seconda notazione è più facile da confrontare con la perdita della cerniera? Solo perché è definito su invece di { 0 , 1 } o qualcos'altro? {1,1}{0,1}
Shadowtalker,

1
Mi piace la simmetria della prima forma, ma la parte lineare è sepolta piuttosto in profondità, quindi può essere difficile lavorarci.
Matthew Drury,

@ssdecontrol controlla questa figura, cs.cmu.edu/~yandongl/loss.html dove si trova l'asse x , e l'asse y è un valore di perdita. Tale definizione è conveniente da confrontare con la perdita 01, la perdita della cerniera, ecc.yβTx
Haitao Du,

Risposte:


12

La versione corta

La versione lunga

La cosa bella della modellazione matematica è che è flessibile. Queste sono funzioni di perdita equivalenti, ma derivano da modelli sottostanti dei dati molto diversi.

Formula 1

La prima notazione deriva da un modello di probabilità di Bernoulli per , che è convenzionalmente definito su { 0 , 1 } . In questo modello, il risultato / etichetta / classe / previsione è rappresentato da una variabile casuale Y che segue una distribuzione B e r n o u l l i ( p ) . Pertanto la sua probabilità è: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

per . L'uso di 0 e 1 come valori dell'indicatore ci consente di ridurre la funzione a tratti sull'estrema destra a un'espressione concisa.p[0,1]

Come hai sottolineato, puoi quindi collegare a una matrice di dati di input x lasciando logit p = β T x . Da qui, la semplice manipolazione algebrica rivela che il log L ( p ; y ) è uguale al primo L ( y , β T x ) nella tua domanda (suggerimento: ( y - 1 ) = - ( 1 - y ) ). Riducendo così al minimo la perdita di log su { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) equivale alla stima della massima verosimiglianza di un modello di Bernoulli.{0,1}

Questa formulazione è anche un caso speciale del modello lineare generalizzato , che è formulato come per una funzione invertibile, differenziabile ge una distribuzione D nella famiglia esponenziale .YD(θ), g(Y)=βTxgD

Formula 2

In realtà .. Non ho familiarità con la Formula 2. Tuttavia, definire su { - 1 , 1 } è standard nella formulazione di una macchina vettoriale di supporto . Lato uno SVM corrisponde alla massimizzazione max ( { 0 , 1 - y β T x } ) + λ βy{1,1}

max({0,1yβTx})+λβ2.

Questa è la forma lagrangiana di un problema di ottimizzazione vincolata. È anche un esempio di un problema di ottimizzazione regolarizzato con funzione obiettivo Per alcune funzioni di perdita e un iperparametro scalare λ che controlla la quantità di regolarizzazione (chiamata anche "contrazione") applicata a β . La perdita della cerniera è solo una delle numerose possibilità di drop-in per , che include anche la seconda L ( y , β T x

(y,β)+λβ2
λβL(y,βTx) nella tua domanda.

py(1p)1y1y

7

Penso che @ssdecontrol abbia avuto un'ottima risposta. Voglio solo aggiungere alcuni commenti per la formula 2 per la mia domanda.

L(y,y^)=log(1+exp(-yy^))

La ragione per cui alle persone piace questa formulazione è che è molto concisa e rimuove i "dettagli dell'interpretazione della probabilità".

La notazione difficile è il y^, Nota, y è una variabile binaria, ma y^ here is a real number. Comparing to formulation 1, we need two additional steps to make it to discrete label, step 1. sigmod function step 2. apply 0.5 threshold.

But without these details are good in terms of we can easily compare it with other classification loss, such as 01 loss or hinge loss.

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

enter image description here

Here we plot three loss functions, x axis is yy^ and y axis is the loss value. Note, in all above formulas y^ is a real number, and this number can come from linear form βTx or other forms. Such notation hides probability details.


I see what you mean about easy comparison
shadowtalker
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.