Qui traggo tutte le proprietà e le identità necessarie affinché la soluzione sia autonoma, ma a parte ciò questa derivazione è semplice e pulita. Cerchiamo di formalizzare la nostra notazione e di scrivere la funzione di perdita in modo un po 'più compatto. Considera m campioni {xi,yi} tali che xi∈Rd e yi∈R . Ricordiamo che nella regressione logistica binaria in genere abbiamo la funzione di ipotesi hθ essere la funzione logistica. formalmente
hθ(xi)=σ(ωTxi)=σ(zi)=11+e−zi,
dove ω∈Rd e zi=ωTxi . La funzione di perdita (che a mio avviso manca di un segno negativo) è quindi definita come:
l(ω)=∑i=1m−(yilogσ(zi)+(1−yi)log(1−σ(zi)))
Esistono due importanti proprietà della funzione logistica che desidero qui per riferimento futuro. Innanzitutto, nota che 1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) .
Si noti anche che
∂∂zσ(z)=∂∂z(1+e−z)−1=e−z(1+e−z)−2=11+e−ze−z1+e−z=σ(z)(1−σ(z))
Invece di prendere derivati rispetto ai componenti, qui lavoreremo direttamente con i vettori (puoi rivedere i derivati con i vettori qui ). L'assia della funzione di perdita l(ω) è data da ∇⃗ 2l(ω) , ma prima ricorda che ∂z∂ω=xTω∂ω=xTe∂z∂ωT=∂ωTx∂ωT=x.
Let li(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)). Using the properties we derived above and the chain rule
∂logσ(zi)∂ωT∂log(1−σ(zi))∂ωT=1σ(zi)∂σ(zi)∂ωT=1σ(zi)∂σ(zi)∂zi∂zi∂ωT=(1−σ(zi))xi=11−σ(zi)∂(1−σ(zi))∂ωT=−σ(zi)xi
It's now trivial to show that
∇⃗ li(ω)=∂li(ω)∂ωT=−yixi(1−σ(zi))+(1−yi)xiσ(zi)=xi(σ(zi)−yi)
whew!
Our last step is to compute the Hessian
∇⃗ 2li(ω)=∂li(ω)∂ω∂ωT=xixTiσ(zi)(1−σ(zi))
For m samples we have ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)). This is equivalent to concatenating column vectors xi∈Rd into a matrix X of size d×m such that ∑mi=1xixTi=XXT. The scalar terms are combined in a diagonal matrix D such that Dii=σ(zi)(1−σ(zi)). Finally, we conclude that
H⃗ (ω)=∇⃗ 2l(ω)=XDXT
A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show that l(ω) is convex. Let δ be any vector such that δ∈Rd. Then
δTH⃗ (ω)δ=δT∇⃗ 2l(ω)δ=δTXDXTδ=δTXD(δTX)T=∥δTDX∥2≥0
since D>0 and ∥δTX∥≥0. This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).