Supponiamo in generale che hai deciso di prendere un modello del modulo
P( y= 1 | X= x ) = h ( x ; Θ )
per alcuni parametri . Quindi scrivi semplicemente la probabilità per questo, cioèΘ
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yio= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yio= 0P( y= 0 | x = x ; Θ )
che è lo stesso di
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yio= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yio= 0( 1 - P( y= 1 | x = x ; Θ ) )
Ora hai deciso di "assumere" (modello)
P( y= 1 | X= x ) = σ( Θ0+ Θ1x )
dove
σ( z) = 1 / ( 1 + e- z)
quindi basta calcolare la formula per la probabilità e fare un qualche tipo di algoritmo di ottimizzazione per trovare il , ad esempio, il metodo newton o qualsiasi altro metodo basato sul gradiente.argmaxΘL ( Θ )
Notare che a volte, le persone dicono che quando stanno facendo una regressione logistica non massimizzano una probabilità (come abbiamo fatto sopra) ma piuttosto minimizzano una funzione di perdita
l ( Θ ) = - ∑i = 1Nyiolog( P( Yio= 1 | X= x ; Θ ) ) + ( 1 - yio) log( P( Yio= 0 | X= x ; Θ ) )
ma nota che .- log( L ( Θ ) ) = l ( Θ )
Questo è un modello generale in Machine Learning: il lato pratico (minimizzare le funzioni di perdita che misurano quanto "sbagliato" sia un modello euristico) è in effetti uguale al "lato teorico" (modellando esplicitamente con il simbolo , massimizzando quantità statistiche come probabilità) e, in effetti, molti modelli che non assomigliano a quelli probabilistici (SVM per esempio) possono essere riproposti in un contesto probabilistico e in realtà sono massimizzazioni delle probabilità.P