Comprensione della regressione logistica e della probabilità

Come funziona davvero la stima dei parametri / Formazione della regressione logistica? Proverò a mettere quello che ho finora.

L'output è y l'output della funzione logistica in forma di probabilità a seconda del valore di x: $P (y = 1 | x) = \frac{1}{1 + e^{- ω^{T} x}} \equiv σ (ω^{T} x)$ $P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx)$ $P (y = 0 | x) = 1 - P (y = 1 | x) = 1 - \frac{1}{1 + e^{- ω^{T} x}}$ $P(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}}$
Per una dimensione le cosiddette quote sono definite come segue: $\frac{p (y = 1 | x)}{1 - p (y = 1 | x)} = \frac{p (y = 1 | x)}{p (y = 0 | x)} = e^{ω_{0} + ω_{1} x}$ ${{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x}$
Ora aggiungendo la logfunzione per ottenere W_0 e W_1 in forma lineare: $L o g i t (y) = l o g (\frac{p (y = 1 | x)}{1 - p (y = 1 | x)}) = ω_{0} + ω_{1} x$ $Logit(y)=log({{p(y=1|x)}\over{1-p(y=1|x)}})=\omega_0+\omega_1x$
Ora alla parte del problema Utilizzo della probabilità (Big X is y) può dire perché stiamo considerando la probabilità di y = 1 due volte? poiché: $L (X | P) = \prod_{i = 1, y_{i} = 1}^{N} P (x_{i}) \prod_{i = 1, y_{i} = 0}^{N} (1 - P (x_{i}))$ $L(X|P)=\prod^N_{i=1,y_i=1}P(x_i)\prod^N_{i=1,y_i=0}(1-P(x_i))$ $P (y = 0 | x) = 1 - P (y = 1 | x)$ $P(y=0|x)=1-P(y=1|x)$

e come ottengono i valori di ω da esso?

regression logistic likelihood

— Motore
fonte

Risposte:

Supponiamo in generale che hai deciso di prendere un modello del modulo

P (y = 1 | X = x) = h (x; Θ)

$P(y=1|X=x) = h(x;\Theta)$

per alcuni parametri . Quindi scrivi semplicemente la probabilità per questo, cioè $\Theta$

L (Θ) = \prod_{i \in {1, . . ., N}, y_{i} = 1} P (y = 1 | x = x; Θ) \cdot \prod_{i \in {1, . . ., N}, y_{i} = 0} P (y = 0 | x = x; Θ)

$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} P(y=0|x=x;\Theta)$

che è lo stesso di

L (Θ) = \prod_{i \in {1, . . ., N}, y_{i} = 1} P (y = 1 | x = x; Θ) \cdot \prod_{i \in {1, . . ., N}, y_{i} = 0} (1 - P (y = 1 | x = x; Θ))

$L(\Theta) = \prod_{i \in \{1, ..., N\}, y_i = 1} P(y=1|x=x;\Theta) \cdot \prod_{i \in \{1, ..., N\}, y_i = 0} (1-P(y=1|x=x;\Theta))$

Ora hai deciso di "assumere" (modello)

P (y = 1 | X = x) = σ (Θ_{0} + Θ_{1} x)

$P(y=1|X=x) = \sigma(\Theta_0 + \Theta_1 x)$

dove

σ (z) = 1 / (1 + e^{- z})

$\sigma(z) = 1/(1+e^{-z})$

quindi basta calcolare la formula per la probabilità e fare un qualche tipo di algoritmo di ottimizzazione per trovare il , ad esempio, il metodo newton o qualsiasi altro metodo basato sul gradiente. $\text{argmax}_\Theta L(\Theta)$

Notare che a volte, le persone dicono che quando stanno facendo una regressione logistica non massimizzano una probabilità (come abbiamo fatto sopra) ma piuttosto minimizzano una funzione di perdita

l (Θ) = - \sum_{i = 1}^{N} y_{i} \log (P (Y_{i} = 1 | X = x; Θ)) + (1 - y_{i}) \log (P (Y_{i} = 0 | X = x; Θ))

$l(\Theta) = -\sum_{i=1}^N{y_i\log(P(Y_i=1|X=x;\Theta)) + (1-y_i)\log(P(Y_i=0|X=x;\Theta))}$

ma nota che . $-\log(L(\Theta)) = l(\Theta)$

Questo è un modello generale in Machine Learning: il lato pratico (minimizzare le funzioni di perdita che misurano quanto "sbagliato" sia un modello euristico) è in effetti uguale al "lato teorico" (modellando esplicitamente con il simbolo , massimizzando quantità statistiche come probabilità) e, in effetti, molti modelli che non assomigliano a quelli probabilistici (SVM per esempio) possono essere riproposti in un contesto probabilistico e in realtà sono massimizzazioni delle probabilità. $P$

— Fabian Werner
fonte

@Werner grazie per la tua risposta. Ma ho ancora bisogno di un po 'di chiarimento. Per favore, puoi spiegare per quale motivo i 2 rimangono nella definizione di dal momento che per quanto ho capito sono interessato al caso di . e come puoi ottenere i valori di e grazie mille per il tuo aiuto!

\prod

$\prod$

L (θ)

$L(\theta)$

y_{i} = 1

$y_i =1$

ω_{1}

$\omega_1$

ω_{0}

$\omega_0$

— Motore

@Engine: Il grande 'pi' è un prodotto ... come un grande Sigma è una somma ... capisci o hai bisogno di ulteriori chiarimenti anche su questo? Sulla seconda domanda: diciamo che vogliamo minimizzare una funzione e iniziamo da ma supponiamo che non sappiamo / non possiamo esprimere / non possiamo visualizzare come è complicato. Ora la derivata di è . È interessante notare che se siamo a destra dal minimo punta a destra e se ne siamo a sinistra punta a sinistra. Matematicamente la derivata punta nella direzione della "ascesa più forte"

Σ

$\Sigma$

f (x) = x^{2}

$f(x) = x^2$

x = 3

$x=3$

f

$f$

f

$f$

f^{'} = 2 x

$f' = 2x$

x = 0

$x=0$

— Fabian Werner,

@Engine: in più dimensioni si sostituisce la derivata con il gradiente, ovvero si parte da un punto casuale e si calcola il gradiente at e se si desidera massimizzare il punto successivo è . Quindi calcoli e la prossima è e così via. Questo è chiamato gradiente di salita / discesa ed è la tecnica più comune per massimizzare una funzione. Ora lo fai con o nella tua notazione per trovare che massimizza

x_{0}

$x_0$

\partial f

$\partial f$

x

$x$

x_{1}

$x_1$

x_{1} = x_{0} + \partial f (x_{0})

$x_1 = x_0 + \partial f(x_0)$

\partial f (x_{1})

$\partial f(x_1)$

x

$x$

x_{2} = x_{1} + \partial f (x_{1})

$x_2 = x_1 + \partial f(x_1)$

L (Θ)

$L(\Theta)$

L (ω)

$L(\omega)$

ω

$\omega$

L

$L$

— Fabian Werner,

@Engine: non sei affatto interessato al caso ! Sei interessato a "the" che "spiega meglio i tuoi dati". Da thet aou lascia che il modello 'parli da solo' e torni al caso di ma prima di tutto devi impostare un modello! Qui, "la migliore spiegazione" significa "avere la più alta probabilità" perché questo è ciò che le persone hanno inventato (e penso che sia molto naturale) ... tuttavia, ci sono altre metriche (diverse funzioni di perdita e così via) che si potrebbe uso! Ci sono due prodotti perché vogliamo il modello per spiegare il , così come la 'buono'!

y = 1

$y=1$

ω

$\omega$

ω

$\omega$

y = 1

$y=1$

y = 1

$y=1$

y = 0

$y=0$

— Fabian Werner

La funzione di probabilità (4) è composta da due parti: il prodotto della probabilità di successo solo per quelle persone nel campione che hanno avuto successo e il prodotto della probabilità di fallimento solo per quelle persone nel campione che hanno avuto un fallimento. Dato che ogni individuo sperimenta un successo o un fallimento, ma non entrambi, la probabilità apparirà per ogni individuo solo una volta. Questo è ciò che significa e nella parte inferiore dei segni del prodotto. $, y_i=1$ $,y_i=0$

I coefficienti sono inclusi nella funzione di probabilità sostituendo (1) in (4). In questo modo la funzione di verosimiglianza diventa una funzione di . Il punto di massima verosimiglianza è trovare che massimizzerà la verosimiglianza. $\omega$ $\omega$

— Maarten Buis
fonte

grazie mille per la tua risposta, scusa ma ancora non capisco. non è indica la probabilità che y = 0 [non avvenire] per tutte le y del prodotto. e viceversa per y_i = 1. E ancora dopo la sottotitolazione di come posso trovare i valori , caclulando la seconda derivata? o gradiente? Grazie mille per il vostro aiuto !

y_{i} = 0

$y_i = 0$

ω

$\omega$

— Motore

\prod_{i = 1, y = 1}^{N}

$\prod_{i=1, y=1}^N$ deve essere letto come "prodotto per le persone fino a , ma solo se Quindi la prima parte si applica solo a quelle persone nei tuoi dati che hanno vissuto l'evento Allo stesso modo, la seconda parte si riferisce solo alle persone che non hanno vissuto l'evento.

i = 1

$i=1$

N

$N$

y = 1

$y=1$

— Maarten Buis,

Esistono molti algoritmi possibili per massimizzare la funzione di probabilità. Il più comune, il metodo Newton-Raphson , implica infatti il calcolo del primo e del secondo derivato.

— Maarten Buis,