Comprensione della regressione logistica e della probabilità


12

Come funziona davvero la stima dei parametri / Formazione della regressione logistica? Proverò a mettere quello che ho finora.

  1. L'output è y l'output della funzione logistica in forma di probabilità a seconda del valore di x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Per una dimensione le cosiddette quote sono definite come segue:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Ora aggiungendo la logfunzione per ottenere W_0 e W_1 in forma lineare:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Ora alla parte del problema Utilizzo della probabilità (Big X is y) può dire perché stiamo considerando la probabilità di y = 1 due volte? poiché:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

e come ottengono i valori di ω da esso?

Risposte:


10

Supponiamo in generale che hai deciso di prendere un modello del modulo

P(y=1|X=x)=h(x;Θ)

per alcuni parametri . Quindi scrivi semplicemente la probabilità per questo, cioèΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

che è lo stesso di

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Ora hai deciso di "assumere" (modello)

P(y=1|X=x)=σ(Θ0+Θ1x)

dove

σ(z)=1/(1+ez)

quindi basta calcolare la formula per la probabilità e fare un qualche tipo di algoritmo di ottimizzazione per trovare il , ad esempio, il metodo newton o qualsiasi altro metodo basato sul gradiente.argmaxΘL(Θ)

Notare che a volte, le persone dicono che quando stanno facendo una regressione logistica non massimizzano una probabilità (come abbiamo fatto sopra) ma piuttosto minimizzano una funzione di perdita

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

ma nota che .log(L(Θ))=l(Θ)

Questo è un modello generale in Machine Learning: il lato pratico (minimizzare le funzioni di perdita che misurano quanto "sbagliato" sia un modello euristico) è in effetti uguale al "lato teorico" (modellando esplicitamente con il simbolo , massimizzando quantità statistiche come probabilità) e, in effetti, molti modelli che non assomigliano a quelli probabilistici (SVM per esempio) possono essere riproposti in un contesto probabilistico e in realtà sono massimizzazioni delle probabilità.P


@Werner grazie per la tua risposta. Ma ho ancora bisogno di un po 'di chiarimento. Per favore, puoi spiegare per quale motivo i 2 rimangono nella definizione di dal momento che per quanto ho capito sono interessato al caso di . e come puoi ottenere i valori di e grazie mille per il tuo aiuto! L(θ)yi=1ω1ω0
Motore

@Engine: Il grande 'pi' è un prodotto ... come un grande Sigma è una somma ... capisci o hai bisogno di ulteriori chiarimenti anche su questo? Sulla seconda domanda: diciamo che vogliamo minimizzare una funzione e iniziamo da ma supponiamo che non sappiamo / non possiamo esprimere / non possiamo visualizzare come è complicato. Ora la derivata di è . È interessante notare che se siamo a destra dal minimo punta a destra e se ne siamo a sinistra punta a sinistra. Matematicamente la derivata punta nella direzione della "ascesa più forte"Σf(x)=x2x=3fff=2xx=0
Fabian Werner,

@Engine: in più dimensioni si sostituisce la derivata con il gradiente, ovvero si parte da un punto casuale e si calcola il gradiente at e se si desidera massimizzare il punto successivo è . Quindi calcoli e la prossima è e così via. Questo è chiamato gradiente di salita / discesa ed è la tecnica più comune per massimizzare una funzione. Ora lo fai con o nella tua notazione per trovare che massimizzax0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner,

@Engine: non sei affatto interessato al caso ! Sei interessato a "the" che "spiega meglio i tuoi dati". Da thet aou lascia che il modello 'parli da solo' e torni al caso di ma prima di tutto devi impostare un modello! Qui, "la migliore spiegazione" significa "avere la più alta probabilità" perché questo è ciò che le persone hanno inventato (e penso che sia molto naturale) ... tuttavia, ci sono altre metriche (diverse funzioni di perdita e così via) che si potrebbe uso! Ci sono due prodotti perché vogliamo il modello per spiegare il , così come la 'buono'! y=1ωωy=1y=1 y=0
Fabian Werner

8

La funzione di probabilità (4) è composta da due parti: il prodotto della probabilità di successo solo per quelle persone nel campione che hanno avuto successo e il prodotto della probabilità di fallimento solo per quelle persone nel campione che hanno avuto un fallimento. Dato che ogni individuo sperimenta un successo o un fallimento, ma non entrambi, la probabilità apparirà per ogni individuo solo una volta. Questo è ciò che significa e nella parte inferiore dei segni del prodotto., y i = 0,yi=1,yi=0

I coefficienti sono inclusi nella funzione di probabilità sostituendo (1) in (4). In questo modo la funzione di verosimiglianza diventa una funzione di . Il punto di massima verosimiglianza è trovare che massimizzerà la verosimiglianza.ωωω


grazie mille per la tua risposta, scusa ma ancora non capisco. non è indica la probabilità che y = 0 [non avvenire] per tutte le y del prodotto. e viceversa per y_i = 1. E ancora dopo la sottotitolazione di come posso trovare i valori , caclulando la seconda derivata? o gradiente? Grazie mille per il vostro aiuto ! ωyi=0ω
Motore

i = 1 N y = 1i=1,y=1N deve essere letto come "prodotto per le persone fino a , ma solo se Quindi la prima parte si applica solo a quelle persone nei tuoi dati che hanno vissuto l'evento Allo stesso modo, la seconda parte si riferisce solo alle persone che non hanno vissuto l'evento.i=1Ny=1
Maarten Buis,

Esistono molti algoritmi possibili per massimizzare la funzione di probabilità. Il più comune, il metodo Newton-Raphson , implica infatti il ​​calcolo del primo e del secondo derivato.
Maarten Buis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.