Regressione logistica per multiclasse

Ho ottenuto il modello per la regressione logistica per la multiclasse che è data da

P (Y = j | X^{(io)}) = \frac{\exp (θ_{j}^{T} X^{(io)})}{1 + Σ_{m = 1}^{K} \exp (θ_{m}^{T} X^{(io)})}

$P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})}$

dove k è il numero di classi theta è il parametro da stimare j è la jth class Xi è i dati di allenamento

Beh, una cosa che non ho capito è come mai il denominatore parte normalizzato il modello. Voglio dire, fa rimanere la probabilità tra 0 e 1.

1 + Σ_{m = 1}^{K} \exp (θ_{m}^{T} X^{(io)})

$1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})$

Voglio dire, sono abituato alla regressione logistica

P (Y = 1 | X^{(io)}) = 1 / (1 + \exp (- θ^{T} X^{(io)}))

$P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)}))$

In realtà, sono confuso con la cosa della nomalizzazione. In questo caso, poiché si tratta di una funzione sigmoid, non consente mai che il valore sia inferiore a 0 o maggiore di 1. Ma sono confuso nel caso multi classe. Perché è così?

Questo è il mio riferimento https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.html . Penso che avrebbe dovuto essere la normalizzazione di

P (Y = j | X^{(io)}) = \frac{\exp (θ_{j}^{T} X^{(io)})}{Σ_{m = 1}^{K} \exp (θ_{m}^{T} X^{(io)})}

$P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})}$

logistic multinomial

— user34790
fonte

Suggerimento: nella regressione logistica ci sono implicitamente due probabilità da affrontare: la probabilità

e la probabilità

. Tali probabilità devono essere pari a

Y = 1

$Y=1$

Y = 0

$Y=0$

1

$1$

— whuber

Sulla base di alcuni dei tuoi altri post, sai come contrassegnare le equazioni. Le equazioni di testo qui sono difficili da leggere e i (pedici?) Sono confusi - puoi segnarli con

L A T E X

$\LaTeX$

— Macro,

Poiché pubblichi così tante domande qui, ti preghiamo di mettere in pausa e leggere le nostre FAQ su come porre buone domande. Leggi l'aiuto per

Markup

modo da poter rendere leggibili le tue equazioni.

T E X

$\TeX$

— whuber

Ho modificato l'equazione. @ Whuber In realtà, sono confuso in relazione alla regressione logistica multiclasse e non a quella binaria. Mi preoccupo come mai quando aggiungo tutti gli elementi nel donominatore normalizzato la probabilità

— user34790

@ user34790, quando si divide ogni termine per la somma, le probabilità della singola classe si sommano a 1. Che cosa è

a proposito?

X^{(i)}

$X^{(i)}$

— Macro,

Risposte:

La tua formula è sbagliata (il limite superiore della somma). Nella regressione logistica con classi ( ), fondamentalmente si creano modelli di regressione logistica binaria cui si sceglie una classe come riferimento o pivot. Di solito, l'ultima classe viene selezionata come riferimento. Pertanto, la probabilità della classe di riferimento può essere calcolata da $K$ $K> 2$ $K-1$ $K$ La forma generale della probabilità è

P (y_{io} = K | X_{io}) = 1 - Σ_{K = 1}^{K - 1} P (y_{io} = K | X_{io}) .

$P(y_i = K | x_i) = 1 - \sum_{k=1}^{K-1} P(y_i = k | x_i) .$

Poiché laclasse

è il tuo riferimento

e quindi

P (y_{io} = K | X_{io}) = \frac{\exp (θ_{io}^{T} X_{io})}{Σ_{io = 1}^{K} \exp (θ_{io}^{T} X_{io})} .

$P(y_i = k | x_i) = \frac{\exp(\theta_i^T x_i)}{\sum_{i=1}^K \exp(\theta_i^T x_i)} .$

K

$K$

θ_{K} = (0, \dots, 0)^{T}

$\theta_K = (0, \ldots, 0)^T$

Alla fine ottieni la seguente formula per tutti

Σ_{io = 1}^{K} \exp (θ_{io}^{T} X_{io}) = \exp (0) + Σ_{io = 1}^{K - 1} \exp (θ_{io}^{T} X_{io}) = 1 + Σ_{io = 1}^{K - 1} \exp (θ_{io}^{T} X_{io}) .

$\sum_{i=1}^K \exp(\theta_i^T x_i) = \exp(0) + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i) = 1 + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i) .$

k < K

$k < K$

P (y_{io} = K | X_{io}) = \frac{\exp (θ_{io}^{T} X_{io})}{1 + Σ_{io = 1}^{K - 1} \exp (θ_{io}^{T} X_{io})}

$P(y_i = k | x_i) = \frac{\exp(\theta_i^T x_i)}{1 + \sum_{i=1}^{K-1} \exp(\theta_i^T x_i)}$

— SEBP
fonte

notare che la scelta della classe di riferimento non è importante, se si sta effettuando la massima probabilità. Ma se stai facendo la massima probabilità penalizzata, o inferenza bayesiana, spesso può essere più utile lasciare le probabilità eccessivamente parametrizzate e lasciare che la penalità scelga un modo di gestire l'eccessiva parametrizzazione. Questo perché la maggior parte delle funzioni penali / priori non sono invarianti rispetto alla scelta della classe di riferimento

— Probislogic

i

$i$

i

$i$

k

$k$

$k$ $k-1$ $\exp(0)$ $k$ $\theta=0$ .

$\theta_1 X=b$

\frac{\exp (B)}{\exp (0) + \exp (B)} = \frac{\exp (0)}{\exp (0) + \exp (- B)} = \frac{1}{1 + \exp (- B)}

$\frac{\exp(b)}{\exp(0)+\exp(b)} = \frac{\exp(0)}{\exp(0)+\exp(-b)} = \frac{1}{1+\exp(-b)}$

— conjugateprior
fonte