Perché ottimizzare un mix di gaussiano direttamente dal punto di vista computazionale?

18

Considera la probabilità di log di una miscela di gaussiani:

l (S_{n}; θ) = \sum_{t = 1}^{n} \log f (x^{(t)} | θ) = \sum_{t = 1}^{n} \log {\sum_{i = 1}^{k} p_{i} f (x^{(t)} | μ^{(i)}, σ_{i}^{2})}

$l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\}$

Mi chiedevo perché era difficile dal punto di vista computazionale massimizzare quell'equazione direttamente? Stavo cercando una chiara intuizione solida sul perché dovrebbe essere ovvio che è difficile o forse una spiegazione più rigorosa del perché è difficile. Questo problema è NP-completo o non sappiamo ancora come risolverlo? È questo il motivo per cui ricorrere all'uso dell'algoritmo EM ( aspettativa-massimizzazione )?

Notazione:

$S_n$ = dati di allenamento.

$x^{(t)}$ = punto dati.

$\theta$ = l'insieme di parametri che specificano il gaussiano, i loro mezzi, le deviazioni standard e la probabilità di generare un punto da ciascun cluster / classe / gaussiano.

$p_i$ = probabilità di generare un punto dal cluster / class / gaussiano i.

machine-learning gaussian-mixture expectation-maximization

— Pinocchio
fonte

14

Innanzitutto, GMM è un algoritmo particolare per il clustering, in cui si tenta di trovare l'etichettatura ottimale delle osservazioni. Avendo possibili classi, significa che ci sono possibili etichette dei dati di allenamento. Questo diventa già enorme per valori moderati di e . $n$ $k$ $k^n$ $k$ $n$

In secondo luogo, il funzionale che stai cercando di ridurre al minimo non è convesso e, insieme alla dimensione del tuo problema, lo rende molto difficile. So solo che k-mean (GMM può essere visto come una versione soft dei kmean) è NP-difficile. Ma non so se sia stato provato anche per GMM.

Per vedere che il problema non è convesso, considerare il caso monodimensionale: e verifica di non poter garantire che per tutti x.

L = \log (e^{- (x / σ_{1})^{2}} + e^{- (x / σ_{2})^{2}})

$L = \log \left(e^{-({x}/{\sigma_{1}})^2} + e^{-({x}/{\sigma_{2}})^2}\right)$

\frac{d^{2} L}{d x^{2}} > 0

$\frac{d^2L}{dx^2} > 0$

Avere un problema non convesso significa che puoi rimanere bloccato nei minimi locali. In generale, non hai le forti garanzie che hai nell'ottimizzazione convessa e anche la ricerca di una soluzione è molto più difficile.

— jpmuc
fonte

3

Per quanto riguarda il secondo punto: i k-media possono essere visti come un caso speciale di MGM (più precisamente, un caso limite in cui le varianze sono portate a zero). Se riusciamo a ridurre i mezzi k per il montaggio di un GMM, anche quest'ultimo deve essere un problema NP-difficile.

— Lucas,

1

@Lucas: ecco un link convalidato in modo incrociato alla tua osservazione.

— Xi'an,

7

Oltre ai punti di juampa, vorrei segnalare queste difficoltà:

La funzione non ha limiti, quindi il massimo vero è e corrisponde a (ad esempio) e . Un vero massimizzatore dovrebbe quindi finire con questa soluzione, che non è utile ai fini della stima. $l(\theta|S_n)$ $+\infty$ $\hat\mu^{(i)}=x_1$ $\hat\sigma_i=0$
Anche senza considerare i termini nella decomposizione del prodotto delle somme come somma dei prodotti in , la funzione da massimizzare in è altamente multi-modale (oltre ad essere non- convesso) quindi una sfida per i metodi numerici. EM riconosce la difficoltà convergendo in una modalità locale o in un punto di sella e richiedendo corse multiple. Come mostrato su $k^n$ $l(\theta|S_n)$ $\theta$

tratto dal mio libro .

Un'osservazione aggiuntiva: senza chiamare l'algoritmo EM, si può usare un algoritmo di ottimizzazione standard (come Newton-Raphson) un parametro alla volta, cioè iterare

trova $\theta_1^\prime=\arg\max_{\theta_1} l(\theta|S_n)$
find $\theta_2^\prime=\arg\max_{\theta_2} l(\theta_1^\prime,\theta_{-1}|S_n)$
...
find $\theta_v^\prime=\arg\max_{\theta_v} l(\theta_{-v}^\prime,\theta_v|S_n)$

se ci sono parametri e ogni passaggio dovrebbe aumentare il valore della funzione target , ma questo schema nella migliore delle ipotesi finirà nella stessa modalità dell'algoritmo EM. $v$ $l(\theta|S_n)$

— Xi'an
fonte

OK, L non ha limiti se la varianza è 0. Ma se li escludiamo dai possibili parametri (quindi assumiamo tutta la varianza> 0), allora L non dovrebbe essere così alto ogni volta che la varianza infinitesimale viene scelta (a causa di altri punti). Ho ragione? Quindi, per questo possibile insieme di parametri, L verrebbe limitato e questo implicherà che l'algoritmo EM converge (aumentando la sequenza limitata).

— ahstat,

@ahstat: supponendo che le varianze siano strettamente positive non impedisce all'EM di convergere in una soluzione degenerata se avviata abbastanza vicino.

— Xi'an,