Numero ottimale di componenti in una miscela gaussiana


10

Quindi, ottenere "un'idea" del numero ottimale di cluster in k-mean è ben documentato. Ho trovato un articolo su come farlo in miscele gaussiane, ma non sono sicuro di esserne convinto, non lo capisco molto bene. C'è un modo ... più delicato di farlo?


4
Potresti citare l'articolo, o almeno delineare la metodologia che propone? È difficile trovare un modo "più delicato" per farlo se non conosciamo la linea di base :)
jbowman

1
Geoff McLachlan e altri hanno scritto libri sulle distribuzioni di miscele. Sono sicuro che includono approcci per determinare il numero di componenti in una miscela. Probabilmente potresti guardare lì. Concordo con Jbowman sul fatto che sarebbe meglio alleviare la tua confusione se ci indicassi di cosa sei confuso.
Michael R. Chernick,

Il numero ottimale stimato di miscele gaussiane basato su k-medie incrementali per l'identificazione degli oratori .... È il titolo, è scaricabile gratuitamente. In pratica aumenta il numero di cluster di 1 fino a quando non vedi che due cluster diventano dipendenti l'uno dall'altro, qualcosa del genere. Grazie!
JEquihua,

Perché non scegliere semplicemente il numero di componenti che massimizza la stima della convalida incrociata della probabilità? È costoso dal punto di vista computazionale, ma nella maggior parte dei casi è difficile battere la convalida incrociata per la selezione del modello, a meno che non ci siano molti parametri da mettere a punto.
Dikran Marsupial,

Puoi spiegare un po 'qual è la stima di convalida incrociata della probabilità? Non sono a conoscenza del concetto. Grazie.
JEquihua,

Risposte:


5

Solo qualche estensione al commento di Dikran Marsupial (cross-validation). L'idea principale è quella di suddividere i dati in set di training e validazione in qualche modo, provare un numero diverso di componenti e selezionare il migliore in base ai corrispondenti valori di training e validazione.

La probabilità per GMM è solo per definizione, dove è il numero di componenti (cluster) e , , sono parametri del modello. Modificando il valore di è possibile tracciare la probabilità GMM per set di addestramento e validazione come il seguente.p(x|π,μ,Σ)=KπkN(x|μk,Σk)KπμΣK

inserisci qui la descrizione dell'immagine

In questo esempio dovrebbe essere ovvio che il numero ottimale di componenti è di circa 20. C'è un bel video a riguardo su Coursera, ed è da dove ho preso l'immagine sopra.


Un altro metodo comunemente usato è il criterio di informazione bayesiana (BIC) : dove è la probabilità, K il numero di parametri e il numero di punti dati. Può essere inteso come l'aggiunta di una penalità per il numero di parametri alla probabilità del log.

BIC=2log(L)+Klog(n)
Ln
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.