Selezione del modello Mclust

Il pacchetto R mclustutilizza BIC come criterio per la selezione del modello di cluster. Secondo la mia comprensione, un modello con il BIC più basso dovrebbe essere selezionato rispetto ad altri modelli (se ti interessa solo il BIC). Tuttavia, quando i valori BIC sono tutti negativi, la Mclustfunzione passa automaticamente al modello con il valore BIC più alto. La mia comprensione generale da varie prove è che mclustidentifica i modelli "migliori" come quelli che hanno il . $max\{BIC_i\}$

Sto cercando di capire perché gli autori abbiano preso questa decisione. È illustrato nel sito CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Inoltre, gli autori dei mclustpacchetti ne prendono nota nel loro documento Metodi di classificazione basati sul modello: uso del software mclust in chemiometria a pagina 5.

Il modello "migliore" è considerato quello con il BIC più elevato tra i modelli montati.

Qualcuno può far luce su questo problema? Se un BIC inferiore è sempre migliore, perché gli autori non scelgono il modello con il BIC più basso ma piuttosto il modello con il BIC assoluto più piccolo? Se possibile, fornire riferimenti.

— Jon
fonte

Soluzione trovata:

Quindi, per ribadire la domanda, perché la Mclustfunzione imposta automaticamente il modello con il valore BIC più alto come modello "migliore"?

Ottima domanda! Lasciate che vi dia una risposta a lungo termine a questo.

TL; DR : i valori BIC sono un'approssimazione alla probabilità integrata (non massima) e si desidera il modello con la massima probabilità integrata (fattore di Bayes) in modo da scegliere il modello con il BIC più grande.

Risposta lunga : lo scopo dell'utilizzo del clustering basato su modelli rispetto agli approcci di clustering basati su euristici come k-medie e cluster gerarchici (agglomerativi) è quello di fornire un approccio più formale e intuitivo per confrontare e selezionare un modello di cluster appropriato per i dati.

Mclust utilizza tecniche di clustering basate su modelli di probabilità, modelli misti gaussiani. L'uso dei modelli di probabilità consente lo sviluppo di approcci basati su modelli per confrontare diversi modelli e dimensioni di cluster. Vedere * Metodi di classificazione basati sul modello: utilizzo del software mclust in Chemometria * ( https://www.jstatsoft.org/article/view/v018i06 ) per maggiori dettagli.

Come accennato in precedenza, gli autori affermano che il modello "migliore" è quello con i valori BIC più grandi. Ecco un altro esempio di Clustering basato su modelli avanzato, stima della densità e software di analisi discriminante: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Il Baysian Information Criterion o BIC (?) È il valore della massima affidabilità con una penalità sul numero di parametri nel modello e consente il confronto di modelli con parametrizzazioni diverse e / o numeri diversi di cluster. In generale, maggiore è il valore del BIC, maggiore è l'evidenza per il modello e il numero di cluster (vedere, ad esempio, Fraley e Raftery 2002a).

Selezione del modello : ora che è presente un modello di probabilità collegato ai cluster, è possibile utilizzare strumenti più sofisticati per confrontare più modelli di cluster utilizzando la selezione del modello bayesiano tramite i fattori Bayes.

Nel loro articolo, quanti cluster? Quale metodo di clustering? Risposte tramite analisi del cluster basata sul modello ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Il fattore di Bayes è la probabilità posteriore per un modello rispetto all'altro ipotizzando che nessuno dei due sia favorito a priori. Banfield e Raftery [2] hanno usato un'approssimazione euristicamente derivata per raddoppiare il fattore log di Bayes, chiamato "AWE", per determinare il numero di cluster nel cluster gerarchico in base alla probabilità di classificazione. Quando EM viene utilizzato per trovare la massima probabilità di miscelazione, si applica un'approssimazione più affidabile al doppio del fattore log di Bayes chiamato BIC (Schwarz [32]):

$2 \log(p(x | M)) + constant \approx 2 l_M (x, \hat{\theta}) - m_m log(n) \equiv BIC$

dove è la probabilità (integrata) dei dati per il modello M, è la probabilità log log della miscela maixmizzata per il modello e m_M è il numero di parametri indipendenti da stimare nel modello. Il numero di cluster non è considerato un parametro indipendente ai fini del calcolo del BIC. Se ogni modello è ugualmente likeli , allora è proporzionale alla probabilità a posteriori che i dati conformi al modello . Di conseguenza, maggiore è il valore del BIC, maggiore è l'evidenza per il modello. $p(x |M)$ $l_M(x, \hat{\theta})$ $a \ priori$ $p(x|M)$ $M$

Quindi, in sintesi, il BIC non dovrebbe essere minimizzato. La persona che utilizza questo approccio di clustering basato sul modello dovrebbe cercare il modello che massimizza il BIC in quanto si avvicina al fattore Bayes con la massima probabilità integrata.

Quest'ultima affermazione ha anche un riferimento:

Banfield, JD e Raftery, AE (1993) Cluster gaussiano e non gaussiano basato sul modello. Biometria, 49, 803–821.

EDIT : basato su uno scambio di email,

Come nota a margine, controlla sempre come è definito il BIC. A volte, ad esempio nella maggior parte dei contesti di regressione (dove tradizionalmente una statistica è minimizzata per la stima dei parametri, ad es. Somma residua di quadrati, devianza, ecc.) Il BIC viene calcolato come -2 * loglik + npar * log (n), ovvero il contrario di cosa viene usato in mclust. Chiaramente, in tal caso il BIC dovrebbe essere ridotto al minimo.

La definizione generale del BIC è ; mclust non include il componente negativo. $BIC = -2 \times ln(L(\theta | x)) + k \times ln(n)$

— Jon
fonte

Non sono sicuro a quale versione di Mclust corrisponda la corrispondenza e-mail di questa risposta. La versione 4 di Mclust utilizza la componente negativa di BIC e quindi dovrebbe essere massimizzata. Spero che possa essere utile per le persone che cercano di capire se una massimizzazione o una minimizzazione dovrebbero essere fatte.

— Rasika,

Grazie per averlo sottolineato, aggiornerò questa domanda in modo che abbia senso. Potrei anche esaminare la documentazione per vedere se lì perché hanno deciso di apportare questa modifica dopo così tanti anni

— Jon