Soluzione trovata:
Quindi, per ribadire la domanda, perché la Mclust
funzione imposta automaticamente il modello con il valore BIC più alto come modello "migliore"?
Ottima domanda! Lasciate che vi dia una risposta a lungo termine a questo.
TL; DR : i valori BIC sono un'approssimazione alla probabilità integrata (non massima) e si desidera il modello con la massima probabilità integrata (fattore di Bayes) in modo da scegliere il modello con il BIC più grande.
Risposta lunga : lo scopo dell'utilizzo del clustering basato su modelli rispetto agli approcci di clustering basati su euristici come k-medie e cluster gerarchici (agglomerativi) è quello di fornire un approccio più formale e intuitivo per confrontare e selezionare un modello di cluster appropriato per i dati.
Mclust utilizza tecniche di clustering basate su modelli di probabilità, modelli misti gaussiani. L'uso dei modelli di probabilità consente lo sviluppo di approcci basati su modelli per confrontare diversi modelli e dimensioni di cluster. Vedere * Metodi di classificazione basati sul modello: utilizzo del software mclust in Chemometria * ( https://www.jstatsoft.org/article/view/v018i06 ) per maggiori dettagli.
Come accennato in precedenza, gli autori affermano che il modello "migliore" è quello con i valori BIC più grandi. Ecco un altro esempio di Clustering basato su modelli avanzato, stima della densità e software di analisi discriminante: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Il Baysian Information Criterion o BIC (?) È il valore della massima affidabilità con una penalità sul numero di parametri nel modello e consente il confronto di modelli con parametrizzazioni diverse e / o numeri diversi di cluster. In generale, maggiore è il valore del BIC, maggiore è l'evidenza per il modello e il numero di cluster (vedere, ad esempio, Fraley e Raftery 2002a).
Selezione del modello : ora che è presente un modello di probabilità collegato ai cluster, è possibile utilizzare strumenti più sofisticati per confrontare più modelli di cluster utilizzando la selezione del modello bayesiano tramite i fattori Bayes.
Nel loro articolo, quanti cluster? Quale metodo di clustering? Risposte tramite analisi del cluster basata sul modello ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
Il fattore di Bayes è la probabilità posteriore per un modello rispetto all'altro ipotizzando che nessuno dei due sia favorito a priori. Banfield e Raftery [2] hanno usato un'approssimazione euristicamente derivata per raddoppiare il fattore log di Bayes, chiamato "AWE", per determinare il numero di cluster nel cluster gerarchico in base alla probabilità di classificazione. Quando EM viene utilizzato per trovare la massima probabilità di miscelazione, si applica un'approssimazione più affidabile al doppio del fattore log di Bayes chiamato BIC (Schwarz [32]):
2 log( p ( x | M) ) + c o n s t a n t ≈ 2 lM( x , θ^) - mml o g( n ) ≡ B IC
dove è la probabilità (integrata) dei dati per il modello M, è la probabilità log log della miscela maixmizzata per il modello e m_M è il numero di parametri indipendenti da stimare nel modello. Il numero di cluster non è considerato un parametro indipendente ai fini del calcolo del BIC. Se ogni modello è ugualmente likeli , allora è proporzionale alla probabilità a posteriori che i dati conformi al modello . Di conseguenza, maggiore è il valore del BIC, maggiore è l'evidenza per il modello.l M ( x , θ ) un p r i o r ip ( x | M)lM( x , θ^)a p r i o r ip ( x | M)M
Quindi, in sintesi, il BIC non dovrebbe essere minimizzato. La persona che utilizza questo approccio di clustering basato sul modello dovrebbe cercare il modello che massimizza il BIC in quanto si avvicina al fattore Bayes con la massima probabilità integrata.
Quest'ultima affermazione ha anche un riferimento:
Banfield, JD e Raftery, AE (1993) Cluster gaussiano e non gaussiano basato sul modello. Biometria, 49, 803–821.
EDIT : basato su uno scambio di email,
Come nota a margine, controlla sempre come è definito il BIC. A volte, ad esempio nella maggior parte dei contesti di regressione (dove tradizionalmente una statistica è minimizzata per la stima dei parametri, ad es. Somma residua di quadrati, devianza, ecc.) Il BIC viene calcolato come -2 * loglik + npar * log (n), ovvero il contrario di cosa viene usato in mclust. Chiaramente, in tal caso il BIC dovrebbe essere ridotto al minimo.
La definizione generale del BIC è
; mclust non include il componente negativo.B IC= - 2 × l n ( L ( θ | x ) ) + k × l n ( n )