Sto cercando di raggruppare un piccolo set di dati (64 osservazioni di 4 variabili di intervallo e una singola variabile categoriale a tre fattori). Ora sono abbastanza nuovo nell'analisi dei cluster, ma sono consapevole che ci sono stati progressi considerevoli dai tempi in cui il clustering gerarchico o i k-media erano le uniche opzioni disponibili. In particolare, sembra che siano disponibili nuovi metodi di clustering basato su modelli che, come sottolineato da chl , consentono l'uso di "indici di bontà di adattamento per decidere il numero di cluster o classi".
Tuttavia, il pacchetto R standard per il clustering basato su modello mclust
apparentemente non si adatta ai modelli con tipi di dati misti. Il fpc
modello, ma ha difficoltà ad adattarlo, sospetto a causa della natura non gaussiana delle variabili continue. Dovrei continuare con l'approccio basato sul modello? Vorrei continuare a usare R se possibile. A mio modo di vedere, ho alcune opzioni:
- Converti la variabile categoriale a tre livelli in due variabili fittizie e usala
mclust
. Non sono sicuro se questo influenzerà i risultati, ma in caso contrario questa è la mia opzione preferita. - Trasforma le variabili continue in qualche modo e usa il
fpc
pacchetto. - Usa qualche altro pacchetto R che non ho ancora incontrato.
- Crea una matrice di dissomiglianza usando la misura di Gower e usa le tradizionali tecniche di cluster gerarchico o di trasferimento.
Stats.se hivemind ha qualche suggerimento qui?