Metodo cluster affidabile per dati misti in R


12

Sto cercando di raggruppare un piccolo set di dati (64 osservazioni di 4 variabili di intervallo e una singola variabile categoriale a tre fattori). Ora sono abbastanza nuovo nell'analisi dei cluster, ma sono consapevole che ci sono stati progressi considerevoli dai tempi in cui il clustering gerarchico o i k-media erano le uniche opzioni disponibili. In particolare, sembra che siano disponibili nuovi metodi di clustering basato su modelli che, come sottolineato da chl , consentono l'uso di "indici di bontà di adattamento per decidere il numero di cluster o classi".

Tuttavia, il pacchetto R standard per il clustering basato su modello mclustapparentemente non si adatta ai modelli con tipi di dati misti. Il fpcmodello, ma ha difficoltà ad adattarlo, sospetto a causa della natura non gaussiana delle variabili continue. Dovrei continuare con l'approccio basato sul modello? Vorrei continuare a usare R se possibile. A mio modo di vedere, ho alcune opzioni:

  1. Converti la variabile categoriale a tre livelli in due variabili fittizie e usala mclust. Non sono sicuro se questo influenzerà i risultati, ma in caso contrario questa è la mia opzione preferita.
  2. Trasforma le variabili continue in qualche modo e usa il fpcpacchetto.
  3. Usa qualche altro pacchetto R che non ho ancora incontrato.
  4. Crea una matrice di dissomiglianza usando la misura di Gower e usa le tradizionali tecniche di cluster gerarchico o di trasferimento.

Stats.se hivemind ha qualche suggerimento qui?


Per convertire i dati categorici in codice fittizio (uno codificato a caldo) è possibile utilizzare la funzione dummy.data.frame. come input, puoi fornire i tuoi dati misti e come output codifica solo quelli categorici.
Naghmeh,

Risposte:


7

Ti consiglierei di usare Gower con il successivo raggruppamento gerarchico. Il clustering gerarchico rimane il metodo più flessibile e appropriato in caso di un numero ridotto di oggetti (come 64). Se la tua variabile categoriale è nominale, Gower la ricodificherà internamente in variabili fittizie e baserà la somiglianza dei dadi (come parte di Gower) su di esse. Se la tua variabile è ordinale, dovresti sapere che anche l'ultima versione sul coefficiente di Gower può adattarla.

Per quanto riguarda numerosi indici per determinare il "migliore" numero di cluster, la maggior parte di essi esiste indipendentemente da questo o quell'algoritmo di clustering. Non è necessario cercare pacchetti di cluster che incorporano necessariamente tali indici perché questi ultimi possono esistere come pacchetti separati. Lasciare una gamma di soluzioni cluster dopo un pacchetto di cluster e quindi confrontarle con un indice di un altro pacchetto.


Ho finito per percorrere questa strada, grazie per la punta.
fmark
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.