Sono nuovo nella scienza dei dati e ho un problema a trovare i cluster in un set di dati con 200.000 righe e 50 colonne in R.
Dato che i dati hanno sia variabili numeriche che nominali, metodi come K-significa che usa la misura della distanza euclidea non sembra una scelta appropriata. Quindi mi rivolgo a PAM, agnes e hclust che accetta una matrice di distanza come input.
Il metodo daisy può funzionare su dati di tipo misto ma la matrice della distanza è troppo grande: 200.000 volte 200.000 è molto più grande di 2 ^ 31-1 (il limite di lunghezza del vettore prima di R 3.0.0).
La nuova R 3.0.0 rilasciata ieri supporta vettori lunghi con una lunghezza superiore a 2 ^ 31-1. Ma una doppia matrice di 200.000 per 200.000 richiede una RAM continua superiore a 16 Gb, cosa impossibile sulla mia macchina.
Ho letto del calcolo parallelo e del pacchetto bigmemory e non sono sicuro che possano essere d'aiuto: se sto usando Daisy, genererà una grande matrice che non può comunque adattarsi alla memoria.
Ho anche letto del post sul campionamento: il campionamento è rilevante ai tempi dei "big data"?
Quindi, nel mio caso, è rilevante utilizzare il campionamento sul set di dati, il cluster sul campione e quindi inferire la struttura dell'intero set di dati?
Potete per favore darmi qualche suggerimento? Grazie!
Informazioni sulla mia macchina:
R versione 3.0.0 (2013-04-03)
Piattaforma: x86_64-w64-mingw32 / x64 (64-bit)
Sistema operativo: Windows 7 a 64 bit
RAM: 16,0 GB