Secondo il commento di @suncoolsu: la dimensionalità del set di dati non è l'unico criterio che dovrebbe orientarti verso un software specifico. Ad esempio, se stai solo pianificando di eseguire un clustering senza supervisione o utilizzare PCA, ci sono diversi strumenti dedicati che gestiscono set di dati di grandi dimensioni, come comunemente riscontrato negli studi genomici.
Ora, R (64 bit) gestisce dati di grandi dimensioni abbastanza bene, e avete ancora la possibilità di memorizzazione su disco utilizzo al posto di accesso alla RAM, ma si veda CRAN Task View ad alte prestazioni e Parallel Computing con R . Lo standard GLM può facilmente ospitare 20.000 oss. (ma vedi anche speedglm ) entro un tempo ragionevole, come mostrato di seguito:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Per fornire un'illustrazione più concreta, ho usato R per elaborare e analizzare grandi dati genetici (800 individui x 800k SNPs , in cui il principale modello statistico era un GLM stratificato con diverse covariate (2 min); ciò è stato reso possibile grazie all'efficace R e Codici C disponibili nel pacchetto snpMatrix (in confronto, lo stesso tipo di modello ha impiegato circa 8 minuti usando un software C ++ dedicato ( plink ). Ho anche lavorato su uno studio clinico (12k pazienti x 50 variabili di interesse) e R si adatta alle mie esigenze Inoltre , per quanto ne so, il pacchetto lme4 è l'unico software che consente di adattare il modello a effetti misti a insiemi di dati sbilanciati e di grandi dimensioni (come nel caso della valutazione educativa su larga scala).
Stata / SE è un altro software in grado di gestire set di dati di grandi dimensioni . SAS e SPSS sono software basati su file, quindi gestiranno grandi volumi di dati. Una revisione comparativa del software per la datamining è disponibile in Data Mining Tools: quale è il migliore per CRM . Per la visualizzazione, ci sono anche molte opzioni; forse un buon inizio è la grafica di grandi set di dati: visualizzazione di un milione ( rivisto nel JSS da P Murrell) e tutti i thread correlati su questo sito.