Cercherò di rispondere alle tue domande, ma prima vorrei notare che l'uso del termine "set di dati di grandi dimensioni" è fuorviante, poiché "grande" è un concetto relativo . Devi fornire maggiori dettagli. Se hai a che fare con i dati delle offerte , molto probabilmente questo fatto influirà sulla selezione degli strumenti , degli approcci e degli algoritmi preferiti per l' analisi dei dati . Spero che i miei pensieri seguenti sull'analisi dei dati rispondano alle tue domande secondarie. Tieni presente che la numerazione dei miei punti non corrisponde alla numerazione delle tue domande secondarie. Tuttavia, credo che rifletta meglio il flusso di lavoro generale di analisi dei dati , almeno, come lo capisco.
1) In primo luogo, penso che devi avere in mente almeno una sorta di modello concettuale (o, meglio, sulla carta). Questo modello dovrebbe guidarti nell'analisi dei dati esplorativi (EDA) . La presenza di una variabile dipendente (DV) nel modello significa che nella fase di apprendimento automatico (ML) , più avanti nell'analisi, si tratterà della cosiddetta ML supervisionata, al contrario della ML non supervisionata in assenza di un DV identificato.
2) In secondo luogo, l' EDA è una parte cruciale. IMHO, EDA dovrebbe includere più iterazioni per produrre statistiche descrittive e visualizzazione dei dati , mentre affini la tua comprensione dei dati. Non solo questa fase ti fornirà preziose informazioni sui tuoi set di dati, ma fornirà la tua prossima importante fase: pulizia e trasformazione dei dati . Il semplice lancio di dati grezzi in un pacchetto software statistico non darà molto: per qualsiasi analisi statistica valida , i dati dovrebbero essere puliti, corretti e coerenti . Questa è spesso la parte che richiede più tempo e fatica, ma assolutamente necessaria. Per maggiori dettagli su questo argomento, leggi questi bei documenti:http://vita.had.co.nz/papers/tidy-data.pdf (di Hadley Wickham) e http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (di Edwin de Jonge e Mark van der Loo).
3) Ora, quando si spera che tu abbia finito con EDA , nonché la pulizia e la trasformazione dei dati, sei pronto per iniziare alcune fasi coinvolte statisticamente. Una di queste fasi è l' analisi fattoriale esplorativa (EFA) , che ti permetterà di estrarre la struttura sottostante dei tuoi dati. Per i set di dati con un numero elevato di variabili, l'effetto collaterale positivo di EFA è la riduzione della dimensionalità . E, mentre in questo senso l'EFA è simile all'analisi dei componenti principali (PCA)e altri approcci per la riduzione della dimensionalità, ritengo che l'EFA sia più importante in quanto consente di affinare il modello concettuale dei fenomeni che i "dati" descrivono, dando un senso ai set di dati. Naturalmente, oltre a EFA, puoi / dovresti eseguire analisi di regressione e applicare tecniche di apprendimento automatico , basate sui risultati ottenuti nelle fasi precedenti.
Infine, una nota sugli strumenti software . A mio avviso, lo stato attuale dei pacchetti software statistici è a tal punto che praticamente tutti i principali pacchetti software hanno offerte comparabili in termini di funzionalità. Se studi o lavori in un'organizzazione che ha determinate politiche e preferenze in termini di strumenti software, ne sei vincolato . Tuttavia, in caso contrario, consiglierei vivamente il software statistico open source , basato sul comfort con il suo linguaggio di programmazione specifico , la curva di apprendimento e le prospettive di carriera . La mia attuale piattaforma preferita è R Project, che offre software statistico maturo, potente, flessibile, ampio e aperto, insieme a un ecosistema straordinario di pacchetti, esperti e appassionati. Altre belle scelte includono Python , Julia e specifici software open source per l'elaborazione di big data , come Hadoop , Spark , database NoSQL , WEKA . Per ulteriori esempi di software open source per il data mining , che includono software statistici e ML generali e specifici, consultare questa sezione di una pagina di Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
AGGIORNAMENTO: Hai dimenticato di menzionare Rattle ( http://rattle.togaware.com ), che è anche un software GUI orientato all'R open source molto popolare per il data mining.