Quali passi iniziali dovrei usare per dare un senso a grandi set di dati e quali strumenti dovrei usare?


10

Avvertenza: sono un principiante assoluto quando si tratta di apprendimento automatico, ma desideroso di imparare.

Ho un set di dati di grandi dimensioni e sto cercando di trovare un modello in esso. Potrebbe esserci / potrebbe non esserci correlazione tra i dati, con variabili note o variabili che sono contenute nei dati ma che non ho ancora realizzato sono in realtà variabili / rilevanti.

Immagino che questo sarebbe un problema familiare nel mondo dell'analisi dei dati, quindi ho alcune domande:

  1. Il "proiettile d'argento" sarebbe quello di gettare tutti questi dati in un programma di analisi di statistiche / dati e di scricchiolare i dati alla ricerca di schemi noti / sconosciuti che provano a trovare relazioni. SPSS è adatto o ci sono altre applicazioni che potrebbero essere più adatte.

  2. Dovrei imparare una lingua come R e capire come elaborare manualmente i dati. Ciò non comporterebbe trovare relazioni in quanto dovrei specificare manualmente cosa e come analizzare i dati?

  3. In che modo un minatore di dati professionale affronterebbe questo problema e quali passi prenderebbe?

Risposte:


11

Cercherò di rispondere alle tue domande, ma prima vorrei notare che l'uso del termine "set di dati di grandi dimensioni" è fuorviante, poiché "grande" è un concetto relativo . Devi fornire maggiori dettagli. Se hai a che fare con i dati delle offerte , molto probabilmente questo fatto influirà sulla selezione degli strumenti , degli approcci e degli algoritmi preferiti per l' analisi dei dati . Spero che i miei pensieri seguenti sull'analisi dei dati rispondano alle tue domande secondarie. Tieni presente che la numerazione dei miei punti non corrisponde alla numerazione delle tue domande secondarie. Tuttavia, credo che rifletta meglio il flusso di lavoro generale di analisi dei dati , almeno, come lo capisco.

1) In primo luogo, penso che devi avere in mente almeno una sorta di modello concettuale (o, meglio, sulla carta). Questo modello dovrebbe guidarti nell'analisi dei dati esplorativi (EDA) . La presenza di una variabile dipendente (DV) nel modello significa che nella fase di apprendimento automatico (ML) , più avanti nell'analisi, si tratterà della cosiddetta ML supervisionata, al contrario della ML non supervisionata in assenza di un DV identificato.

2) In secondo luogo, l' EDA è una parte cruciale. IMHO, EDA dovrebbe includere più iterazioni per produrre statistiche descrittive e visualizzazione dei dati , mentre affini la tua comprensione dei dati. Non solo questa fase ti fornirà preziose informazioni sui tuoi set di dati, ma fornirà la tua prossima importante fase: pulizia e trasformazione dei dati . Il semplice lancio di dati grezzi in un pacchetto software statistico non darà molto: per qualsiasi analisi statistica valida , i dati dovrebbero essere puliti, corretti e coerenti . Questa è spesso la parte che richiede più tempo e fatica, ma assolutamente necessaria. Per maggiori dettagli su questo argomento, leggi questi bei documenti:http://vita.had.co.nz/papers/tidy-data.pdf (di Hadley Wickham) e http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (di Edwin de Jonge e Mark van der Loo).

3) Ora, quando si spera che tu abbia finito con EDA , nonché la pulizia e la trasformazione dei dati, sei pronto per iniziare alcune fasi coinvolte statisticamente. Una di queste fasi è l' analisi fattoriale esplorativa (EFA) , che ti permetterà di estrarre la struttura sottostante dei tuoi dati. Per i set di dati con un numero elevato di variabili, l'effetto collaterale positivo di EFA è la riduzione della dimensionalità . E, mentre in questo senso l'EFA è simile all'analisi dei componenti principali (PCA)e altri approcci per la riduzione della dimensionalità, ritengo che l'EFA sia più importante in quanto consente di affinare il modello concettuale dei fenomeni che i "dati" descrivono, dando un senso ai set di dati. Naturalmente, oltre a EFA, puoi / dovresti eseguire analisi di regressione e applicare tecniche di apprendimento automatico , basate sui risultati ottenuti nelle fasi precedenti.

Infine, una nota sugli strumenti software . A mio avviso, lo stato attuale dei pacchetti software statistici è a tal punto che praticamente tutti i principali pacchetti software hanno offerte comparabili in termini di funzionalità. Se studi o lavori in un'organizzazione che ha determinate politiche e preferenze in termini di strumenti software, ne sei vincolato . Tuttavia, in caso contrario, consiglierei vivamente il software statistico open source , basato sul comfort con il suo linguaggio di programmazione specifico , la curva di apprendimento e le prospettive di carriera . La mia attuale piattaforma preferita è R Project, che offre software statistico maturo, potente, flessibile, ampio e aperto, insieme a un ecosistema straordinario di pacchetti, esperti e appassionati. Altre belle scelte includono Python , Julia e specifici software open source per l'elaborazione di big data , come Hadoop , Spark , database NoSQL , WEKA . Per ulteriori esempi di software open source per il data mining , che includono software statistici e ML generali e specifici, consultare questa sezione di una pagina di Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .

AGGIORNAMENTO: Hai dimenticato di menzionare Rattle ( http://rattle.togaware.com ), che è anche un software GUI orientato all'R open source molto popolare per il data mining.


1
Dopo essere tornato a questa domanda più di un anno dopo, posso certamente ribadire che conoscere i tuoi dati è fondamentale e devi tenere a mente quali sono i dati "buoni" rispetto ai dati "cattivi". Ho cercato di utilizzare soluzioni magiche come reti neurali ecc., Ma il processo di pulizia dei dati non è stato facile. (I modelli markov nascosti sembravano rispondere al meglio agli input sporchi e sono stati in grado di prevedere meglio gli output). Infatti, è stato semplicemente riversato sui dati per molte settimane dopo il fallimento della ML e dopo aver creato molti grafici (le rappresentazioni visive dei dati sono molto importante) che sono stato in grado di individuare le soluzioni ai miei problemi!
user3791372

@ user3791372 Sono contento di sentirti! Sembra che quell'anno sia stato produttivo per te nel comprendere molto meglio i vari aspetti della scienza dei dati. Vorrei avere più opportunità per saperne di più, ma, d'altra parte, non posso lamentarmi perché ho imparato parecchio (non sempre legato alla scienza dei dati, ma, forse, è anche meglio). Continuate così!
Aleksandr Blekh,

3
  1. SPSS è un ottimo strumento, ma puoi ottenere molto con risorse che hai già sul tuo computer, come Excel, o che sono gratuite, come il progetto R. Sebbene questi strumenti siano potenti e possano aiutarti a identificare i modelli, devi avere una solida conoscenza dei tuoi dati prima di eseguire le analisi (ti consiglio di eseguire statistiche descrittive sui tuoi dati e di esplorare i dati con grafici per assicurarti che tutto sembra normale). In altre parole, lo strumento che utilizzerai non offrirà un "proiettile d'argento", perché l'output sarà prezioso solo come l'input (conosci il detto ... "immondizia, immondizia"). Gran parte di ciò che sto dicendo è già stato affermato nella risposta di Aleksandr - esatto.

  2. R può essere una sfida per quelli di noi che non sono esperti di codifica, ma le risorse gratuite associate a R e ai suoi pacchetti sono abbondanti. Se pratichi l'apprendimento del programma, otterrai rapidamente trazione. Ancora una volta, dovrai avere familiarità con i tuoi dati e le analisi che desideri eseguire comunque, e questo fatto rimane indipendentemente dagli strumenti statistici che utilizzi.

  3. Comincerei acquisendo familiarità con i miei dati (seguire i passaggi indicati nella risposta di Aleksandr, per cominciare). Potresti prendere in considerazione la raccolta del libro di John Foreman intitolato Data Smart. È un libro pratico, poiché John fornisce set di dati e segui i suoi esempi (usando Excel) per imparare vari modi di navigare ed esplorare i dati. Per i principianti, è una grande risorsa.


2

Aleksandr ha dato una spiegazione molto approfondita, ma brevemente, questi sono i passaggi che vengono seguiti:

Estrazione dei dati

Dati di pulizia

Estrazione delle caratteristiche

Costruire modelli

Inferenza dei risultati

Pubblicazione dei risultati

Ripeti i passaggi 3,4,5 in loop fino ad ottenere la giusta precisione.


0

R ha GUI di dialogo CNC come SPSS. Stampano il codice R in modo da poter imparare e combinare i loro sforzi. Consiglierei BlueSky per i suoi dialoghi per tutto e sonaglio. Mentre questi software sono ottimi per EDA, statistiche e visualizzazione, l'apprendimento automatico non vanno bene.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.