Riconoscimento dell'attività umana tramite problema con il set di dati dello smartphone

Sono nuovo di questa comunità e spero che la mia domanda si adatti bene qui. Come parte del mio corso di analisi dei dati universitari ho scelto di fare il progetto sul riconoscimento delle attività umane utilizzando set di dati per smartphone. Per quanto mi riguarda, questo argomento riguarda l'apprendimento automatico e il supporto di macchine vettoriali. Non ho ancora familiarità con queste tecnologie, quindi avrò bisogno di aiuto.

Ho deciso di seguire questa idea di progetto http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (primo progetto in alto) L'obiettivo del progetto è determinare quale attività è una persona impegnarsi (ad es. WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) dai dati registrati da uno smartphone (Samsung Galaxy S II) sulla vita del soggetto. Utilizzando il suo accelerometro e giroscopio incorporati, i dati includono l'accelerazione lineare a 3 assi e la velocità angolare a 3 assi a una frequenza costante di 50Hz.

Tutti i set di dati sono riportati in una cartella con alcune descrizioni e etichette delle caratteristiche. I dati sono divisi per i file 'test' e 'train' in cui i dati sono rappresentati in questo formato:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

E questo è solo un piccolo esempio di ciò che contiene il file.

Non so davvero cosa rappresentino questi dati e come possano essere interpretati. Anche per l'analisi, la classificazione e il raggruppamento dei dati, quali strumenti dovrò usare? Esiste un modo per mettere questi dati in Excel con le etichette incluse e, ad esempio, usare R o Python per estrarre i dati di esempio e lavorare su questo?

Eventuali suggerimenti / suggerimenti sarebbero molto apprezzati.

— Jakubee
fonte

Risposte:

Le definizioni dei set di dati si trovano nella pagina qui:

Informazioni sugli attributi in basso

oppure puoi vedere all'interno della cartella ZIP il file denominato activity_labels, che contiene le intestazioni delle colonne al suo interno, assicurati di leggere attentamente il file README, che contiene alcune buone informazioni. Puoi facilmente portare un .csvfile in R usando il read.csvcomando.

Ad esempio, se assegni un nome al tuo file samsungdata, puoi aprire R ed eseguire questo comando:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Oppure, se sei già all'interno della directory di lavoro in R, puoi semplicemente eseguire quanto segue

data <- read.csv("samsungdata.csv", header = TRUE)

Dove il nome datapuò essere cambiato in qualunque cosa tu voglia chiamare il tuo set di dati.

— MCP_infiltrator
fonte

Vedo. Ho studiato il file README, tuttavia non riesco ancora a capire come possano essere letti i dati stessi. Ad esempio, il file train / X_train.txt rappresenta il set di allenamento (i dati di esempio che ho mostrato in post provengono da questo file).

— Jakubee,

Mi sembra che il set di dati sia piuttosto ampio, ci sono 561 variabili per riga che sono elencate all'interno del file features.txt. Credo che sia ciò a cui ti riferisci.

— MCP_infiltrator

Quindi ciascuna delle variabili del file 'features' corrisponde a ciascuna colonna del file 'x-test.txt', o sbaglio?

— Jakubee,

È così che lo prendo. Da ciò che ho potuto raccogliere dal file README è quello che contiene il file.

— MCP_infiltrator

@Jakubee Sì. Ci sono 561 righe / nomi di variabili nel features.txtfile e 561 colonne nel X_train.txtfile, una per ogni variabile.

— Marco13

Sembra che questo (o un set di dati molto simile) sia usato per i corsi di Coursera. La pulizia di questo set di dati è un'attività per la raccolta e la pulizia dei dati , ma viene anche utilizzata per case study per l' analisi dei dati esplorativi . Il video di questo caso di studio è disponibile in video per la settimana 4 del corso EDA. Potrebbe esserti utile iniziare con questi dati.

— Damian Melniczuk
fonte