Set di dati orientato alla scienza dei dati / domanda di ricerca per tesi di laurea magistrale in statistica


11

Mi piacerebbe esplorare la "scienza dei dati". Il termine mi sembra un po 'vago, ma mi aspetto che richieda:

  1. apprendimento automatico (piuttosto che statistiche tradizionali);
  2. un set di dati abbastanza grande che è necessario eseguire analisi sui cluster.

Quali sono alcuni buoni set di dati e problemi, accessibili a uno statistico con un po 'di esperienza di programmazione, che posso usare per esplorare il campo della scienza dei dati?

Per mantenerlo il più stretto possibile, preferirei che i collegamenti si aprissero, set di dati ben utilizzati e problemi di esempio.

Risposte:



5

La Sunlight Foundation è un'organizzazione focalizzata sull'apertura e l'incoraggiamento dell'analisi non partigiana dei dati governativi.

Esistono molte analisi in circolazione che possono essere utilizzate per il confronto e un'ampia varietà di argomenti.

Forniscono strumenti e API per l'accesso ai dati e hanno contribuito a spingere per rendere i dati disponibili in luoghi come data.gov .

Un progetto interessante è Influence Explorer . È possibile ottenere qui i dati di origine e l'accesso ai dati in tempo reale.

Potresti anche dare un'occhiata a una delle nostre domande più popolari:

Set di dati disponibili pubblicamente .


5

Il tuo Master è in Informatica? Statistiche?

La "scienza dei dati" sarà al centro della tua tesi? O un argomento secondario?

Presumo che tu sia in Statistica e che tu voglia concentrare la tua tesi su un problema di "scienza dei dati". Se è così, allora andrò controcorrente e suggerirò che non dovresti iniziare con un set di dati o un metodo ML. Invece, dovresti cercare un interessante problema di ricerca che è poco compreso o in cui i metodi ML non hanno ancora avuto successo, o dove ci sono molti metodi ML concorrenti ma nessuno sembra migliore di altri.

Considera questa fonte di dati: Stanford Large Network Dataset Collection . Mentre si potrebbe scegliere uno di questi insiemi di dati, fare una dichiarazione del problema, e quindi eseguire qualche lista dei metodi ML, tale approccio in realtà non dice molto su ciò che la scienza dei dati è tutto, e secondo me non lo fa portare a un'ottima tesi di master.

Invece, potresti farlo: cerca tutti i documenti di ricerca che usano ML in una categoria specifica - ad es. Reti di collaborazione (aka paternità). Mentre leggi ogni articolo, prova a scoprire cosa sono stati in grado di realizzare con ciascun metodo ML e cosa non sono stati in grado di affrontare. Soprattutto cercare i loro suggerimenti per la "ricerca futura".

Forse usano tutti lo stesso metodo, ma non hanno mai provato i metodi ML concorrenti. O forse non convalidano adeguatamente i loro risultati, o forse lì i set di dati sono piccoli, o forse le loro domande di ricerca e le ipotesi erano semplicistiche o limitate.

Più importante: prova a scoprire dove sta andando questa linea di ricerca. Perché si stanno nemmeno preoccupando di farlo? Cosa è significativo al riguardo? Dove e perché stanno incontrando difficoltà?


Questa è una buona idea Il Master è in Statistica.
user3279453,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.