Il tuo Master è in Informatica? Statistiche?
La "scienza dei dati" sarà al centro della tua tesi? O un argomento secondario?
Presumo che tu sia in Statistica e che tu voglia concentrare la tua tesi su un problema di "scienza dei dati". Se è così, allora andrò controcorrente e suggerirò che non dovresti iniziare con un set di dati o un metodo ML. Invece, dovresti cercare un interessante problema di ricerca che è poco compreso o in cui i metodi ML non hanno ancora avuto successo, o dove ci sono molti metodi ML concorrenti ma nessuno sembra migliore di altri.
Considera questa fonte di dati: Stanford Large Network Dataset Collection . Mentre si potrebbe scegliere uno di questi insiemi di dati, fare una dichiarazione del problema, e quindi eseguire qualche lista dei metodi ML, tale approccio in realtà non dice molto su ciò che la scienza dei dati è tutto, e secondo me non lo fa portare a un'ottima tesi di master.
Invece, potresti farlo: cerca tutti i documenti di ricerca che usano ML in una categoria specifica - ad es. Reti di collaborazione (aka paternità). Mentre leggi ogni articolo, prova a scoprire cosa sono stati in grado di realizzare con ciascun metodo ML e cosa non sono stati in grado di affrontare. Soprattutto cercare i loro suggerimenti per la "ricerca futura".
Forse usano tutti lo stesso metodo, ma non hanno mai provato i metodi ML concorrenti. O forse non convalidano adeguatamente i loro risultati, o forse lì i set di dati sono piccoli, o forse le loro domande di ricerca e le ipotesi erano semplicistiche o limitate.
Più importante: prova a scoprire dove sta andando questa linea di ricerca. Perché si stanno nemmeno preoccupando di farlo? Cosa è significativo al riguardo? Dove e perché stanno incontrando difficoltà?