Dove posso trovare set di dati utili per testare le mie implementazioni di Machine Learning? [chiuso]

Attualmente sto cercando di implementare alcuni algoritmi di Machine Learning da solo. Molti di loro hanno la cattiva proprietà di essere difficili da eseguire il debug, alcuni bug non causano l'arresto anomalo del programma, ma piuttosto funzionano non come previsto e sembrano che gli algoritmi danno solo risultati più deboli.

Vorrei avere un modo per aumentare la mia fiducia nell'implementazione, ad esempio se avessi alcuni piccoli set di dati, con informazioni aggiuntive "Algorithms X ha funzionato per iterazioni Y e ha avuto risultati Z su questo set di dati", sarebbe davvero utile. Qualcuno ha sentito parlare di tali set di dati?

dataset

— sjm.majewski
fonte

Che ricerca hai fatto per indagare su questa domanda? A prima vista, si potrebbe pensare che la letteratura che si sta utilizzando per trovare questi algoritmi sarebbe piena zeppa di set di dati di esempio.

— whuber

Bene, conosco ML principalmente da corsi universitari, Coursea, video di lezioni su Internet e alcuni articoli che ho letto su argomenti specifici. So che ci sono molti set di dati di esempio ovunque, ma ne sto cercando alcuni con informazioni su come diversi algoritmi ML hanno eseguito su di essi, in modo da poter validare le mie implementazioni.

— sjm.majewski,

Di recente c'è stato un buon articolo all'ICML sul problema con set di dati standardizzati - che ti impedisce di pensare troppo ai problemi del mondo reale e alla confusione che i problemi del mondo reale comportano. Personalmente, quando ho iniziato a utilizzare i dati del mondo reale, la mia abilità di praticante è sbocciata. Quindi, mentre non ti scoraggerei dall'usare cose come l'UCI come trampolino di lancio o test, tieni d'occhio il premio!

— Patrick Caldon,

Dovresti specificare quale tipo di apprendimento automatico stai facendo. I set di dati di classificazione binaria sono diversi dai set di dati di approssimazione (regressione) delle funzioni.

— Douglas Zare,

stackoverflow.com/questions/3272806/…

— Abhishek Gupta

Risposte:

Dal repository UC Irvine Machine Learning :

Al momento manteniamo 223 set di dati come servizio per la comunità dell'apprendimento automatico. Puoi visualizzare tutti i set di dati tramite la nostra interfaccia per la ricerca. Il nostro vecchio sito Web è ancora disponibile, per coloro che preferiscono il vecchio formato. ... Se desideri donare un set di dati, consulta la nostra politica sulle donazioni. ... Abbiamo anche creato un sito mirror per il repository.

Inoltre, il seguente set di dati MIAS è stato ampiamente utilizzato e studiato:

Quando si esegue il benchmarking di un algoritmo, è consigliabile utilizzare un database di test standard (set di dati) affinché i ricercatori possano confrontare direttamente i risultati. La maggior parte dei database mammografici non sono disponibili al pubblico. I database più facilmente accessibili e quindi i database più comunemente utilizzati sono il database della Mammographic Image Analysis Society (MIAS) e il Digital Database for Screening Mammography (DDSM). Inoltre, al momento ci sono pochi progetti che sviluppano nuovi database di immagini mammografiche e diversi vecchi progetti.

— deepML
fonte

+1 Se continui a trovare più fonti, sentiti libero di aumentare questa risposta.

— whuber

Il repository UCI menzionato da Bashar è probabilmente il più grande, tuttavia ho voluto aggiungere un paio di raccolte più piccole che ho trovato:

Set di dati dalla libreria Mulan Java
Set di dati dal laboratorio Auton della School of Computer Science della Carnegie Mellon University
Set di dati utilizzati negli elementi del libro di apprendimento statistico
Diversi set di dati delle competizioni della Coppa KDD
Set di dati presso il Dipartimento di Statistica , Università di Monaco

— SEBP
fonte