Innanzitutto, consiglierei di iniziare con i dati di esempio forniti con il software. La maggior parte delle distribuzioni di software include dati di esempio che è possibile utilizzare per acquisire familiarità con l'algoritmo senza gestire i tipi di dati e wrestling i dati nel formato corretto per l'algoritmo. Anche se stai creando un algoritmo da zero, puoi iniziare con l'esempio da un'implementazione simile e confrontare le prestazioni.
In secondo luogo, consiglierei di sperimentare set di dati sintetici per avere un'idea di come funziona l'algoritmo quando sai come sono stati generati i dati e il rapporto segnale rumore.
In R, puoi elencare tutti i set di dati nei pacchetti attualmente installati con questo comando:
data(package = installed.packages()[, 1])
Il pacchetto R mlbench ha set di dati reali e può generare set di dati sintetici utili per studiare le prestazioni dell'algoritmo.
Python's scikit-learn ha dati di esempio e genera anche set di dati sintetici / giocattolo.
SAS ha un set di dati di formazione disponibile per il download e i dati di esempio SPSS sono installati con il software in C: \ Programmi \ IBM \ SPSS \ Statistics \ 22 \ Samples
Infine, guarderei i dati in natura. Confronterei le prestazioni di diversi algoritmi e parametri di ottimizzazione su set di dati reali. Questo di solito richiede molto più lavoro perché raramente troverai set di dati con tipi di dati e strutture che puoi inserire direttamente nei tuoi algoritmi.
Per i dati in natura, consiglierei:
archivio di set di dati di reddit
Elenco di KDnugget