Da quando ho scritto originariamente questa risposta, l'ho aggiornata con i molti modi ora disponibili per accedere a set di dati di esempio in Python. Personalmente, tendo a restare fedele a qualunque pacchetto sto già usando (di solito seaborn o panda). Se hai bisogno dell'accesso offline, l'installazione del set di dati con Quilt sembra essere l'unica opzione.
Seaborn
Il brillante pacchetto di plottaggio seaborn
ha diversi set di dati di esempio incorporati.
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
Panda
Se non si desidera importare seaborn
, ma si desidera comunque accedere ai suoi set di dati di esempio , è possibile utilizzare l'approccio di @ andrewwowens per i dati di esempio di Seaborn:
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
Tieni presente che i set di dati di esempio contenenti colonne categoriali hanno il loro tipo di colonna modificato dasns.load_dataset()
e il risultato potrebbe non essere lo stesso recuperandolo direttamente dall'URL. I set di dati di esempio di iris e suggerimenti sono disponibili anche nel repository github pandas qui .
Set di dati di esempio R.
Dal momento che ogni insieme di dati può essere letta tramite pd.read_csv()
, è possibile accedere a set di dati di esempio tutti di R copiando gli URL da questo repository insieme di dati R .
Altri modi per caricare i set di dati di esempio R includono
statsmodel
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
e PyDataset
from pydataset import data
iris = data('iris')
scikit-learn
scikit-learn
restituisce dati di esempio come array numpy piuttosto che come frame di dati Panda.
from sklearn.datasets import load_iris
iris = load_iris()
Trapunta
Quilt è un gestore di set di dati creato per facilitare la gestione dei set di dati. Include molti set di dati di esempio comuni, come
diversi dal repository di esempio uciml . La pagina di avvio rapido mostra come installare e importare il set di dati iris:
$ pip install quilt
$ quilt install uciml/iris
Dopo aver installato un set di dati, è accessibile localmente, quindi questa è l'opzione migliore se si desidera lavorare con i dati offline.
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
sepal_length sepal_width petal_length petal_width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
Quilt supporta anche il controllo delle versioni dei set di dati e include una breve descrizione di ciascun set di dati.