Quali aspetti del set di dati “Iris” lo rendono così efficace come un set di dati di esempio / insegnamento / test

Il set di dati "Iris" è probabilmente familiare alla maggior parte delle persone qui: è uno dei set di dati di test canonici e un set di dati di esempio per tutto, dalla visualizzazione dei dati all'apprendimento automatico. Ad esempio, tutti in questa domanda hanno finito per usarlo per una discussione su grafici a dispersione separati dal trattamento.

Cosa rende il set di dati Iris così utile? Solo che era lì prima? Se qualcuno stesse cercando di creare un utile esempio / set di dati di test, quali lezioni potrebbero trarne?

dataset

— fomite
fonte

Piccolo ma non banale. Semplice ma stimolante. Dati reali. La reputazione di Fisher, sebbene non siano i suoi dati. Tradizione. Inerzia. Continuità. Puoi trovare immagini di fiori per spiegarlo.

— Nick Cox,

E ora funziona come un orologio.

— Michael M,

Direi che @NickCox è proprio nel segno.

— Marc Claesen,

@NickCox Vuoi ampliarlo un po 'come risposta?

— Fomite

Il set di dati "iris" può essere utilizzato per analisi discriminanti, nonché per la classificazione non supervisionata (clustering basato su modelli o senza modelli) a scopo illustrativo. Questa domanda merita un riferimento incrociato a Quali sono i buoni set di dati per illustrare particolari aspetti dell'analisi statistica?

— chl

Risposte:

Il set di dati di Iris è ampiamente meritato nella scienza statistica, in particolare per illustrare vari problemi di grafica statistica, statistica multivariata e apprendimento automatico.

Contiene 150 osservazioni, è piccolo ma non banale.
Il compito che pone di discriminare tra tre specie di iris dalle misurazioni dei loro petali e sepali è semplice ma impegnativo.
I dati sono dati reali, ma apparentemente di buona qualità. In linea di principio e in pratica, i set di dati di test potrebbero essere sintetici e ciò potrebbe essere necessario o utile per chiarire un punto. Tuttavia, poche persone si oppongono a dati reali.
I dati furono usati dal celebre statistico britannico Ronald Fisher nel 1936. (Più tardi fu nominato cavaliere e divenne Sir Ronald.) Almeno ad alcuni insegnanti piace l'idea di un set di dati con un collegamento a qualcuno così famoso nel settore. I dati furono originariamente pubblicati dal botanico statisticamente Edgar S. Anderson, ma quell'origine precedente non diminuisce l'associazione.
L'uso di alcuni set di dati famosi è una delle tradizioni che tramandiamo, come dire a ogni nuova generazione che Student ha lavorato per Guinness o che molti famosi statistici si sono lasciati l'un l'altro. Può sembrare un'inerzia, ma nel confrontare metodi vecchi e nuovi e nel valutare qualsiasi metodo, è spesso considerato utile provarli su set di dati noti, mantenendo così una certa continuità nel modo in cui valutiamo i metodi.
Infine, ma non meno importante, il set di dati di Iris può essere piacevolmente accoppiato con le immagini dei fiori in questione, come ad esempio l'utile voce di Wikipedia sul set di dati .

Nota. Fai la tua parte per la correttezza biologica citando attentamente le piante interessate. L'iris setosa , l' iris versicolor e l' iris virginica sono tre specie (non varietà, come in alcuni conti statistici); i loro binominali dovrebbero essere presentati in corsivo, come qui; e Iris come nome del genere e gli altri nomi che indicano specie particolari dovrebbero iniziare rispettivamente con lettere maiuscole e minuscole.

— Nick Cox
fonte

(+1) Grazie per aver ampliato il tuo commento in una risposta.

— cardinale

Darei un +1 in più se potessi affermare di principio la correttezza biologica.

— Fomite

Il set di dati è grande e abbastanza interessante da non essere banale, ma abbastanza piccolo da "stare in tasca" e non rallentare la sperimentazione.

Penso che un aspetto chiave sia che insegna anche sull'adattamento eccessivo. Non ci sono abbastanza colonne per dare un punteggio perfetto: lo vediamo immediatamente quando guardiamo i grafici a dispersione, che si sovrappongono e si incontrano. Quindi qualsiasi approccio di apprendimento automatico che ottiene un punteggio perfetto può essere considerato sospetto.

— Darren Cook
fonte