Quali sono buoni set di dati per illustrare particolari aspetti dell'analisi statistica?


16

Mi rendo conto che questo è soggettivo, ma ho pensato che sarebbe bello parlare dei nostri set di dati preferiti e di ciò che pensiamo li renda interessanti. Ci sono molti dati là fuori, e con tutte le API (ad es. Datamob ) insieme ai set di dati classici (ad es. Dati R ), penso che questo possa avere delle risposte molto interessanti.

Ad esempio, mi sono sempre piaciuti i set di dati come il set di dati "Boston Housing" (nonostante le sfortunate implicazioni) e i "mtcar" per la loro versatilità. Da un punto di vista pedagogico, si possono mostrare i meriti di una grande varietà di tecniche statistiche che li utilizzano; e il set di dati dell'iride di Anderson / Fisher avrà sempre un posto nel mio cuore.

Pensieri?


2
Quello usato per la mia tesi di laurea, perché mi analizzerà un dottorato se lo analizzerò bene>.>
Fomite

3
Benvenuto in Cross Validated! Questo è progettato come sito di domande e risposte per domande con risposte reali, non come forum di discussione. Pertanto, non credo che questo sia il tipo di domanda che vogliamo su questo sito. Si prega di consultare le FAQ .
Michael McGowan,

4
Sono consapevole che è stato progettato come una domanda e risposta, ma con domande come "Qual è il tuo fumetto statistico preferito?" essendo votato a pieno titolo, ho pensato che non sarebbe stato terribilmente inappropriato. Soprattutto pedagogicamente, se qualcuno sta cercando di conoscere l'analisi dei dati e le tecniche esplorative, potrebbe essere utile ottenere un feedback su set di dati pubblici che offrono una struttura ricca e hanno una grande quantità di storia e ricerca dietro di loro.
DA

4
Sono propenso a lasciare che la comunità decida se questo deve essere chiuso (in quanto non costruttivo) oppure no, anche se aggiungerei che risposte esaustive e argomentative potrebbero servire da supporto per domande future su aspetti particolari dell'analisi dei dati. Nel frattempo lo sto convertendo in CW perché, ovviamente, non esiste una risposta migliore.
chl

2
Questa domanda e le loro risposte mi sono molto utili. Si prega di non rimuovere.
firma il

Risposte:


12

Lo studio a basso peso alla nascita

Questo è uno dei set di dati nel libro di testo di Hosmer e Lemeshow sulla regressione logistica applicata (2000, Wiley, 2a edizione). L'obiettivo di questo studio prospettico era identificare i fattori di rischio associati alla nascita di un bambino di peso ridotto alla nascita (di peso inferiore a 2.500 grammi). Sono stati raccolti dati su 189 donne, 59 delle quali avevano bambini a basso peso alla nascita e 130 dei quali avevano bambini con peso alla nascita normale. Quattro variabili che si pensava fossero importanti erano l'età, il peso del soggetto durante il suo ultimo periodo mestruale, la razza e il numero di visite mediche durante il primo trimestre di gravidanza.

È disponibile in R come data(birthwt, package="MASS")o in Stata con webuse lbw. Una versione testuale appare qui: lowbwt.dat ( descrizione ). Da notare che ci sono diverse versioni di questo set di dati perché è stato esteso a uno studio caso-controllo (1-1 o 1-3, corrispondente all'età), come illustrato da Hosmer e Lemeshow nel capitolo 7 di ALR.

Ho insegnato corsi introduttivi basati su questo set di dati per i seguenti motivi:

  • È interessante dal punto di vista storico ed epidemiologico (i dati sono stati raccolti nel 1986); non è richiesto un precedente background in medicina o statistica per comprendere le idee principali e quali domande possono essere poste da quello studio.
  • χ2
  • Permette di discutere diverse prospettive di modellizzazione (approcci esplicativi o predittivi) e le implicazioni dello schema di campionamento nello sviluppo di modelli (stratificazione / casi corrispondenti).

Altri punti che possono essere enfatizzati, a seconda del pubblico e del livello di competenza con i software statistici o delle statistiche in generale.

  1. Per quanto riguarda il set di dati disponibile in R, i predittori categorici sono classificati come numeri interi (ad esempio, per l'etnia della madre abbiamo '1' = bianco, '2' = nero, '3' = altro), nonostante il fatto che l'ordine naturale per alcuni predittori (ad es. numero di precedenti lavori prematuri o numero di visite mediche) o l'uso di etichette esplicite (è sempre una buona idea usare 'sì' / 'no' invece di 1/0 per le variabili binarie, anche se non lo fa ' non cambiare nulla nella matrice del design!) sono semplicemente assenti. Pertanto, è facile discutere quali problemi possono essere sollevati ignorando i livelli o le unità di misura nell'analisi dei dati.

  2. Le variabili di tipi misti sono interessanti quando si tratta di fare alcune analisi esplorative e discutere quale tipo di display grafici sono appropriati per riassumere relazioni univariate, bivariate o banali. Allo stesso modo, la produzione di belle tabelle di riepilogo e, più in generale, i rapporti, è un altro aspetto interessante di questo set di dati (ma il Hmisc::summary.formulacomando lo rende così facile in R).

  3. Hosmer e Lemeshow hanno riferito che i dati effettivi sono stati modificati per proteggere la riservatezza dei soggetti (p. 25). Potrebbe essere interessante discutere questioni di riservatezza dei dati, come è stato fatto in uno dei nostri precedenti Journal Club , ma vedere la sua trascrizione . (Devo ammettere di non entrare mai in molti dettagli con quello.)

  4. È facile introdurre alcuni valori mancanti o valori errati (che sono problemi comuni nella vita reale di uno statistico), che portano a discutere (a) il loro rilevamento tramite codebook ( Hmisc::describeo Stata codebook) o grafica esplorativa (traccia sempre prima i tuoi dati!) e (b) possibile riparazione (imputazione dei dati, cancellazione listwise o misura dell'associazione a coppie, ecc.).


+1 Grazie per aver fornito una risposta esemplare che mostra che questa discussione può essere utile e fornisce uno standard di esposizione a cui altre risposte possono (e dovrebbero) puntare.
whuber

Questo è fantastico ed è esattamente quello che stavo cercando facendo la domanda. Ti ringrazio per la tua preziosa intuizione.
DA

5

Naturalmente, i set di dati Anscombe 4 sono molto utili per l'insegnamento: hanno un aspetto molto diverso, ma hanno proprietà statistiche semplici identiche.

Suggerisco anche set di dati della KDD Cup http://www.kdd.org/kddcup/ perché sono stati ben studiati e ci sono molte soluzioni, così gli studenti possono confrontare i loro risultati e vedere come si classificano.

Nel mio corso di data mining ho organizzato un concorso di set di dati Microarray che può essere utilizzato dai professori http://www.kdnuggets.com/data_mining_course/


Per altri set di dati che sono stati progettati per uno scopo pedagogico in modo simile al Quartetto Anscombe, vedere questa domanda .
Silverfish

3

Molti dei miei corsi di analisi statistica presso Cal Poly hanno utilizzato il set di dati "Iris" che in già in R. Ha variabili categoriche e variabili altamente correlate.


Ti dispiacerebbe espandere i tuoi ultimi punti: in che modo questo set di dati aiuta a insegnare le statistiche? (AFAICT, il set di dati dell'iride ha solo una variabile categorica, vale a dire la classe dell'iride.)
chl

Ecco un thread che riguarda interamente l' uso del set di dati Iris nell'insegnamento .
Silverfish

3

Il set di dati Titanic utilizzato da Harrell in "Regressione Modeling Strategies". Uso una versione semplificata della sua analisi per spiegare la regressione logistica, spiegando la sopravvivenza usando sesso, classe ed età.

Il set di dati Loyn discusso in "Progettazione sperimentale e analisi dei dati per i biologi" di Gerry Quinn e Mick Keough contiene bei problemi che richiedono una trasformazione per regressione lineare multipla.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.