Un corso di progettazione sperimentale per data mining


11

Sono un informatico che lavora nel data mining. Non è un segreto dire che gli informatici sono abbastanza scarsi nel fare sistematica progettazione e valutazione sperimentale - l'uso di valori p e stime di confidenza è considerato avanzato :).

Cosa mi piacerebbe sapere se ci sono buoni corsi / materiali per insegnare agli informatici una buona progettazione sperimentale. Per rendere questo più specifico, aggiungerò le seguenti informazioni:

  • Il corso dovrebbe essere rivolto a studenti laureati che possono assumere una ragionevole comprensione della probabilità, ma un background limitato nelle statistiche.
  • Il corso dovrebbe focalizzarsi sulla progettazione sperimentale in "contesti innaturali incontrollati": in altre parole non esiste una verità di base fisica sottostante o un modo per controllare il processo di raccolta dei dati (come con i soggetti umani). Naturalmente un buon corso si concentrerà sui fondamenti, ma dovrebbe affrontare questo scenario in modo significativo.
  • Un elemento computazionale sarebbe un bonus ma non è obbligatorio. Ci occupiamo di molti dati, ma possiamo capire noi stessi le questioni computazionali se necessario.

1
Tutte le condizioni dell'esperimento che descrivi mi ricordano i test A / B ... coincidenza? :)
steffen,

Risposte:


5

[Noah Smith] [1] e [David Smith] [2] hanno offerto un corso qualche tempo fa al JHU con motivazioni simili.

Contorno:

  • Lezione 1: introduzione, revisione delle statistiche, verifica delle ipotesi, campionamento
  • Lezione 2: statistiche di interesse: mezzi, quantili, varianza
  • Lezioni 3–4: esperimenti con runtime e "spazio"
  • Lezione 5: analisi dei dati esplorativi
  • Lezione 6: modellistica parametrica, regressione e classificazione
  • Lezione 7: debug e profiling statistici
  • Lezione 8: sintesi e revisione

Per i dettagli, consultare Metodi di ricerca empirica in informatica (600.408) http://www.cs.jhu.edu/~nasmith/erm/



3

Buona domanda. Sono ansioso di vedere le risposte.

Da un punto di vista statistico è necessario affrontare due questioni: la maggior parte delle statistiche e i progetti statistici discutono di piccole statistiche di esempio e la maggior parte delle metodologie utilizzate dagli ingegneri non sono statistiche "moderne".

Non ho alcun suggerimento immediato per il primo problema al di là della buona istruzione in data mining / esplorazione e il significato di statisticamente diverso di fronte all'analisi delle statistiche sulla popolazione (o su grandi campioni).

Tuttavia, due libri di interesse per presentare agli studenti le statistiche sarebbero di Rand Wilcox (uno psicologo):

Wilcox, RR (2012). Introduzione a test di stima e ipotesi robusti, 3a ed. Academic Press.

Wilcox, RR (2010). Fondamenti dei moderni metodi statistici: miglioramento sostanziale di potenza e precisione, Springer, 2a edizione.


2
Mi sembra che il primo problema riguardi la ricerca e potrebbe non avere ancora "buone pratiche". Può darsi che una solida introduzione ai test di base e alla perforazione del problema delle ipotesi multiple possa essere il punto di partenza migliore.
Suresh Venkatasubramanian,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.