Come iniziare a leggere sul data mining?


14

Sono un principiante che inizierà a leggere sul data mining. Ho una conoscenza di base di AI e statistiche. Dato che molti affermano che l'apprendimento automatico svolge un ruolo importante anche nel data mining, è necessario leggere l'apprendimento automatico prima di poter continuare con il data mining?


1
Data mining: concetti e tecniche di Jiawei Han è un buon inizio
aaronjg

Risposte:


12

Essendo un po 'in questa posizione, cercherò di dare qualche intuizione.

Innanzitutto, scarica gli Elementi di apprendimento statistico . Presume il calcolo e l'algebra lineare, e sebbene sia molto tecnico, è anche estremamente ben scritto.

In secondo luogo (o in primo luogo) guarda i tutorial di Andrew Ng sull'apprendimento automatico.

In terzo luogo, ottenere alcuni dati e iniziare a tentare di analizzare i dati. Dovrai suddividere in set di allenamento e test, quindi creare modelli sul set di allenamento e testarli con il set di test. Ho trovato il pacchetto del cursore per R molto utile per tutto questo. Dopo quella sua pratica, pratica la pratica (come quasi tutto il resto).


1
spaventerai il povero per sempre!
Neil McGuigan,

Il corso di Andew Ng sarà "offerto gratuitamente e online" agli studenti di tutto il mondo durante l'autunno 2011 secondo ml-class.org
Andre Holzner,


4

Il data mining può essere descrittivo o predittivo.

Da un lato, se sei interessato al data mining descrittivo, l'apprendimento automatico non sarà di aiuto.

D'altra parte, se sei interessato al data mining predittivo, l'apprendimento automatico ti aiuterà a capire che cerchi di ridurre al minimo il rischio sconosciuto (aspettativa della funzione di perdita) quando riduci al minimo il rischio empirico: tieni a mente il sovralimentazione, la generalizzazione errore e convalida incrociata. Ad esempio, per una questione di coerenza, ilK-NN per un campione di allenamento di dimensionin dovrebbe essere tale che:

  • K va all'infinito quando n va all'infinito,
  • Kn va a 0 quando n va all'infinito.

3
Vale la pena notare che ad alcuni autori piace fare una distinzione tra DM e ML a seconda della grandezza di K/n. Personalmente mi piace l'approccio di Radford Neale, nel suo corso su Metodi statistici per l'apprendimento automatico e l'estrazione dei dati : molti problemi di apprendimento automatico hanno un gran numero di variabili, le applicazioni di data mining spesso coinvolgono un numero molto elevato di casi.
chl

3

Aggiungo solo un'altra ottima fonte di tutorial sul data mining / machine learning di Tom Mitchell .

Lo spiega molto chiaramente e puoi anche scaricare le sue presentazioni dal suo sito Web (insieme a guardare le sue lezioni lì).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.