Quali argomenti di matematica suggeriresti di preparare per il data mining e l'apprendimento automatico?


30

Sto cercando di mettere insieme un curriculum di matematica auto-diretto per preparare l'apprendimento del data mining e dell'apprendimento automatico. Ciò è motivato avviando il corso di machine learning di Andrew Ng su Coursera e sentendo che prima di procedere avevo bisogno di migliorare le mie abilità matematiche. Mi sono laureato un po 'di tempo fa, quindi la mia algebra e le statistiche (in particolare le lezioni di scienze politiche / psicologia) sono arrugginite.

Le risposte nel thread Un forte background in matematica è un requisito totale per ML? suggerire solo libri o lezioni direttamente collegati all'apprendimento automatico; Ho già esaminato alcune di quelle classi e libri e non so esattamente quale argomento di matematica studiare (ad esempio: quale campo di indirizzo matematico deriva un'equazione per "minimizzare una funzione di costo"?). L'altro thread suggerito ( competenze e corsi necessari per essere un analista di dati ) menziona solo ampie categorie di competenze necessarie per l'analisi dei dati. Il thread Introduzione alla statistica per i matematici non si applica perché non ho già una laurea in matematica; un thread simile Mathematician vuole la conoscenza equivalente ad un grado statistico di qualità ha un incredibile elenco di libri statistici, ma ancora una volta, sto guardando iniziare la matematica da un ricordo arrugginito di algebra e risalire da lì.

Quindi, per coloro che lavorano nel machine learning e nel data mining, quali campi matematici trovi essenziali per svolgere il tuo lavoro? Quali materie matematiche suggeriresti di preparare per il data mining e l'apprendimento automatico e in quale ordine? Ecco l'elenco e l'ordine che ho finora:

  • Algebra
  • Pre-calcolo
  • Calcolo
  • Algebra lineare
  • Probabilità
  • Statistiche (molti sottocampi diversi qui, ma non sanno come spezzarli)

Per quanto riguarda il data mining e l'apprendimento automatico, attraverso il mio lavoro attuale ho accesso ai record sull'attività del sito Web / app, sulle transazioni cliente / abbonamento e sui dati immobiliari (sia statici che temporali). Spero di applicare il data mining e l'apprendimento automatico a questi set di dati.

Grazie!

MODIFICARE:

Per amor dei posteri, volevo condividere un'autovalutazione matematica utile per il corso Intro to Machine Learning di Geoffrey Gordon / Alex Smola al CMU.


3
In termini di prerequisiti per le lezioni di Coursera, tali informazioni dovrebbero essere disponibili da qualche parte nei loro materiali. Al di fuori delle loro classi / più in generale, la domanda su quale matematica sia necessaria per stat / ML / DM mi sembra duplicata. Esistono diversi thread su CV che coprono questo materiale, tra cui: è un background-in-strong-in-maths-a-requisito-per-ml , e corsi di competenze-necessari-per-essere-un-analista di dati ( forse tra gli altri).
gung - Ripristina Monica

1
Si prega di rivedere quei thread, i thread collegati lì come strettamente correlati, e forse cercare nel sito. Se hai ancora una domanda dopo aver letto, torna qui e modifica questa Q per renderla più distintiva / specificare più precisamente ciò che devi ancora sapere che non era coperto altrove.
gung - Ripristina Monica

Risposte:


15

Vale sicuramente la pena dare seguito ai suggerimenti di @gung. Dopo aver seguito il corso di laurea, penso che la tua lista sia un buon inizio. Alcuni commenti:

  1. l'algebra lineare e l'algebra matriciale sono la stessa cosa, quindi lascia cadere quest'ultima.
  2. nel calcolo assicurarsi di includere una differenziazione parziale. Questo è calcolo applicato a funzioni di più variabili (simbolicamente, se, per esempio, è una funzione di ed quindi si desidera anziché ). Fortunatamente questo non è difficile.x y zzxy dzzxdzdx
  3. nel calcolo non hai bisogno di nulla oltre l'integrazione di base (e forse nemmeno quella). Questo è fortunato perché l'integrazione è difficile.
  4. aggiungere l'ottimizzazione di base, ovvero trovare il massimo o il minimo di una funzione, in genere una funzione di più di una variabile. Un apprezzamento della discesa gradiente almeno è essenziale.
  5. in termini di difficoltà probabilmente vorrai essere da qualche parte tra l'inizio e la fine del corso di laurea del 1 ° anno.
  6. prova a leggere alcuni testi di probabilità e statistici di base, online o altro, ma non preoccuparti troppo (la matematica di base è comunque un prerequisito per comprendere probabilità e statistiche). Se segui alcuni corsi come quello che suggerisci, scoprirai cosa devi imparare e dove si trovano i tuoi interessi. Una cosa che non vuoi fare, almeno all'inizio, è passare molto tempo a conoscere i test di ipotesi. Preferiresti orientarti verso la comprensione delle statistiche di base - variabili casuali, distribuzioni di probabilità (PFD, CDF), statistiche descrittive - e quindi provare a capire la regressione.

5

Ci sono un paio di discussioni eccellenti su questo forum - incluso QUESTO UNO che ho trovato particolarmente utile per me in termini di sviluppo di una struttura concettuale delle competenze importanti per il lavoro di data science.

Come accennato in precedenza, ci sono molti corsi online disponibili. Ad esempio Coursera ora ha una specializzazione in scienza dei dati con una serie di corsi che probabilmente copriranno alcuni degli strumenti di cui avresti bisogno per il tuo lavoro.


3

Se stai cercando di fare il pieno di apprendimento automatico / data mining, raccomanderei fortemente l'ottimizzazione / algebra lineare / statistica e probabilità. Ecco un elenco di libri per probabilità. Spero che sia d'aiuto.


3

Per quanto riguarda lo spazzolamento di abilità matematiche molto basilari, sto usando questi libri:

Elementi di matematica per economia e finanza. Mavron, Vassilis C., Phillips, Timothy N Questo libro tratta le abilità matematiche essenziali (sottrazione di addizione), differenziazione parziale, integrazione, matrice e determinanti, e un piccolo capitolo sull'ottimizzazione e anche l'equazione differenziale. È mirato all'economia e alla finanza, ma è un piccolo libro, la sequenza dei capitoli si adatta alle mie esigenze e una lettura facile per me.

Analisi statistica: Microsoft Excel 2010. Conrad Carlberg Copre l'analisi statistica di base, la regressione multipla e l'analisi della covarianza, e utilizza Excel.

Scoprire le statistiche usando R. Andy Field, Jeremy Miles, Zoë Field. Non l'ho ancora letto. Usa R.

Algebra lineare elementare. Ron Larson, David C. Falvo.

Metodi a matrice: algebra lineare applicata di Richard Bronson, Gabriel B. Costa. copre l'algebra lineare elementare e il calcolo della matrice

Questi sono i libri di matematica di base che utilizzo per il data mining / machine learning

Spero che sia di aiuto


3

Ci sono un sacco di risorse rilevanti elencate (e classificate) qui , ai cosiddetti "Open Source Data Science Masters".

In particolare per la matematica elencano:

  1. Algebra lineare e programmazione
  2. statistica
  3. Equazioni differenziali e calcolo

Raccomandazioni piuttosto generiche, anche se elencano alcuni libri di testo che potresti trovare utili.


2
  • Probabilità e statistiche sono essenziali. Alcune parole chiave sono test di ipotesi, distribuzione normale multivariata, inferenza bayesiana (probabilità congiunta, probabilità condizionata), media, varianza, covarianza, divergenza di Kullback-Leibler, ...
  • L'algebra lineare di base è essenziale per l'apprendimento automatico. Argomenti che potresti imparare sono la decomposizione di Eigen e la decomposizione di valore singolare. (Naturalmente dovresti sapere come calcolare un prodotto matrice.)
  • Come già detto TooTone: l'ottimizzazione è importante. Dovresti sapere cos'è la discesa gradiente e forse dare un'occhiata al metodo di Newton, Levenberg-Marquardt, Broyden-Fletcher-Goldfarb-Shanno.
  • Il calcolo non è così importante ma potrebbe essere utile sapere come calcolare le derivate parziali delle funzioni (matrice Jacobi, matrice Assia, ...) e dovresti sapere cos'è un integrale.

0

Algebra lineare, statistiche, calcolo. Penso che puoi impararli in tandem con ML o anche dopo le basi. I corsi / libri di avviamento fanno un ottimo lavoro con i capitoli di matematica, e apprendi gli elementi essenziali di matematica mentre impari l'ML. Ho realizzato un episodio di podcast sulla matematica di cui hai bisogno per l'apprendimento automatico e le risorse per impararli: Guida all'apprendimento automatico n. 8


0

Prima di iniziare qualsiasi corso di apprendimento automatico segui il seguente corso di matematica. Inoltre, non provare a scavare in un solo tentativo. Impara concetti di base e poi ripassa le tue abilità matematiche e ripeti: -

Gli argomenti di matematica sono i seguenti: -

  • Algebra lineare
  • Probabilità
  • Calcolo di base
  • Massimi e minimi di funzione
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.