Ricettario / scheda di riferimento / cheatsheet di apprendimento automatico?


57

Trovo incredibilmente utili risorse come il ricettario di probabilità e statistica e la scheda di riferimento R per il data mining . Ovviamente servono anche come riferimenti, ma mi aiutano anche a organizzare i miei pensieri su un argomento e ottenere la disposizione della terra.

D: Esiste qualcosa come queste risorse per i metodi di apprendimento automatico?

Sto immaginando una scheda di riferimento che per ogni metodo ML includerebbe:

  • Proprietà generali
  • Quando il metodo funziona bene
  • Quando il metodo funziona male
  • Da quale o a quali altri metodi il metodo generalizza. È stato sostituito per lo più?
  • Documenti seminali sul metodo
  • Problemi aperti associati al metodo
  • Intensità computazionale

Sono sicuro che tutte queste cose possono essere trovate con un minimo di ricerca nei libri di testo. Sarebbe davvero conveniente averli su alcune pagine.


5
Un bel obiettivo, ma "scavare minimamente attraverso alcuni libri di testo"? Come si potrebbe persino iniziare a comprimere questi 20 libri per l'apprendimento statistico e il data mining + mloss.org/software/rating ?
denis,


2
(+1) per il chuzpa, se esistesse una simile panoramica, pagherei per questo. Il problema chiave è che accanto ad alcune proprietà che potrebbero essere derivate dall'algoritmo stesso, la maggior parte di tali proprietà o regole empiriche è acquisita dall'esperienza, cioè dall'applicazione. Sono abbastanza sicuro che un ricercatore applicato indurito dalla battaglia o un programmatore / consulente del framework ML potrebbe scrivere qualcosa del genere ... ma qui e ora?
Steffen,

@Denis: il link "20 libri .." non funziona, puoi verificarlo?
Lmsasu,

6
Non sono un esperto di apprendimento automatico, quindi rimanderò ad altri per pubblicare risposte, ma penso che The Elements of Statistical Learning sia considerato un buon testo sull'argomento ed è scritto da alcuni dei più grandi nomi del settore. Dovrei aggiungere che questo libro è stato scritto ad alto livello e quelli che ho sentito consigliano di avere dottorati in statistica.
Macro

Risposte:


25

Alcune delle migliori risorse disponibili gratuitamente sono:

Per quanto riguarda la domanda dell'autore non ho incontrato la soluzione "Tutto in una pagina"


Sergey, il libro di Barber è legato a Matlab?
denis,

2
Sì, basta dare un'occhiata al link del libro: il box BRMLtool viene fornito per aiutare i lettori a vedere come i modelli matematici si traducono in un vero codice MAT-LAB.
Sergey,

31

Se vuoi imparare il Machine Learning ti consiglio vivamente di iscriverti al corso ML online gratuito in inverno tenuto dal Prof. Andrew Ng .

Ho fatto il precedente in autunno e tutto il materiale didattico è di qualità eccezionale e orientato verso applicazioni pratiche, e molto più facile da capire che lottare da solo con un libro.

Ha anche prodotto un frutto appeso piuttosto basso con buone spiegazioni intuitive e la minima quantità di matematica.


Ho appena finito questo corso ed è fantastico! Inoltre, mi ha dato un ottimo inizio per la comprensione dei libri sull'apprendimento automatico.
B Seven

1
Penso che questo link ora sia coursera.org/course/ml
n611x007

14

Sì, stai bene; "Pattern Recognition and Machine Learning" di Christopher Bishop è un libro eccellente come riferimento generale, non si può davvero sbagliare.

Un libro abbastanza recente ma anche molto ben scritto e altrettanto ampio è il " Bayesian Reasoning and Machine Learning " di David Barber ; un libro che riterrei leggermente più adatto a un nuovo arrivato sul campo.

Ho usato "Gli elementi dell'apprendimento statistico" di Hastie et al. (menzionato da Macro) e, sebbene sia un libro molto forte, non lo consiglierei come primo riferimento; forse ti servirebbe meglio come secondo riferimento per argomenti più specializzati. Sotto questo aspetto, anche il libro di David MacKay, Teoria dell'informazione, inferenza e algoritmi di apprendimento , può fare un lavoro splendido.


2
+1 per Bishop. Sviluppo chiaro con un livello di dettaglio uniforme. Mentre ancora buono ho sempre trovato Hastie et al. un po 'instabile.
conjugateprior,

1
+1 - Hastie, Tibshirani e Friedman sono i miei preferiti personali.
StasK

1
+1 anche per raccomandare Hastie, Tibshirani e Friedman, anche il mio preferito. E grazie per le altre raccomandazioni; Li darò una lettura perché ho davvero bisogno di un buon libro da raccomandare ai non statistici (o alle persone che stanno appena entrando nel campo).
Néstor,

1
+1 per Bishop. In realtà è un'ottima fonte anche per le statistiche classiche, ma aggiornata e mascherata.
congetture

10

Poiché il consenso sembra essere che questa domanda non è un duplicato, mi piacerebbe condividere il mio preferito per i principianti del discente di macchina:

Ho trovato Programming Collective Intelligence il libro più semplice per i principianti, poiché l'autore Toby Segaran è focalizzato nel consentire allo sviluppatore di software mediano di sporcarsi le mani con l'hacking dei dati il ​​più velocemente possibile.

Capitolo tipico: Il problema dei dati è chiaramente descritto, seguito da una spiegazione approssimativa di come funziona l'algoritmo e infine mostra come creare alcune intuizioni con poche righe di codice.

L'uso di Python consente di capire tutto piuttosto velocemente (non è necessario conoscere Python, sul serio, non lo sapevo prima). NON pensare che questo libro si concentri solo sulla creazione di un sistema di raccomandazione. Si occupa anche di estrazione del testo / filtro antispam / ottimizzazione / clustering / convalida ecc. E quindi offre una panoramica accurata degli strumenti di base di ogni minatore di dati.


6

Witten and Frank, "Data Mining", Elsevier 2005 è un buon libro per l'autoapprendimento in quanto esiste una libreria Java di codice (Weka) da abbinare al libro ed è molto orientato alla pratica. Sospetto che ci sia un'edizione più recente di quella che ho.


1
Sì, questo libro doveva essere chiamato "Machine Learning" ma il nome è stato cambiato in "Data Mining" dagli editori per guidare l'hype di data mining in quel momento, tuttavia il libro parla di ML non di DM (le due nuda somiglianze, ma sono campi diversi!).
clyfe,

1
Anche il libro di Tom Mitchell "Machine Learning" è molto buono; lo stile è un po 'vecchio stile, ma il contenuto è eccellente.
Dikran Marsupial,

Sì, la ML di Tom Mitchell è come la bibbia ML, davvero completa sul campo!
clyfe,


5

"Elements of Statistical Learning" sarebbe un ottimo libro per i tuoi scopi. La quinta edizione del libro, che è stato pubblicato all'inizio del 2011, è disponibile gratuitamente all'indirizzo http://www.stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf


2
è un libro pesante di matematica, quindi potrebbe essere difficile da seguire per lo studente.
Atilla Ozgur,

Sai come può essere scaricato gratuitamente sulle pagine personali di Trevor Hastie quando Springer addebita 70 $ per questo?
Alfred M.,

Non lo so per certo, ma immagino che Springer voglia i soldi e gli autori vogliono principalmente pubblicizzare ampiamente il loro libro. Questo sembra molto simile a come Springer ti venderà articoli pubblicati mentre molte "versioni di documenti di lavoro" sono disponibili gratuitamente sul sito Web dell'autore.
DanB,

Cordiali saluti, il download è per la 5a stampa della seconda edizione. Adoro la nota a piè di pagina sull'eipografia "In God we trust, tutti gli altri portano dati" che è attribuito a Deming. La nota a piè di pagina sottolinea l'ironia che non è possibile trovare "dati" a conferma del fatto che Deming lo abbia effettivamente detto.
Heatfan John,

Dovresti menzionare Introduzione all'apprendimento statistico con R - è un po 'come il loro ESL -lite (se la matematica in ESL è troppo scoraggiante).
Steve S,

5

inserisci qui la descrizione dell'immagine

Spesso la parte più difficile della risoluzione di un problema di apprendimento automatico può essere trovare lo stimatore giusto per il lavoro. Stimatori diversi sono più adatti per diversi tipi di dati e problemi diversi. Il diagramma di flusso di seguito è progettato per fornire agli utenti una guida approssimativa su come affrontare i problemi per quanto riguarda gli stimatori per provare i tuoi dati. Fai clic su uno stimatore nella tabella qui sotto per vedere la sua documentazione.



3

La maggior parte dei libri citati in altre risposte sono molto buoni e non si può davvero sbagliare con nessuno di essi. Inoltre, trovo abbastanza utile il seguente cheat sheet per Python scikit-learn.


2

Mi piace Duda, Hart e Stork "Classificazione dei modelli". Questa è una recente revisione di un testo classico che spiega tutto molto bene. Non sono sicuro che sia aggiornato per avere molta copertura di reti neurali e SVM. Il libro di Hastie, Tibshirani e Friedman parla del meglio che esiste, ma potrebbe essere un po 'più tecnico di quello che stai cercando ed è dettagliato piuttosto che una panoramica dell'argomento.


2

Microsoft Azure fornisce anche un cheat-sheet simile a quello di scikit-learn pubblicato da Anton Tarasenko.

Foglio informativo sull'algoritmo di Microsoft Azure Machine Learning

(fonte: https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-algorithm-cheat-sheet )

Lo accompagnano con un avviso:

I suggerimenti offerti in questo cheat sheet dell'algoritmo sono regole empiriche approssimative. Alcuni possono essere piegati e alcuni possono essere flagrantemente violati. Questo ha lo scopo di suggerire un punto di partenza. (...)

Microsoft fornisce inoltre un articolo introduttivo che fornisce ulteriori dettagli.

Si noti che tali materiali sono incentrati sui metodi implementati in Microsoft Azure.


1

Non iniziare con Elements of Statistical Learning. È fantastico, ma è un libro di consultazione, che non suona come quello che stai cercando. Vorrei iniziare con la programmazione dell'intelligenza collettiva in quanto è di facile lettura.


Non sono sicuro che caratterizzerei ESL come testo di riferimento. Mi sembra più una visione d'insieme, cioè non imparerai i dettagli grintosi di (quasi) nulla. Vedrai le tecniche generali e i temi generali.
cardinale,

1

Per un primo libro sull'apprendimento automatico, che fa un buon lavoro di spiegazione dei principi, lo consiglio vivamente

Rogers e Girolami, A First Course in Machine Learning , (Chapman & Hall / CRC Machine Learning & Pattern Recognition), 2011.

Il libro di Chris Bishop, o quello di David Barber, fanno entrambi delle buone scelte per un libro con maggiore ampiezza, una volta che avrete una buona conoscenza dei principi.




0

Un buon cheatheet è quello del libro Max Kuhn Applied Predictive Modeling . Nel libro c'è una buona tabella riassuntiva di diversi modelli di apprendimento ML. La tabella è nell'appendice A pagina 549.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.