Quali sono gli "algoritmi caldi" per l'apprendimento automatico?


14

Questa è una domanda ingenua da parte di qualcuno che inizia a imparare l'apprendimento automatico. In questi giorni sto leggendo il libro "Apprendimento automatico: una prospettiva algoritmica" di Marsland. Lo trovo utile come libro introduttivo, ma ora vorrei passare ad algoritmi avanzati, quelli che attualmente stanno dando i migliori risultati. Sono principalmente interessato alla bioinformatica: raggruppamento di reti biologiche e ricerca di schemi in sequenze biologiche, in particolare applicato all'analisi del polimorfismo a singolo nucleotide (SNP). Potresti consigliarmi alcune recensioni o libri da leggere?

Risposte:


15

Il Deep Learning ha ottenuto molta attenzione dal 2006. È fondamentalmente un approccio per formare reti neurali profonde e sta portando a risultati davvero impressionanti su set di dati molto difficili (come il clustering di documenti o il riconoscimento di oggetti). Alcune persone parlano del secondo rinascimento della rete neurale (ad esempio in questo discorso di Google di Schmidhuber).

Se vuoi essere colpito, dovresti guardare questo documento scientifico sulla riduzione della dimensionalità dei dati con reti neurali, Hinton e Salakhutdinov.

(C'è così tanto lavoro in corso proprio ora in quell'area, che ci sono solo due libri in arrivo che conosco che lo tratteranno: machine learning su larga scala , Langford et al e Machine Learning: una prospettiva probabilistica di Kevin Murphy.)

Se vuoi saperne di più, dai un'occhiata a cosa stanno facendo i principali gruppi di deep learning: Stanford , Montreal e, soprattutto, Toronto # 1 e Toronto # 2 .


8

La maggior parte delle risposte fornite finora si riferisce a "Apprendimento supervisionato" (ovvero dove si hanno etichette per una parte del set di dati, che è possibile utilizzare per addestrare gli algoritmi). La domanda menzionava specificamente il clustering, che è un approccio "senza supervisione" (ovvero non sono note in precedenza etichette). In questo scenario, suggerirei di guardare:

  • k-medie e kernel k-medie
  • Clustering agglomerativo
  • Fattorizzazione a matrice non negativa
  • Allocazione latente di Dirichlet
  • Processi di Dirichlet e processi di Dirichlet gerarchici

Ma in realtà probabilmente troverai che la tua somiglianza / misura della distanza è più importante dell'algoritmo specifico che usi.

Se disponi di alcuni dati etichettati, gli approcci all'apprendimento semi-supervisionato stanno guadagnando popolarità e possono essere molto potenti. Un buon punto di partenza per SSL è LapSVM (Laplacian Support Vector Machine).


7

Questi sono libri che potrebbero essere utili:

  • Introduzione al data mining di Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Questo era il libro suggerito durante le mie lezioni di Data Mining all'università. Mi piace il suo layout e l'approccio teorico;
  • Data mining: strumenti e tecniche di apprendimento automatico pratico di Ian H. Witten, Eibe Frank, Mark A. Hall. Un libro molto interessante Questo libro tratta anche molte tecniche implementate con il Data Mining Framework WEKA ;
  • Apprendimento automatico di Thomas Mitchell. È un libro un po 'vecchio ma può essere utile.

Quindi ricorda che puoi seguire lezioni gratuite di Machine learning a Stanford appena iniziate: www.ml-class.com .

E per il tuo problema particolare, ovvero l'analisi SNP, suggerirei di dare un'occhiata al gruppo Di Camillo all'Università di Padova.


5

Ecco un grande articolo e un libro che spiega la logica, la teoria e l'applicazione della maggior parte dei metodi più popolari:

I 10 migliori algoritmi nel data mining

È particolarmente pulito perché è una "top 10" scelta dagli esperti di sondaggi sul campo.

Inoltre, per i dati genetici in generale, la selezione delle caratteristiche è estremamente importante a causa delle molte caratteristiche. Ad esempio, l'eliminazione delle funzioni ricorsive SVM (SVM-RFE) e i relativi metodi sono molto popolari e vengono attivamente sviluppati e applicati nel contesto dei dati genetici.


4

Gli alberi potenziati e una qualche forma di svm vincono molte competizioni, ma si riduce sempre al contesto. Anche la regolarizzazione del collettore è all'avanguardia.


4

Consiglio "Gli elementi dell'apprendimento statistico", di Hastie, Tibshirani e Friedman. Non limitarti a leggerlo, gioca con alcuni algoritmi da loro descritti (la maggior parte di essi sono implementati in R, o potresti addirittura implementarne alcuni tu stesso), e impara i loro punti deboli e forti.



3

I processi gaussiani per l'apprendimento automatico di Rasmussen e Williams (MIT Press) sono un must. I processi gaussiani sono uno degli algoritmi caldi per l'apprendimento automatico ora che sono disponibili algoritmi di propagazione delle aspettative e inferenza variazionale. Il libro è scritto molto bene, ha un toolbox MATLAB gratuito (un bel po 'di kit) e il libro può essere scaricato gratuitamente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.