Quali algoritmi di apprendimento automatico possono essere ridimensionati usando hadoop / map-ridurre


9

Al giorno d'oggi, gli algoritmi di apprendimento automatico scalabile sembrano ronzare. Ogni azienda gestisce a dir poco big data . Esiste un libro di testo che discute quali algoritmi di apprendimento automatico possono essere ridimensionati usando architetture parallele come Map-Reduce e quali algoritmi non possono? O alcuni documenti pertinenti?

Risposte:



4

Vowpal Wabbit, un programma di apprendimento automatico molto veloce focalizzato sull'apprendimento online della discesa gradiente, può essere usato con Hadoop: http://arxiv.org/abs/1110.4198 Anche se non l'ho mai usato in questo modo. Se lo capisco correttamente, utilizza Hadoop solo per l'affidabilità e la fornitura dei dati ai processi Vowpal Wabbit. Utilizza qualcosa come AllReduce di MPI per eseguire la maggior parte delle comunicazioni.


4

Come sottolineato da Jimmy Lin e Chris Dyer nel primo capitolo del loro libro sull'estrazione di testo ad alta intensità di dati con MapReduce , su larga scala di dati, le prestazioni di diversi algoritmi convergono in modo tale che le differenze di prestazioni praticamente scompaiono. Ciò significa che, dato un set di dati abbastanza grande, l'algoritmo che vorresti usare è quello che è meno costoso dal punto di vista computazionale. È solo su scale di dati più piccole che contano le differenze di prestazioni tra algoritmi.

Detto questo, il loro libro (linkato sopra) e Mining of Massive Dataset di Anand Rajaraman, Jure Leskovec e Jeffrey D. Ullman sono probabilmente due libri che vorrai dare un'occhiata anche, soprattutto perché sono direttamente interessati a MapReduce per scopi di data mining.


1
"... su larga scala, convergono le prestazioni di diversi algoritmi ..." Non lo sapevo. Grazie per questa utile comprensione. Inoltre, mi sono imbattuto in "Mining of Massive Dataset" e l'ho trovato molto utile. Guarderò anche l'altro libro.
Nik,


1

Nessuno ha menzionato il seguente documento - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng è uno degli autori)

La stessa carta è per macchine multi-core, ma essenzialmente riguarda la rifusione dei problemi di apprendimento automatico in modo che si adattino al modello di riduzione della mappa e possano essere utilizzati per un cluster di computer. (per capire perché questa non è una buona idea in generale, potresti voler leggere questo documento - http://arxiv.org/pdf/1006.4990v1.pdf . Ha una buona panoramica).


Inoltre, Mahout è stato un tentativo di implementare il documento Andrew Ng che ho citato.
user48654

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.