Cerca ad esempio stack di infrastrutture / flussi di lavoro / condutture

14

Sto cercando di capire come tutti i componenti dei "big data" giocano insieme in un caso d'uso reale, ad esempio hadoop, monogodb / nosql, storm, kafka, ... So che si tratta di una vasta gamma di strumenti utilizzati per tipi diversi, ma mi piacerebbe conoscere meglio la loro interazione con le applicazioni, ad esempio pensando al machine learning per un'app, una webapp, un negozio online.

Ho vistors / session, dati di transazione ecc. E li conservo; ma se voglio dare consigli al volo, non posso eseguire la mappatura lenta / ridurre i lavori per questo su alcuni grandi database di registri che ho. Dove posso saperne di più sugli aspetti dell'infrastruttura? Penso di poter usare la maggior parte degli strumenti da soli, ma collegarli l'uno con l'altro sembra essere un'arte a sé stante.

Ci sono esempi / casi d'uso pubblici disponibili? Capisco che le singole condutture dipendono fortemente dal caso d'uso e dall'utente, ma probabilmente solo gli esempi mi saranno molto utili.

— chrshmmmr
fonte

Hai fatto qualche ricerca su questo? Ci sono molti video di YouTube e presentazioni di diapositive che descrivono diverse architetture

— Stanpol,

1

Ehi Stanpol, grazie per la tua risposta - ho fatto alcune ricerche iniziali e in realtà non ho trovato nulla oltre a AWS e cose cloudera - forse se puoi darmi alcuni termini di ricerca che sono promettenti, sarò felice di prenderlo da lì.

— chrshmmmr,

14

Per comprendere la varietà dei modi in cui l'apprendimento automatico può essere integrato nelle applicazioni di produzione, penso che sia utile esaminare progetti open source e articoli / post di blog di aziende che descrivono la loro infrastruttura.

Il tema comune che hanno questi sistemi è la separazione della formazione del modello dall'applicazione del modello. Nei sistemi di produzione, l'applicazione del modello deve essere veloce, nell'ordine di 100s di ms, ma c'è più libertà nella frequenza con cui i parametri del modello adattati (o equivalenti) devono essere aggiornati.

Le persone utilizzano una vasta gamma di soluzioni per la formazione e la distribuzione dei modelli:

Costruisci un modello, quindi esportalo e distribuiscilo con PMML
- AirBnB descrive la formazione dei loro modelli in R / Python e la distribuzione di modelli PMML tramite OpenScoring.
- Pattern è un progetto relativo a Cascading che può utilizzare PMML e distribuire modelli predittivi.
Crea un modello in MapReduce e accedi ai valori in un sistema personalizzato
- Conjecture è un progetto open source di Etsy che consente l'addestramento del modello con Scalding , un wrapper scala più facile da usare su MapReduce e la distribuzione tramite Php.
- Kiji è un progetto open source di WibiData che consente il calcolo del punteggio dei modelli (applicazione) in tempo reale, nonché funzionalità per la persistenza dei dati degli utenti e dei modelli di addestramento su tali dati tramite Scalding.
Utilizzare un sistema online che consente l'aggiornamento continuo dei parametri del modello.
- Google ha pubblicato un ottimo documento su un filtro collaborativo online implementato per gestire i consigli in Google News.

— j_houg
fonte

7

Una delle spiegazioni più dettagliate e chiare sulla creazione di una complessa pipeline di analisi è quella di Twitch .
Offrono motivazioni dettagliate di ciascuna delle scelte di architettura per la raccolta, il trasporto, il coordinamento, l'elaborazione, l'archiviazione e l'interrogazione dei loro dati.
Lettura avvincente! Lo trovi qui e qui .

— tchakravarty
fonte

È davvero fantastico, esattamente quello che stavo cercando! Grazie mille :)

— chrshmmmr,

@chrshmmmr Prego. Non dimenticare di votare / contrassegnare come accettato se questo ha aiutato!

— Tchakravarty,

3

Questi collegamenti sembrano davvero molto utili, ma, di nuovo, sono collegamenti e credo che dovremmo sforzarci di mantenere le risposte indipendenti dalla stabilità delle fonti esterne. Quindi, sarebbe bello se potessi impiegare due o tre minuti per aggiungere, ad esempio, il diagramma da questo link , pubblicandolo insieme a una breve descrizione. Qualcosa nelle righe di: "Ad esempio, questo è il flusso di lavoro di un sistema ... <img>. Ulteriori informazioni sono disponibili in <link>."

— Rubens,

1

@Rubens Proporrò una modifica tra poco. fgnu: lo farà, solo bisogno di un po 'di più la reputazione di risposte in realtà upvote, ma certamente onorerò il vostro contributo :)

— chrshmmmr

@Rubens Quello non sarebbe altro che riprodurre le informazioni sul link. Vorrei che se ci fosse qualcosa che pensavo potesse aggiungere alla spiegazione già fornita lì.

— Tchakravarty,

3

Airbnb ed Etsy hanno recentemente pubblicato informazioni dettagliate sui loro flussi di lavoro.

— Trey
fonte

1

Il capitolo 1 di Practical Data Science with R ( http://www.manning.com/zumel/ ) presenta una grande suddivisione del processo di data science, inclusi i ruoli del team e il modo in cui si collegano a compiti specifici. Il libro segue i modelli illustrati nel capitolo facendo riferimento a quali fasi / personale questo o quel particolare compito sarebbe svolto.

— d8aninja
fonte