Cerca ad esempio stack di infrastrutture / flussi di lavoro / condutture


14

Sto cercando di capire come tutti i componenti dei "big data" giocano insieme in un caso d'uso reale, ad esempio hadoop, monogodb / nosql, storm, kafka, ... So che si tratta di una vasta gamma di strumenti utilizzati per tipi diversi, ma mi piacerebbe conoscere meglio la loro interazione con le applicazioni, ad esempio pensando al machine learning per un'app, una webapp, un negozio online.

Ho vistors / session, dati di transazione ecc. E li conservo; ma se voglio dare consigli al volo, non posso eseguire la mappatura lenta / ridurre i lavori per questo su alcuni grandi database di registri che ho. Dove posso saperne di più sugli aspetti dell'infrastruttura? Penso di poter usare la maggior parte degli strumenti da soli, ma collegarli l'uno con l'altro sembra essere un'arte a sé stante.

Ci sono esempi / casi d'uso pubblici disponibili? Capisco che le singole condutture dipendono fortemente dal caso d'uso e dall'utente, ma probabilmente solo gli esempi mi saranno molto utili.


Hai fatto qualche ricerca su questo? Ci sono molti video di YouTube e presentazioni di diapositive che descrivono diverse architetture
Stanpol,

1
Ehi Stanpol, grazie per la tua risposta - ho fatto alcune ricerche iniziali e in realtà non ho trovato nulla oltre a AWS e cose cloudera - forse se puoi darmi alcuni termini di ricerca che sono promettenti, sarò felice di prenderlo da lì.
chrshmmmr,

Risposte:


14

Per comprendere la varietà dei modi in cui l'apprendimento automatico può essere integrato nelle applicazioni di produzione, penso che sia utile esaminare progetti open source e articoli / post di blog di aziende che descrivono la loro infrastruttura.

Il tema comune che hanno questi sistemi è la separazione della formazione del modello dall'applicazione del modello. Nei sistemi di produzione, l'applicazione del modello deve essere veloce, nell'ordine di 100s di ms, ma c'è più libertà nella frequenza con cui i parametri del modello adattati (o equivalenti) devono essere aggiornati.

Le persone utilizzano una vasta gamma di soluzioni per la formazione e la distribuzione dei modelli:


7

Una delle spiegazioni più dettagliate e chiare sulla creazione di una complessa pipeline di analisi è quella di Twitch .
Offrono motivazioni dettagliate di ciascuna delle scelte di architettura per la raccolta, il trasporto, il coordinamento, l'elaborazione, l'archiviazione e l'interrogazione dei loro dati.
Lettura avvincente! Lo trovi qui e qui .


È davvero fantastico, esattamente quello che stavo cercando! Grazie mille :)
chrshmmmr,

@chrshmmmr Prego. Non dimenticare di votare / contrassegnare come accettato se questo ha aiutato!
Tchakravarty,

3
Questi collegamenti sembrano davvero molto utili, ma, di nuovo, sono collegamenti e credo che dovremmo sforzarci di mantenere le risposte indipendenti dalla stabilità delle fonti esterne. Quindi, sarebbe bello se potessi impiegare due o tre minuti per aggiungere, ad esempio, il diagramma da questo link , pubblicandolo insieme a una breve descrizione. Qualcosa nelle righe di: "Ad esempio, questo è il flusso di lavoro di un sistema ... <img>. Ulteriori informazioni sono disponibili in <link>."
Rubens,

1
@Rubens Proporrò una modifica tra poco. fgnu: lo farà, solo bisogno di un po 'di più la reputazione di risposte in realtà upvote, ma certamente onorerò il vostro contributo :)
chrshmmmr

@Rubens Quello non sarebbe altro che riprodurre le informazioni sul link. Vorrei che se ci fosse qualcosa che pensavo potesse aggiungere alla spiegazione già fornita lì.
Tchakravarty,

3

Airbnb ed Etsy hanno recentemente pubblicato informazioni dettagliate sui loro flussi di lavoro.


1

Il capitolo 1 di Practical Data Science with R ( http://www.manning.com/zumel/ ) presenta una grande suddivisione del processo di data science, inclusi i ruoli del team e il modo in cui si collegano a compiti specifici. Il libro segue i modelli illustrati nel capitolo facendo riferimento a quali fasi / personale questo o quel particolare compito sarebbe svolto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.