Case study sui big data o esempio di utilizzo


13

Ho letto molti blog \ articoli su come i diversi tipi di settori utilizzano Big Data Analytic. Ma la maggior parte di questi articoli non menziona

  1. Che tipo di dati hanno usato queste aziende. Qual era la dimensione dei dati
  2. Che tipo di strumenti utilizzavano le tecnologie per elaborare i dati
  3. Qual era il problema che stavano affrontando e in che modo le informazioni acquisite sui dati li hanno aiutati a risolvere il problema.
  4. Come hanno selezionato lo strumento \ la tecnologia per soddisfare le loro esigenze.
  5. Che tipo di pattern hanno identificato dai dati e che tipo di pattern stavano osservando dai dati.

Mi chiedo se qualcuno possa fornirmi una risposta a tutte queste domande o un link che almeno risponda ad alcune delle domande. Sto cercando un esempio del mondo reale.

Sarebbe bello se qualcuno condividesse il modo in cui l'industria finanziaria utilizza Big Data Analytic.

Risposte:


14

Le agenzie di stampa tendono a usare i "Big Data" piuttosto vagamente. I venditori di solito forniscono casi studio riguardanti i loro prodotti specifici. Non ci sono molti là fuori per le implementazioni open source, ma vengono menzionate. Ad esempio, Apache non trascorrerà molto tempo a costruire un case study su hadoop, ma probabilmente lo faranno venditori come Cloudera e Hortonworks.

Ecco un esempio di case study di Cloudera nel settore finanziario.

Citando lo studio:

Un importante conglomerato globale di servizi finanziari utilizza Cloudera e Datameer per identificare le attività di trading non autorizzate. I team all'interno del gruppo di gestione patrimoniale dell'azienda stanno eseguendo analisi ad hoc sui feed giornalieri di prezzo, posizione e informazioni sugli ordini. Avere un'analisi ad hoc per tutti i dati dettagliati consente al gruppo di rilevare anomalie in determinate classi di attività e identificare comportamenti sospetti. Gli utenti si affidavano in precedenza esclusivamente agli strumenti per fogli di calcolo desktop. Ora, con Datameer e Cloudera, gli utenti dispongono di una potente piattaforma che consente di setacciare più dati più rapidamente e di evitare potenziali perdite prima che inizino.

.

Una delle principali banche al dettaglio utilizza Cloudera e Datameer per convalidare l'accuratezza e la qualità dei dati, come richiesto dal Dodd-Frank Act e da altre normative. Integrando i dati sui prestiti e sulle filiali nonché i dati sulla gestione patrimoniale, l'iniziativa sulla qualità dei dati della banca è responsabile di garantire che ogni record sia accurato. Il processo include l'assoggettamento dei dati a oltre 50 integrità dei dati e controlli di qualità. I risultati di tali controlli sono stati modificati nel tempo per garantire che le tolleranze per la corruzione dei dati e i domini dei dati non cambino negativamente e che i profili di rischio segnalati agli investitori e alle agenzie di regolamentazione siano prudenti e conformi ai requisiti normativi. I risultati sono comunicati tramite un pannello di controllo della qualità dei dati al Chief Risk Officer e al Chief Financial Officer,

Non ho visto altri studi finanziari relativi a Cloudera, ma non ho cercato molto duramente. Puoi dare un'occhiata alla loro biblioteca qui.

Inoltre, Hortonworks ha un case study sulle strategie di trading in cui ha visto una riduzione del 20% del tempo impiegato per sviluppare una strategia sfruttando K-mean, Hadoop e R.

Ogni colore indica un gruppo di strategie con probabilità simile di profitti e perdite

come il sistema di trading è stato migliorato utilizzando Hadoop (Hortonworks Data Platform) e l'algoritmo k-mean

Questi non rispondono a tutte le tue domande. Sono abbastanza sicuro che entrambi questi studi abbiano coperto la maggior parte di essi. Non vedo nulla sulla selezione degli utensili in particolare. Immagino che i rappresentanti di vendita abbiano avuto molto a che fare con l'implementazione del prodotto complessivo, ma i data scientist stessi hanno sfruttato gli strumenti con cui erano più a loro agio. Non ho molta conoscenza di quell'area nello spazio dei big data.


1
Grazie. Questo è molto utile So che è uno spazio di bug e non esiste una risposta giusta. Sono molto interessato a sapere come si selezionano gli strumenti e la tecnologia dei big data in base alle proprie esigenze. Non sto contrassegnando questa come la risposta giusta per ora, ma sicuramente merita molti voti UP. Saluti :)
Brown_Dynamite,

6

Financial Services è un grande utente di Big Data e anche innovatore. Un esempio è il trading di obbligazioni ipotecarie. Per rispondere alle tue domande:

Che tipo di dati hanno usato queste aziende. Qual era la dimensione dei dati?

  • Lunghe storie di ogni mutuo emesso negli ultimi anni e pagamenti mensili contro di loro. (Miliardi di file)
  • Lunghe storie di storie di credito. (Miliardi di file)
  • Indici dei prezzi delle abitazioni. (Non così grande)

Che tipo di strumenti hanno usato le tecnologie per elaborare i dati?

Varia. Alcuni usano soluzioni interne basate su database come Netezza o Teradata. Altri accedono ai dati tramite i sistemi forniti dai fornitori di dati. (Corelogic, Experian, ecc.) Alcune banche usano tecnologie di database a colonne come KDB o 1010data.

Qual era il problema che stavano affrontando e in che modo le informazioni acquisite sui dati li hanno aiutati a risolvere il problema.

La questione chiave è determinare quando le obbligazioni ipotecarie (titoli garantiti da ipoteca) pagheranno in anticipo o in default. Ciò è particolarmente importante per le obbligazioni prive della garanzia del governo. Scavando nella cronologia dei pagamenti, nei file di credito e comprendendo il valore attuale della casa, è possibile prevedere la probabilità di un default. L'aggiunta di un modello di tasso di interesse e un modello di pagamento anticipato aiuta anche a prevedere la probabilità di un pagamento anticipato.

Come hanno selezionato lo strumento \ la tecnologia per soddisfare le loro esigenze.

Se il progetto è guidato dall'IT interno, di solito si basa su un grande fornitore di database come Oracle, Teradata o Netezza. Se è guidato dalle richieste, è più probabile che vadano direttamente dal fornitore dei dati o da un sistema "All in" di terze parti.

Che tipo di pattern hanno identificato dai dati e che tipo di pattern stavano osservando dai dati.

100,000,000Beiongworththun'tun'mount,orun'Sliottleun'S


Hai visto casi in cui le tecniche di apprendimento automatico vengono utilizzate per la modellazione del pagamento anticipato. Cioè reti neurali, foresta casuale, GBM?
Josh,

5

Kaggle ha un breve riassunto delle domande:

Revolution Analytics ha pubblicato molti casi studio generali, schede tecniche e white paper:

Per le applicazioni in scienze e ingegneria, puoi consultare i case study Nutonian :

Analyx ha informato i potenziali clienti delle applicazioni in commercio:

Il Financial Times ha pubblicato una raccolta di storie su applicazioni aziendali di big data:

McKinsey ha delineato le applicazioni nel 2011:

Altre società di consulenza hanno presentato relazioni simili.

Gartner ha creato Hype Cycle per Big Data:

inserisci qui la descrizione dell'immagine

Per non parlare dei casi studio e dei white paper di altre aziende che vogliono promuovere i propri prodotti.


1

Dai un'occhiata ai report sui dati gratuiti di O'Reilly . Puoi trovare rapporti su Banking e Fintech, Sport, Moda, Musica, Salute, Petrolio e gas e così via.

Tieni presente che il rapporto McKinsey menzionato in precedenza è un rapporto classico e assolutamente da leggere.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.