Qual è la definizione di "Big Data"?


23

Ce n'è uno?

Tutte le definizioni che posso trovare descrivono le dimensioni, la complessità / varietà o la velocità dei dati.

La definizione di Wikipedia è l'unica che ho trovato con un numero reale

Le dimensioni dei big data sono un obiettivo in costante movimento, a partire dal 2012 che vanno da alcune decine di terabyte a molti petabyte di dati in un singolo set di dati.

Tuttavia, ciò sembra contraddire la definizione di MIKE2.0 , a cui si fa riferimento nel paragrafo successivo, che indica che i dati "grandi" possono essere piccoli e che 100.000 sensori su un aeromobile che creano solo 3 GB di dati potrebbero essere considerati grandi.

IBM nonostante abbia detto che:

I big data sono più semplicemente una questione di dimensioni.

hanno enfatizzato le dimensioni nella loro definizione .

Anche O'Reilly ha sottolineato "volume, velocity and variety" . Sebbene spiegata bene, e in modo più approfondito, la definizione sembra essere una ri-hash degli altri - o viceversa ovviamente.

Penso che un computer articolo settimanale titolo riassume una serie di articoli abbastanza bene "Qual è il big data e come può essere utilizzato per ottenere un vantaggio competitivo" .

Ma ZDNet vince con i seguenti dal 2012 :

"Big Data" è una frase che sta ribollendo dalla nicchia informatica ad alte prestazioni del mercato IT ... Se si passano attraverso le presentazioni di dieci fornitori di tecnologia, è probabile che vengano presentate circa quindici definizioni diverse. Ogni definizione, ovviamente, tende a supportare la necessità di prodotti e servizi di quel fornitore. Immaginalo.

Fondamentalmente "big data" è "grande" in qualche modo forma o forma.

Cosa è "grande"? È quantificabile al momento?

Se "big" non è quantificabile, esiste una definizione che non si basa esclusivamente sulle generalità?


7
"Cosa è" grande "? È quantificabile al momento?". Sicuro. Big è più di quanto tu possa gestire al momento;)
Oded

1
@Oded, dovresti definire "handle" quindi :-).
Ben

14
Se devi chiedere, il tuo non è abbastanza grande da contare. ;)
FrustratedWithFormsDesigner

@Ben - È definito in modo diverso per ogni individuo e sistema ...
Oded,

4
"Grande" molto probabilmente si riferisce a "difficile da gestire". Abbastanza per non adattarsi alla memoria, riempire il disco, impiegare del tempo per il trasferimento in rete, ecc.

Risposte:


42

Non ce n'è uno; è una parola d'ordine.

Il delineatore è che i tuoi dati vanno oltre le capacità dei sistemi tradizionali. I dati sono troppo grandi per essere archiviati sul disco più grande, le query impiegano troppo tempo senza un'ottimizzazione speciale, la rete o il disco non sono in grado di supportare il flusso di traffico in entrata, una semplice vecchia visualizzazione dati non gestirà la visualizzazione per la forma / dimensione / ampiezza dei dati ...

Fondamentalmente, che i tuoi dati vanno oltre un punto di svolta poco definito in cui "aggiungi solo più hardware" non li taglierà.


+1 e inoltre, ciò che conta come "grande" cambia sempre man mano che l'hardware migliore raggiunge e strumenti precedentemente personalizzati diventano maturi, standardizzati e venduti commercialmente per affrontare tali problemi.
FrustratedWithFormsDesigner

In altre parole: no, no idea, no, no :-).
Ben

Inoltre, prima che i big data diventassero una cosa importante, molte aziende e istituti di ricerca facevano già cose sui big data. Solo ora con tutte le sfide dei big data sui social media / online è diventato il flusso principale.
Paul Hiemstra,

2

Come indicato nel collegamento Oracle (commento di Immad Careem) oracle.com/us/technologies/big-data/index.html. I Big Data sono tutto ciò che non è un dato relazionale archiviato in un RDBMS. Pochi anni prima dell'hype erano solo "molti dati". Ora è cresciuto ed è stato promosso dai professionisti del marketing come una specie di dati speciali.

Esistono diversi motivi secondari (oltre al marketing) per considerare i Big Data una cosa reale.

  1. Invenzione della riduzione della mappa
  2. Tecnologie NOSQL come Hadoop
  3. Alcuni sviluppi nel RDBMS tradizionale influenzati dalla domanda di tipi di dati non strutturati
  4. Forse alcune tecnologie hardware offerte dalla società EMC2

2
"Invenzione della riduzione della mappa"? Stai scherzando.
Telastyn,

1
"Tutto ciò che non è dati relazionali" è una definizione che potrebbe provenire solo da qualcuno centrato su RDB come Oracle (ed è sbagliato). In base a tale definizione, ogni indice SolR, ogni database MongoDB e ogni DB Berkley sono "big data". E questo è solo stupido.
Joachim Sauer

0

Usando la risposta di Doug Laney come punto di partenza, abbiamo retroingegnerizzato un elenco di definizioni di Big Data, ora oltre 30 e andando forte. Il nostro elenco di definizioni per "Big Data" si trova qui .

Diamo il benvenuto a correzioni, voci, grafici, ecc.


-1

È bello vedere O'Reilly e altri finalmente attaccarsi alle 3V di big data di Gartner che abbiamo introdotto per la prima volta oltre 11 anni fa. Per riferimento, ecco il pezzo originale che ho scritto nel 2001: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

La definizione recentemente aggiornata di Gartner riconosce anche l'aspetto del valore: "I Big Data sono risorse informative con volumi, velocità e / o varietà che richiedono forme innovative di elaborazione delle informazioni per una scoperta approfondita, processi decisionali e automazione dei processi".

Abbiamo anche sviluppato un metodo per quantificare la grandezza dei dati lungo i tre vettori che sono prescrittivi in ​​termini di adozione della tecnologia. Tuttavia non posso condividerlo pubblicamente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.