Che cosa sono esattamente i Big Data?


44

Mi è stato chiesto in diverse occasioni la domanda:

Cosa sono i Big Data?

Sia dagli studenti che dai miei parenti che stanno raccogliendo il buzz intorno alle statistiche e alla ML.

Ho trovato questo post CV . E sento di essere d'accordo con l'unica risposta lì.

Anche la pagina di Wikipedia contiene alcuni commenti, ma non sono sicuro di essere davvero d'accordo con tutto ciò che esiste.

EDIT: (Sento che la pagina di Wikipedia manchi di spiegare i metodi per affrontare questo e il paradigma che cito di seguito) .

Di recente ho partecipato a una conferenza di Emmanuel Candès , in cui ha introdotto il paradigma dei Big Data

Raccogli prima i dati Poni domande in seguito

Questa è la principale differenza rispetto alla ricerca guidata dall'ipotesi, in cui si formula prima un'ipotesi e quindi si raccolgono dati per dire qualcosa al riguardo.

Ha approfondito la questione della quantificazione dell'affidabilità delle ipotesi generate dallo snooping dei dati. La cosa principale che ho preso dalla sua lezione è che abbiamo davvero bisogno di iniziare a controllare la FDR e ha presentato il metodo knockoff per farlo.

Penso che il CV dovrebbe avere una domanda su cosa sono i Big-Data e qual è la tua definizione al riguardo. Sento che ci sono così tante "definizioni" diverse , che è difficile capire di cosa si tratta, o spiegarlo agli altri, se non vi è un consenso generale su ciò che consiste.

Sento che la "definizione / paradigma / descrizione" fornita da Candès è la cosa più vicina su cui sono d'accordo, quali sono i tuoi pensieri?

EDIT2: Sento che la risposta dovrebbe fornire qualcosa di più di una semplice spiegazione dei dati stessi. Dovrebbe essere una combinazione di dati / metodi / paradigma.

EDIT3: Sento che questa intervista con Michael Jordan potrebbe aggiungere qualcosa anche al tavolo.

EDIT4: ho deciso di scegliere la risposta più votata come quella corretta. Anche se penso che tutte le risposte aggiungano qualcosa alla discussione e personalmente ritengo che si tratti più di un paradigma di come generiamo ipotesi e di lavorare con i dati. Spero che questa domanda serva da pool di riferimenti per coloro che cercano i Big-Data. Spero che la pagina di Wikipedia venga modificata per enfatizzare ulteriormente il problema del confronto multiplo e il controllo della FDR.


55
"I big data sono come il sesso adolescenziale: tutti ne parlano, nessuno sa davvero come farlo, tutti pensano che tutti lo stiano facendo, quindi tutti affermano che lo stanno facendo." Simon Matthews
Alexander Lutsenko,

4
questa citazione non è più valida. Le persone stanno facendo molte opere straordinarie di recente. Se guardi alle competizioni su Kaggle, le aziende stanno migliorando i loro affari e stanno guadagnando un sacco di soldi spendendo non molti soldi. Altri esempi per le applicazioni dei Big Data sono disponibili qui: linkedin.com/pulse/…
Metariat,

5
@XuanQuangDO, sono d'accordo. Non prendere sul serio questa citazione.
Alexander Lutsenko,

6
@XuanQuangDO: beh, sono sicuro che alcuni adolescenti fanno sesso straordinario, ma ciò non cambia il fatto che ci sono anche un sacco di armeggi incompetenti o fuorvianti, che le persone derideranno senza pietà ;-)
Steve Jessop

Risposte:


54

Ho avuto il piacere di frequentare una conferenza tenuta dal Dr. Hadley Wickham, di fama di RStudio. Lo ha definito in modo tale

  • Big Data: impossibile inserire nella memoria di un computer:> 1 TB
  • Dati medi: si adatta alla memoria su un server: 10 GB - 1 TB
  • Piccoli dati: si adatta alla memoria di un laptop: <10 GB

Hadley ritiene inoltre che la maggior parte dei dati possa essere almeno ridotta a problemi gestibili e che una quantità molto piccola sia in realtà un vero big data. Indica questo come "Big Data Mirage".

  • 90% Può essere ridotto a un problema di dati di piccole / medie dimensioni con subimpostazione / campionamento / riepilogo
  • 9% Può essere ridotto a un numero molto elevato di piccoli problemi relativi ai dati
  • 1% È irriducibilmente grande

Le diapositive possono essere trovate qui .


2
@ GuðmundurEinarsson, l'ho appena modificato, grazie per il suggerimento.
Chris C,

5
Anche se non credo che esistano limiti netti, penso che questo post sia molto penetrante. Quando lavoravo in una società SW ho interagito con alcuni clienti alla ricerca di " soluzioni per big data "; in realtà hanno perso un SODIMM da 16 GB.
usεr11852 dice Reinstate Monic il

2
Con gli SSD da 1 TB al giorno d'oggi, l'archiviazione non volatile non è troppo lontana dall'archiviazione volatile in velocità. Sento che mi aspetto che i big data siano più grandi di 1 TB, forse almeno 50 TB o qualcosa del genere.
Mehrdad,

3
Con tutto il rispetto per te e Hadley, i dati delle offerte non riguardano solo il volume. Di solito i dati dell'offerta sono definiti tramite 3V e, più recentemente, modello 4V (proposto da Gartner) - vedere la risposta di Dawny33 di seguito. Tuttavia, alcuni esperti (incluso Gartner) ne considerano ancora un altro, e sostengono la più importante dimensione V, dove V sta per valore commerciale . Ad esempio, fai riferimento a questo post e a questo post .
Aleksandr Blekh,

2
@AleksandrBlekh Il tuo commento contiene sia una discussione sfumata sulla controversia che circonda i criteri per i "Big Data" tra gli esperti, sia alcuni riferimenti a supporto delle tue affermazioni al riguardo. Penso che dovresti considerare di convertirlo in una risposta.
Silverfish,

19

Un set di dati / flusso è chiamato Big Data, se soddisfa tutte e quattro le V.

  • Volume
  • Velocità
  • veracità
  • Varietà

A meno che e fino a quando non è soddisfatto, il set di dati non può essere definito come Big Data.

Una mia risposta simile, per riferimento.


Detto questo, come data scientist; Trovo davvero piacevole il framework Map-Reduce. La suddivisione dei dati, la mappatura e quindi i risultati del passaggio del mappatore vengono ridotti in un unico risultato. Trovo questo quadro davvero affascinante e come ha giovato al mondo dei dati.

E questi sono alcuni modi in cui gestisco quotidianamente il problema dei dati durante il mio lavoro:

  1. Database colonnari: questi sono un vantaggio per i data scientist. Uso Aws Red Shift come archivio dati colonnare. Aiuta a eseguire complesse query SQL e unisce meno problemi. Lo trovo davvero buono, specialmente quando il mio team di crescita fa alcune domande davvero complesse e non ho bisogno di dire "Sì, ho fatto una domanda; ce la faremmo in un giorno!"
  2. Spark e il Map Reduce Framework: i motivi sono stati spiegati sopra.

Ed è così che viene eseguito un esperimento di dati:

  • Viene identificato il problema a cui rispondere
  • Le possibili origini dati sono ora elencate.
  • Le pipeline sono progettate per ottenere i dati in Redshift da database locali. Sì, Spark viene qui. È davvero utile durante lo spostamento dei dati del DB -> S3 -> Redshift.
  • Quindi, le query e le analisi SQL vengono eseguite sui dati in Redshift.

Sì, ci sono algoritmi di Big Data come hyperloglog, ecc; ma non ho trovato la necessità di usarli.

Quindi sì. I dati vengono raccolti prima di generare l'ipotesi.


5
Sono d'accordo con queste cose, ma penso che il termine Big Data copra qualcosa di più dei dati stessi. Sono anche i metodi applicati ad esso e il paradigma di raccogliere prima i dati prima di generare ipotesi al riguardo.
Gumeo,

1
@ GuðmundurEinarsson Avevo fretta, quindi volevo darti la migliore risposta in breve tempo. Quindi, l'ho modificato e ampliato con il flusso di lavoro e le comprensioni delle mie esperienze quotidiane con dati di grandi dimensioni nel settore.
Dawny33,

1
Le quattro V vengono qui invertite come definizione di big data piuttosto che importanti proprietà notevoli dei big data. Si possono fare molti esempi di big data senza molti di questi 4 e alcuni sono persino elencati nell'infografica IBM.
Giovanni,

@Giovanni Sì, le V stanno davvero cambiando molto. C'è anche un argomento per una nuova V ( Valore )
Dawny33,

1
Non sto dicendo che stanno cambiando, sto dicendo che stai invertendo una descrizione di alcune proprietà in una definizione in modo errato. È come se qualcuno descrivesse loro cose importanti su un cane come lealtà, risate e leccate e qualcun altro venisse avanti e dicesse che è la definizione di cane. Detto questo, penso che tu sia stato più sulla strada giusta considerando di invertire la direzione dell'analisi, ma deve solo essere collegato alla dimensione dei dati in un certo modo. Penso che ci siano molti buoni modi per farlo e sarebbe fantastico se ne sviluppassi uno.
Giovanni,

14

Penso che l'unica definizione utile di big data siano i dati che catalogano tutte le informazioni su un particolare fenomeno. Quello che intendo con ciò è che invece di campionare da una popolazione di interesse e raccogliere alcune misurazioni su quelle unità, i big data raccolgono misurazioni su tutta la popolazione di interesse. Supponiamo che tu sia interessato ai clienti di Amazon.com. È perfettamente fattibile per Amazon.com raccogliere informazioni su tutti gli acquisti dei propri clienti, piuttosto che monitorare solo alcuni utenti o solo alcune transazioni.

A mio avviso, le definizioni che dipendono dalla dimensione della memoria dei dati stessi sono di utilità piuttosto limitata. Secondo quella metrica, dato un computer abbastanza grande, nessun dato è in realtà un grosso dato. All'estremo di un computer infinitamente grande, questo argomento potrebbe sembrare riduttivo, ma considera il caso di confrontare il mio laptop di qualità consumer con i server di Google. Chiaramente avrei enormi problemi logistici nel tentativo di setacciare un terabyte di dati, ma Google ha le risorse per gestire questo compito abbastanza facilmente. Ancora più importante, la dimensione del tuo computer non è una proprietà intrinseca dei dati , quindi definire i dati semplicemente in riferimento a qualsiasi tecnologia che hai a portata di mano è un po 'come misurare la distanza in termini di lunghezza delle tue braccia.

Questo argomento non è solo un formalismo. La necessità di complicati schemi di parallelizzazione e piattaforme di elaborazione distribuite scompare quando si dispone di una potenza di elaborazione sufficiente. Quindi, se accettiamo la definizione che i Big Data sono troppo grandi per adattarsi alla RAM (o si arresta in modo anomalo in Excel o altro), quindi dopo aver aggiornato le nostre macchine, i Big Data cessano di esistere. Sembra sciocco.

Ma diamo un'occhiata ad alcuni dati sui big data e chiamerò questo "Big Metadata". Questo post sul blog osserva una tendenza importante: la RAM disponibile sta aumentando più rapidamente delle dimensioni dei dati e afferma provocatoriamente che "La grande RAM sta mangiando i Big Data", ovvero, con un'infrastruttura sufficiente, non hai più un problema con i big data, devi solo disporre di dati e si ritorna al dominio dei metodi di analisi convenzionali.

Inoltre, diversi metodi di rappresentazione avranno dimensioni diverse, quindi non è esattamente chiaro cosa significhi avere "big data" definiti in riferimento alla sua dimensione in memoria. Se i tuoi dati sono costruiti in modo tale da archiviare molte informazioni ridondanti (ovvero, scegli una codifica inefficiente), puoi facilmente superare la soglia di ciò che il tuo computer è in grado di gestire prontamente. Ma perché vorresti che una definizione avesse questa proprietà? A mio avviso, il fatto che il set di dati sia o meno "big data" non dovrebbe dipendere dal fatto che tu abbia fatto o meno delle scelte efficaci nel design della ricerca.

104107osservazioni, e va benissimo. Ciò implica anche che i big data, secondo la mia definizione, potrebbero non aver bisogno di una tecnologia specializzata oltre a quella che abbiamo sviluppato nelle statistiche classiche: campioni e intervalli di confidenza sono ancora strumenti inferenziali perfettamente utili e validi quando è necessario estrapolare. I modelli lineari possono fornire risposte perfettamente accettabili ad alcune domande. Ma i big data, come lo definisco, potrebbero richiedere una nuova tecnologia. Forse è necessario classificare nuovi dati in una situazione in cui si hanno più predittori rispetto ai dati di addestramento o in cui i predittori crescono con la dimensione dei dati. Questi problemi richiederanno una tecnologia più recente.


A parte questo, penso che questa domanda sia importante perché tocca implicitamente il motivo per cui le definizioni sono importanti, cioè per chi stai definendo l'argomento. Una discussione sull'aggiunta per i principianti non inizia con la teoria degli insiemi, inizia con il riferimento al conteggio degli oggetti fisici. È stata la mia esperienza che la maggior parte dell'uso del termine "big data" avviene nella stampa popolare o nelle comunicazioni tra persone che non sono specializzate in statistica o apprendimento automatico (materiali di marketing che richiedono analisi professionali, ad esempio), ed è abituato a esprimere l'idea che le moderne pratiche informatiche significano che esiste una ricchezza di informazioni disponibili che possono essere sfruttate. Questo è quasi sempre nel contesto dei dati che rivelano informazioni sui consumatori che sono, forse se non private, non immediatamente evidenti.

Quindi la connotazione e l'analisi che circonda l'uso comune dei "big data" portano anche con sé l'idea che i dati possano rivelare dettagli oscuri, nascosti o persino privati ​​della vita di una persona, a condizione che l'applicazione di un metodo inferenziale sufficiente. Quando i media parlano di big data, questo deterioramento dell'anonimato di solito è ciò a cui stanno guidando: definire quali "big data" sia in qualche modo fuorviato in questa luce, perché la stampa popolare e i non specialisti non si preoccupano dei meriti del casuale foreste e supportano macchine vettoriali e così via, né hanno un'idea delle sfide dell'analisi dei dati su scale diverse. E questo va bene.La preoccupazione dal loro punto di vista è centrata sulle conseguenze sociali, politiche e legali dell'era dell'informazione. Una definizione precisa per i media o per i non specialisti non è davvero utile perché la loro comprensione non è nemmeno precisa. (Non pensarmi compiaciuto, sto semplicemente osservando che non tutti possono essere esperti in tutto.)


7
Questo. "È stata la mia esperienza che la maggior parte dell'uso del termine" big data "si verifica nella stampa popolare o nelle comunicazioni tra persone che non sono specializzate in statistica o apprendimento automatico (materiali di marketing che richiedono analisi professionali, ad esempio)"
Momo

2
Penso che tu abbia colpito l'unghia sulla testa con il tuo ultimo paragrafo. Penso che ci sia un divario molto chiaro tra la comprensione della stampa popolare e ciò che le persone in statistica / ML / Data science pensano del termine big data. Sento solo che deve esserci un consenso più chiaro su ciò che è realmente. Uno dei motivi è quello di avere un riferimento in modo tale che le persone non possano manipolare il termine o abusarne quando ovviamente non è applicabile.
Gumeo,

1
Penso che sto iniziando ad essere sempre più d'accordo con te. Sento ancora che il CV ha bisogno di una domanda di riferimento, in cui le persone interessate e interessate all'argomento mettano i loro due centesimi sulla questione. Stavo cercando domande qui e ho sentito che questa discussione mancava.
Gumeo,

1
Penso che questa sia una conversazione preziosa da avere, e sono felice che tu abbia posto la domanda! E sono contento che tu abbia trovato utili i miei commenti.
Ripristina Monica il

1
Adoro questa risposta per diversi motivi. Innanzitutto, penso che sia davvero importante sottolineare che i "big data" hanno poco a che fare con gli algoritmi utilizzati per analizzarli. La maggior parte di loro ha 20-30 anni (foresta casuale, regressione lineare, ecc.) E funzionano perfettamente. Alcune persone del settore ritengono che i "big data" si uniscano a nuovi algoritmi fantasiosi, perché probabilmente non sapevano nemmeno che l'apprendimento automatico esiste da molti anni. In secondo luogo, i "big data" non riguardano le dimensioni. Se hai un server disponibile con 128 Gb di RAM e puoi inserire tutto nella memoria che è semplicemente eccezionale. (cont.)
skd

7

inserisci qui la descrizione dell'immagine

Attraverso il controllo incrociato della vasta letteratura sui Big Data, ho raccolto fino a 14 termini "V", 13 dei quali lungo circa 11 dimensioni:

  • Validità,
  • Valore,
  • Variabilità / Varianza,
  • Varietà,
  • Velocità,
  • Veracity / Veraciousness,
  • Viabilità,
  • Virtuality,
  • visualizzazione,
  • Volatilità,
  • Volume.

Il 14 ° termine è Vacuity. Secondo un recente post provocatorio, i Big Data non esistono . I suoi punti principali sono:

  • "Big Data" non è grande
  • La maggior parte dei "Big Data" non è effettivamente utile
  • [Dovremmo essere] Ottenere il massimo dai piccoli dati

Una corretta definizione di Big Data si evolverebbe con hardware, software, esigenze e conoscenze e probabilmente non dovrebbe dipendere da una dimensione fissa. Da qui la definizione intercettabile in Big data: la prossima frontiera per innovazione, concorrenza e produttività , giugno 2011:

"Big data" si riferisce a set di dati le cui dimensioni vanno oltre la capacità dei tipici strumenti software di database di acquisire, archiviare, gestire e analizzare.


1
L'articolo di riferimento "vacuità" sembra terribilmente debole. C'è un'implicazione che 30 GB di dati / giorno non sono grandi (e quella dimensione è l'unico componente della definizione). Inoltre, si sostiene che, poiché le aziende affermano che i loro dati sono molto più grandi di quanto non siano in realtà, significa che non sono grandi. Non esiste una definizione di big data da nessuna parte. E tutti gli esempi usati per suggerire "non grandi" hanno molti dei V elencati qui.
Giovanni,

La "vacuità" non si applica solo alla dimensione. In effetti, nell'ultimo one-liner, la definizione di big è destinata a evolversi con lo stato attuale della pratica. Ciò che era grande in passato può essere considerato piccolo qualche anno dopo. Qui, stavo usando il termine per il caso in cui i "big data" sono usati come un mantra magico con poca sostanza, come illustrato nel fumetto sopra.
Laurent Duval,

1
Quanto è probabile che 14 criteri inizieranno tutti con una lettera V? Siamo tutte persone attente alle statistiche qui, andiamo!
Aksakal,

Fondamentalmente, sono d'accordo, questo è stato solo per dimostrare che un termine come Big data ha più probabilità di appartenere al regno del marketing rispetto alle statistiche. Tuttavia, volevo condividere la mia "raccolta" dei termini che ho letto. È iniziato con 3V, poi 5V e talvolta 7 ecc. Questi termini possono vagamente aiutare a individuare i tratti sui dati che uno ha
Laurent Duval,

4

Le persone sembrano fissarsi su un grande qualificatore nei Big Data. Tuttavia, la dimensione è solo uno dei componenti di questo termine (dominio). Non è sufficiente che il tuo set di dati fosse grande per chiamare il tuo problema (dominio) un grande dato, devi anche essere difficile da capire, analizzare e persino elaborare. Alcuni chiamano questa funzione non strutturata , ma non è solo la struttura, ma è anche una relazione poco chiara tra diversi pezzi ed elementi di dati.

Considera i set di dati che i fisici delle alte energie stanno lavorando in luoghi come il CERN . Lavorano con dati sulle dimensioni dei petabyte per anni prima che il termine Big Data fosse coniato. Eppure anche ora non chiamano questi big data per quanto ne so. Perché? Poiché i dati sono piuttosto regolari, sanno cosa farne. Potrebbero non essere ancora in grado di spiegare ogni osservazione, quindi lavorano su nuovi modelli ecc.

Ora chiamiamo Big Data i problemi che riguardano set di dati che hanno dimensioni che potrebbero essere generati in pochi secondi da LHC nel CERN. Il motivo è che questi set di dati sono generalmente costituiti da elementi di dati provenienti da moltissime fonti con formati diversi, relazioni poco chiare tra i dati e valore incerto per l'azienda. Potrebbe essere solo 1 TB, ma è così difficile elaborare tutto l'audio, il vidio, i testi, i discorsi, ecc. Quindi, in termini di complessità e risorse necessarie, questo supera i petabyte dei dati del CERN. Non sappiamo nemmeno se ci sono informazioni utili riconoscibili nei nostri set di dati.

Quindi, la risoluzione dei problemi dei Big Data comporta l'analisi, l'estrazione di elementi di dati di valore sconosciuto, quindi il collegamento tra loro. "Analizzare" un'immagine può essere un grosso problema da solo. Ad esempio, stai cercando filmati CCTV dalle strade della città, cercando di vedere se le persone si arrabbiano e se incidono sugli incidenti stradali che coinvolgono i pedoni. C'è un sacco di video, trovi i volti, prova a misurare il loro umore in base alle espressioni, quindi collega questo al numero di set di dati sugli incidenti, rapporti della polizia ecc., Il tutto controllando il tempo (precitipotazione, temperatura) e le congestioni del traffico. Sono necessari gli strumenti di archiviazione e di analisi che supportano questi grandi set di dati di diverso tipo e possono collegare in modo efficiente i dati tra loro.

I Big Data sono un problema di analisi complesso in cui la complessità deriva sia dalle dimensioni che dalla complessità della struttura e della codifica delle informazioni in esso contenute.


Buon input. Il contrasto che dai tra LHC e il problema dei dati TVCC è qualcosa che la gente spesso manca.
Gumeo,

3

Penso che il motivo per cui le persone si confondono su ciò che è Big Data è che non ne vedono i benefici. Il valore dei Big Data (tecnica) non è solo sulla quantità di dati che è possibile raccogliere, ma anche sulla modellazione predittiva, che alla fine è più importante:

  1. La modellazione predittiva è cambiata completamente nel modo in cui facciamo statistiche e previsioni, ci dà una visione più approfondita dei nostri dati, perché nuovi modelli, nuove tecniche possono rilevare meglio le tendenze, i rumori dei dati, possono catturare database "multi" tridimensionali. Più dimensioni abbiamo nel nostro database, maggiori sono le possibilità di creare il modello valido. La modellazione predittiva è il cuore del valore dei Big Data.
  2. Big Data (in termini di dimensioni dei dati) è il passaggio preliminare, ed è lì per servire la modellazione predittiva: arricchire il database rispetto a: 1.numero di predittori (più variabili), 2.numero di osservazioni.

Altri predittori perché ora siamo in grado di acquisire i dati che prima erano impossibili da acquisire (a causa della potenza hardware limitata, della capacità limitata di lavorare sui dati non strutturati). Più predittori significano maggiori possibilità di avere i predittori significativi, vale a dire un modello migliore, una previsione migliore, una migliore decisione da prendere per l'azienda.

Più osservazioni non solo rendono il modello più robusto nel tempo, ma aiutano anche il modello ad apprendere / rilevare tutti i possibili schemi che possono essere presentati / generati nella realtà.


3

La cosa difficile di Big Data vs. il suo antonimo (presumibilmente Small Data?) È che è un continuum. I big data sono andati da un lato dello spettro, i piccoli data sono andati dall'altro, ma non c'è una linea chiara nella sabbia su cui tutti possano essere d'accordo.

Vorrei esaminare le differenze comportamentali tra i due. In situazioni di dati di piccole dimensioni, hai un set di dati "piccolo" e cerchi di spremere quante più informazioni possibili su ogni punto dati che puoi. Ottieni più dati, puoi ottenere più risultati. Tuttavia, ottenere più dati può essere costoso. I dati raccolti vengono spesso vincolati per adattarsi a modelli matematici, come fare un fattoriale parziale di test per verificare comportamenti interessanti.

In situazioni di big data, hai un set di dati "grande", ma il tuo set di dati tende a non essere così limitato. Di solito non riesci a convincere i tuoi clienti ad acquistare un mobile quadrato latino, solo per facilitare l'analisi. Invece si tende ad avere goccioline di dati scarsamente strutturati. Per risolvere questi problemi, l'obiettivo tende a non essere "selezionare i dati migliori e comprimere tutto ciò che è possibile", come si potrebbe tentare ingenuamente se si è abituati a dati di piccole dimensioni. L'obiettivo tende ad essere più sulla falsariga di "se riesci a ottenere un piccolo smidgen da ogni singolo punto dati, la somma sarà enorme e profonda".

Tra loro si trovano i set di dati di medie dimensioni, con una struttura a posto. Questi sono i "problemi davvero difficili", quindi in questo momento tendiamo ad organizzarci in due campi: uno con piccoli dati che ne schiacciano ogni ultimo bit e l'altro con grandi dati che cercano di far sì che ogni punto di dati risplenda nel suo giusto. Mentre procediamo, mi aspetto di vedere più processi di piccoli dati che provano ad adattarsi a insiemi di dati più grandi e più processi di grandi quantità di dati che provano ad adattarsi per sfruttare dati più strutturati.


La tua caratterizzazione di piccoli dati sembra molto simile al libro sull'analisi di Bem. Si prega di cercare le critiche di ciò perché è un modo inappropriato di trattare piccoli set di dati diversi dall'esplorazione privata su cui basare la raccolta di dati futura.
Giovanni,

@John Potrei dover guardare quelli. Le critiche sono sufficienti per non poter nemmeno usare la caratterizzazione come punto per descrivere un continuum?
Cort Ammon,

È davvero troppo lungo entrare qui, ma il messaggio essenziale è che non spremere tutto ciò che è possibile da ogni punto dati con piccoli dati. Forse google Gelman e Forking Paths; o, gradi di libertà dello sperimentatore. Devi pensare all'analisi di piccoli e grandi dati in modo diverso, non solo come punti di un continuum.
Giovanni,

3

Direi che ci sono tre componenti essenziali per la definizione dei big data: la direzione dell'analisi, la dimensione dei dati rispetto alla popolazione e la dimensione dei dati rispetto ai problemi computazionali.

La stessa domanda pone che le ipotesi sono sviluppate dopo che i dati esistono. Non uso "raccolto" perché penso che la parola "raccolto" implichi uno scopo e che i dati spesso esistono senza uno scopo noto al momento. La raccolta avviene spesso nei big data riunendo i dati esistenti al servizio di una domanda.

Una seconda parte importante è che non sono solo i dati per i quali è appropriata l'analisi post hoc, quella che si potrebbe chiamare analisi esplorativa con set di dati più piccoli. Deve essere di dimensioni sufficienti da ritenere che le stime da esso raccolte siano abbastanza vicine alle stime della popolazione che è possibile ignorare molte piccole problematiche campionarie. Per questo motivo sono un po 'preoccupato che in questo momento ci sia una spinta nel campo verso correzioni multiple di confronto. Se hai avuto l'intera popolazione o un'approssimazione che hai buone ragioni per ritenere valida, tali correzioni dovrebbero essere discutibili. Mentre mi rendo conto che a volte si presentano problemi che in realtà trasformano i "big data" in un piccolo campione (ad esempio grandi regressioni logistiche), ciò si riduce alla comprensione di cosa sia un grande campione per una domanda specifica. Molte delle domande a confronto multiplo dovrebbero invece essere rivolte a domande sulla dimensione dell'effetto. E, naturalmente, l'idea che useresti i test con alpha = 0,05, come molti fanno ancora con i big data, è semplicemente assurda.

E infine, le piccole popolazioni non si qualificano. In alcuni casi esiste una piccola popolazione e si possono raccogliere tutti i dati necessari per esaminarli molto facilmente e consentire il rispetto dei primi due criteri. I dati devono essere sufficientemente grandi da diventare un problema computazionale. Pertanto, in un certo senso, dobbiamo ammettere che "big data" può essere una parola d'ordine transitoria e forse un fenomeno perpetuamente alla ricerca di una definizione rigorosa. Alcune delle cose che rendono grandi i "big data" ora svaniranno in pochi anni e definizioni come quella di Hadley, basate sulla capacità del computer, sembreranno pittoresche. Ma ad un altro livello i problemi computazionali sono domande che non riguardano la capacità del computer o forse la capacità del computer che non possono mai essere affrontate. Penso che in questo senso i problemi di definizione "

Si potrebbe notare che non ho fornito esempi o definizioni ferme di quale sia un problema computazionale difficile per questo dominio (ci sono molti esempi generalmente in scienze della scienza e alcuni applicabili, in cui non entrerò). Non ne voglio fare nessuno perché penso che dovrà rimanere un po 'aperto. Nel tempo, le opere raccolte da molte persone si uniscono per rendere queste cose facili, più spesso attraverso lo sviluppo di software rispetto all'hardware a questo punto. Forse il campo dovrà maturare più pienamente al fine di rendere quest'ultimo limite più solido, ma i bordi saranno sempre sfocati.


grazie per il tuo contributo! Penso che tu fornisca preziose informazioni per questo thread. Penso che la dimensione dei dati sulla popolazione sia stata in qualche modo trascurata qui.
Gumeo,

1

Wikipedia fornisce una definizione abbastanza chiara

Big data è un termine generico per insiemi di dati così grandi o complessi che le applicazioni tradizionali di elaborazione dei dati sono inadeguate. (fonte https://en.wikipedia.org/wiki/Big_data )

altra semplice definizione che conosco è

Dati che non si adattano alla memoria del computer.

Purtroppo non ricordo il riferimento per questo. Tutto il resto emerge da queste definizioni: devi gestire in qualche modo grandi quantità di dati.


0

Vorrei aggiungere che i Big Data sono un riferimento a lavorare su grandi insiemi di dati (milioni e / o miliardi di righe) o cercare di trovare informazioni / modelli su ampie risorse di dati che è possibile raccogliere ora ovunque.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.