Il campionamento è rilevante ai tempi dei "big data"?


54

O più così "sarà"? I Big Data rendono le statistiche e le conoscenze pertinenti ancora più importanti, ma sembrano sottovalutare la teoria del campionamento.

Ho visto questo clamore intorno a "Big Data" e non posso fare a meno di chiedermi che "perché" dovrei analizzare tutto ? Non c'era un motivo per cui "Sampling Theory" fosse progettato / implementato / inventato / scoperto? Non capisco il punto di analizzare l'intera "popolazione" del set di dati. Solo perché puoi farlo non significa che dovresti (La stupidità è un privilegio ma non dovresti abusarne :)

Quindi la mia domanda è questa: è statisticamente rilevante analizzare l'intero set di dati? Il meglio che potresti fare sarebbe minimizzare l'errore se hai fatto il campionamento. Ma vale davvero la pena minimizzare questo errore? Il "valore delle informazioni" vale davvero lo sforzo, i costi in termini di tempo, ecc. Che vanno nell'analisi dei big data su computer estremamente paralleli?

Anche se si analizza l'intera popolazione, il risultato sarebbe comunque nella migliore delle ipotesi una maggiore probabilità di avere ragione. Probabilmente un po 'più in alto rispetto al campionamento (o sarebbe molto di più?) L'intuizione ottenuta dall'analisi della popolazione rispetto all'analisi del campione differirebbe ampiamente?

O dovremmo accettarlo come "i tempi sono cambiati"? Il campionamento come attività potrebbe diventare meno importante dato il potere computazionale sufficiente :)

Nota: non sto cercando di avviare un dibattito, ma cerco una risposta per capire perché i big data fanno ciò che fanno (ovvero analizzano tutto) e ignorano la teoria del campionamento (o no?)


1
Vedi anche: stats.stackexchange.com/q/22502/7828 - come trarre conclusioni valide dai big data.
Anony-Mousse

2
(+1 molto tempo fa) Mi diverto sempre a leggere le tue domande perspicaci. Sono una vera risorsa per questo sito.
cardinale,

1
@cardinal - Apprezzo sinceramente il tuo commento. Significa molto da te.
Dottorato di ricerca

Risposte:


29

In una parola, . Credo che ci siano ancora chiare situazioni in cui il campionamento è appropriato, all'interno e senza il mondo dei "big data", ma la natura dei big data cambierà sicuramente il nostro approccio al campionamento e useremo più set di dati che sono rappresentazioni quasi complete del sottostante popolazione.

Sul campionamento: a seconda delle circostanze, sarà quasi sempre chiaro se il campionamento sia una cosa appropriata da fare. Il campionamento non è un'attività intrinsecamente benefica; è proprio quello che facciamo perché dobbiamo fare dei compromessi sui costi di implementazione della raccolta dati. Stiamo cercando di caratterizzare le popolazioni e dobbiamo selezionare il metodo appropriato per la raccolta e l'analisi dei dati sulla popolazione. Il campionamento ha senso quando il costo marginale di un metodo di raccolta o elaborazione dei dati è elevato. Cercare di raggiungere il 100% della popolazione non è un buon uso delle risorse in quel caso, perché spesso è meglio affrontare cose come la distorsione da non risposta piuttosto che apportare piccoli miglioramenti all'errore di campionamento casuale.

In che cosa differiscono i big data? I "big data" rispondono a molte delle stesse domande che abbiamo avuto da anni, ma la cosa "nuova" è che la raccolta dei dati avviene tramite un processo esistente, mediato dal computer, quindi il costo marginale della raccolta dei dati è essenzialmente zero. Ciò riduce drasticamente la nostra necessità di campionamento.

Quando useremo ancora il campionamento? Se la tua popolazione di "big data" è la popolazione giusta per il problema, utilizzerai il campionamento solo in alcuni casi: la necessità di eseguire gruppi sperimentali separati o se il volume di dati puro è troppo grande per essere acquisito ed elaborato (molti di noi in grado di gestire milioni di righe di dati con facilità al giorno d'oggi, quindi il confine qui sta diventando sempre più ampio). Se sembra che stia respingendo la tua domanda, è probabilmente perché ho incontrato raramente situazioni in cui il volume dei dati era un problema nelle fasi di raccolta o elaborazione, anche se so che molti hanno

La situazione che mi sembra difficile è quando la tua popolazione di "big data" non rappresenta perfettamente la tua popolazione target, quindi i compromessi sono più dalle mele alle arance. Supponi di essere un pianificatore regionale dei trasporti e che Google ti abbia offerto di darti accesso ai suoi registri di navigazione GPS Android per aiutarti. Sebbene il set di dati sarebbe senza dubbio interessante da utilizzare, la popolazione sarebbe probabilmente sistematicamente distorta rispetto agli utenti a basso reddito, ai trasporti pubblici e agli anziani. In una situazione del genere, i diari di viaggio tradizionali inviati a un campione familiare casuale, sebbene più costoso e di numero inferiore, potrebbero essere ancora il metodo superiore di raccolta dei dati. Ma questa non è semplicemente una questione di "campionamento vs. big data", è '


22

Mentre ci possono essere molti Big Data prodotti dai dispositivi mobili e così via, ci sono pochi dati utilizzabili in esso. Se si desidera prevedere i modelli di viaggio urbano utilizzando foursquare, è possibile che si verifichi un ordine di grandezza nei flussi stimati. Peggio ancora, non saprai se stai sopravvalutando o sottovalutando questi flussi. Puoi avere un quadro follemente accurato dei modelli di viaggio urbano degli utenti maniacali di foursquare, ma a meno che non sia richiesto a tutti (1) di tenere uno smartphone funzionante, (2) per eseguire l'app foursquare continuamente e (3) registrarsi a in qualsiasi luogo rimangano per più di 10 minuti (ad es. ottenere un censimento elettronico; lasciare che i libertari si lamentino di Google e Facebook che sanno tutto di te), i tuoi dati conterranno pregiudizi sconosciuti e i tuoi Deweys elettronici continueranno a sconfiggere la parola reale Trumans (cliccabile):


(fonte: whatisasurvey.info )

Semmai, mi aspetterei che questo pezzo di storia si ripeterà, e alcune grandi previsioni "birra + pannolini" prodotte dai Big Data verrebbero annullate dai ricercatori usando approcci di campionamento più rigorosi. È sorprendente che i sondaggi basati sulla probabilità rimangano accurati nonostante la riduzione dei tassi di risposta.


1
(+1) Ma un utente foursquare stereotipato non sarebbe l'antitesi del paranoico . ;-)
cardinale il

1
Sì ... probabilmente un brutto termine. Vorrei cambiarlo in maniacale!
StasK,

2
I big data non sono i colpevoli. È come viene usato. Quando contiene informazioni e viene applicato in modo appropriato, può essere molto utile. Il data mining non è affatto male.
Michael Chernick,

Ottimo punto sull'uso dei big data per le informazioni sul traffico. Dal momento che aziende come Google e Apple lo fanno già, penso che questo sia un ottimo esempio di dove i big data (attualmente disponibili) possono non essere all'altezza per alcuni tipi di pubblico e ho cercato di incorporarli anche nella mia risposta.
Jonathan,

@Michael, hai ragione, certo. I dati sono poco costosi, ma i modi per ricavarne informazioni utilizzabili non stanno diminuendo - semmai, stanno aumentando, dato che ora si devono vagliare più dati per ottenere le informazioni utili.
StasK,

21

Ogni volta che si applicano tecniche di inferenza statistica, è importante essere chiari sulla popolazione su cui si mira a trarre conclusioni. Anche se i dati raccolti sono molto grandi, potrebbero comunque riguardare solo una piccola parte della popolazione e potrebbero non essere molto rappresentativi del tutto.

Supponiamo ad esempio che un'azienda che opera in un determinato settore abbia raccolto "big data" sui propri clienti in un determinato paese. Se desidera utilizzare tali dati per trarre conclusioni sui suoi clienti esistenti in quel paese, il campionamento potrebbe non essere molto rilevante. Se tuttavia vuole trarre conclusioni su una popolazione più ampia - potenziali e clienti esistenti, o clienti in un altro paese - allora diventa essenziale considerare in che misura i clienti su cui sono stati raccolti i dati sono rappresentativi - forse in termini di reddito, età , genere, istruzione, ecc. - della popolazione più numerosa.

Anche la dimensione temporale deve essere considerata. Se l'obiettivo è usare l'inferenza statistica per supportare le previsioni, allora la popolazione deve essere compresa per estendersi nel futuro. In tal caso, diventa di nuovo essenziale considerare se il set di dati, per quanto grande, sia stato ottenuto in circostanze rappresentative di quelle che potrebbero essere ottenute in futuro.


Benvenuto nel nostro sito, Adam! (Se
effettui il

Ottimo punto sulla necessità di considerare la popolazione! Questo è uno dei grandi modi in cui le persone possono diventare pigre sui big data.
Jonathan,

"Anche se i dati raccolti sono molto grandi, potrebbero comunque riguardare solo una piccola parte della popolazione e potrebbero non essere molto rappresentativi del tutto". Penso che questa sola frase risponda a molte domande.
Bemipefe,

13

Da quello che ho visto della mania dei big data / ML, pensare al campionamento e alla popolazione da cui è tratto il tuo campione è importante come non mai - ma ci ho pensato anche meno.

Sto "audendo" la classe ML di Stanford, e finora abbiamo coperto la regressione e le reti neurali con nessuna menzione dell'inferenza della popolazione. Dal momento che questa classe è stata presa da 6 cifre di persone, ora ci sono un sacco di persone là fuori che sanno come adattare i dati molto volontà senza alcuna idea dell'idea di un campione.


3
Sono completamente d'accordo. Quando osservo l'attuale mania del machine learning (principalmente professionisti e programmatori), Big Data e "scienza dei dati", trovo ridicolmente comune per le persone ignorare completamente il campionamento, l'inferenza, la comprensione e il significato del ragionamento statistico e sacrificarlo per applicare ciecamente qualunque cosa l'algoritmo è alla moda. Puoi persino vederlo con domande e alcune risposte qui su cross validate. Ecco perché credo anche che sia un clamore che presto diventerà obsoleto o prenderà in prestito l'epistemologia statistica e quindi diventerà un ramo di statistiche (lo considero comunque tale).
Momo,

2
Se quella classe ML è simile a quella che ho verificato qualche tempo fa, c'era un presupposto tecnico infilato subito prima della disuguaglianza di Hoeffding secondo cui i dati di allenamento sono un campione perfettamente casuale dalla popolazione. Sfortunatamente, questo non è quasi mai il caso, almeno nella mia esperienza, e negli esempi di applicazioni delle tecniche durante il corso. Non è ancora il caso quando si utilizzano i "big data".
Douglas Zare,

12

Sì, il campionamento è rilevante e rimarrà rilevante. La linea di fondo è che l'accuratezza di una stima statistica è generalmente una funzione della dimensione del campione, non della popolazione a cui vogliamo generalizzare. Quindi una media o una proporzione media calcolata da un campione di 1.000 intervistati fornirà una stima di una certa accuratezza (rispetto all'intera popolazione da cui abbiamo campionato), indipendentemente dalla dimensione della popolazione (o "quanto grande" il " big data "sono).

Detto questo: ci sono questioni e sfide specifiche che sono rilevanti e dovrebbero essere menzionate:

  1. Prelevare un buon campione di probabilità non è sempre facile. Teoricamente, ogni individuo nella popolazione a cui vogliamo generalizzare (di cui vogliamo fare inferenze) deve avere una probabilità nota di essere selezionato; idealmente quella probabilità dovrebbe essere la stessa (campione di probabilità uguale o EPSEM - Pari probabilità di selezione). Questa è una considerazione importante e si dovrebbe avere una chiara comprensione di come il processo di campionamento assegnerà le probabilità di selezione ai membri della popolazione a cui si vuole generalizzare. Ad esempio, si può ricavare da Twitter feed di stime accurate dei sentimenti complessivi nella popolazione in generale, compresi quegli individui senza account Twitter?
  2. I big data possono contenere dettagli e informazioni molto complessi; in altre parole, il problema non è il campionamento, ma la (micro) segmentazione, che estrae i dettagli giusti per un piccolo sottoinsieme di osservazioni rilevanti. Qui la sfida non è il campionamento, ma identificare la specifica stratificazione e segmentazione dei big data che produce le informazioni più precise utilizzabili che possono essere trasformate in preziose intuizioni.
  3. Un'altra regola generale di misurazione dell'opinione è che gli errori e i bias non di campionamento sono generalmente molto più grandi dell'errore e dei bias di campionamento. Solo perché elabori 1 milione di record di intervistati che esprimono un'opinione non rende i risultati più utili se disponi solo di dati di un sottocampione di 1000 persone, in particolare se le domande per il rispettivo sondaggio non sono state scritte bene e hanno indotto pregiudizi.
  4. A volte è necessario il campionamento: ad esempio, se si dovesse costruire un modello predittivo da tutti i dati, come si potrebbe convalidarlo? Come si potrebbe confrontare l'accuratezza di diversi modelli? Quando ci sono "big data" (repository di dati molto grandi) allora si possono costruire più modelli e scenari di modellazione per diversi campioni e validarli (provarli) in altri campioni indipendenti. Se uno dovesse costruire un modello per tutti i dati, come lo validerebbe?

Puoi dare un'occhiata alla nostra "Big Data Revolution" qui.


1
Benvenuti sul nostro sito, Kyra!
whuber

3

Molti metodi di big data sono in realtà progettati attorno al campionamento.

La domanda dovrebbe essere più sulla linea di:

Non dovremmo usare anche il campionamento sistematico con big data?

Molta roba dei "big data" è ancora piuttosto fresca e talvolta ingenua. K-significa ad esempio può essere banalmente parallelizzato, e quindi funziona per "big data" (non parlerò dei risultati, non sono molto significativi; e probabilmente non sono molto diversi da quelli ottenuti su un campione!). Per quanto ne so questo è ciò che fa l'implementazione di k-significa in Mahout.

Tuttavia, la ricerca sta andando oltre l'ingenua parallelizzazione (che può ancora richiedere una grande quantità di iterazioni) e cerca di eseguire mezzi K in un numero fisso di iterazioni. Esempio per questo:

  • Clustering rapido con MapReduce
    Ene, A. e Im, S. e Moseley, B.
    Atti della 17a conferenza internazionale ACM SIGKDD sulla scoperta della conoscenza e il data mining, 2011

E indovina un po ', il loro approccio è fortemente basato sul campionamento .

Esempio successivo: foreste decisionali . Questo è essenzialmente: per diversi campioni dal set di dati, creare un albero decisionale ciascuno. Di nuovo può essere banalmente parallelizzato: posizionare ciascun campione su una macchina separata. E ancora, è un approccio basato sul campionamento.

Quindi il campionamento è uno degli ingredienti chiave degli approcci ai big data!

E non c'è niente di sbagliato in questo.


2

La validazione incrociata è un esempio specifico di sottocampionamento che è abbastanza importante in ML / big data. Più in generale, i big data sono di solito ancora un campione di una popolazione, come altre persone hanno menzionato qui.

Ma, penso che OP potrebbe riferirsi specificamente al campionamento in quanto si applica a esperimenti controllati, rispetto ai dati osservativi. Di solito i big data sono pensati come quest'ultimo, ma almeno per me ci sono delle eccezioni. Penserei a prove randomizzate, test A / B e banditi multiarmed in e-commerce e impostazioni di social network come esempi di "campionamento in impostazioni di big data".


1

Nelle aree in cui i Big Data stanno guadagnando popolarità: ricerca, pubblicità, sistemi di raccomandazione come Amazon, Netflix, c'è un grande incentivo per esplorare l'intero set di dati.

L'obiettivo di questi sistemi è di personalizzare raccomandazioni / suggerimenti per ogni singolo membro della popolazione. Inoltre, il numero di attributi studiati è enorme. Il sistema di analisi web medio può misurare la percentuale di clic, il "tracciamento termico" delle "aree attive" in una pagina, le interazioni sociali, ecc. E valutarle rispetto a una vasta serie di obiettivi predeterminati.

Ancora più importante, la maggior parte dei luoghi in cui i Big Data sono ormai onnipresenti sono flussi di dati "online", ovvero i dati vengono costantemente aggiunti / aggiornati. Elaborare uno schema di campionamento che copra tutti questi attributi senza una propensione intrinseca e continui a fornire risultati promettenti (leggere margini migliori) è una sfida.

Il campionamento rimane ancora di grande rilevanza per sondaggi, prove mediche, test A / B, garanzia di qualità.

In poche parole, il campionamento è molto utile quando la popolazione da studiare è molto grande e siete interessati alle proprietà macroscopiche della popolazione. Il controllo al 100% (Big Data) è necessario per sfruttare le proprietà microscopiche del sistema

Spero che sia di aiuto :)


Quindi il punto è che non vogliono essere in grado di generalizzare oltre i dati che hanno ai dati che non hanno ancora? O che pensano che il loro campione sia così grande da non doversi preoccupare di questi problemi? O che i parametri sottostanti cambieranno nel tempo, quindi non importa fino a quando continuano ad aggiornarsi con il flusso di nuovi dati?
gung - Ripristina Monica

@gung il problema non è la dimensione del campione, ma il problema di generare un campione imparziale per un set di dati che ha un numero enorme di attributi. E la generalizzazione viene generalmente eseguita da algoritmi di Machine Learning, formati su una parte del set di dati. I flussi di dati online che arrivano costantemente rendono secondario il problema del campionamento poiché è possibile utilizzare gli aggiornamenti batch per modificare i parametri.
rampaggio
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.