O più così "sarà"? I Big Data rendono le statistiche e le conoscenze pertinenti ancora più importanti, ma sembrano sottovalutare la teoria del campionamento.
Ho visto questo clamore intorno a "Big Data" e non posso fare a meno di chiedermi che "perché" dovrei analizzare tutto ? Non c'era un motivo per cui "Sampling Theory" fosse progettato / implementato / inventato / scoperto? Non capisco il punto di analizzare l'intera "popolazione" del set di dati. Solo perché puoi farlo non significa che dovresti (La stupidità è un privilegio ma non dovresti abusarne :)
Quindi la mia domanda è questa: è statisticamente rilevante analizzare l'intero set di dati? Il meglio che potresti fare sarebbe minimizzare l'errore se hai fatto il campionamento. Ma vale davvero la pena minimizzare questo errore? Il "valore delle informazioni" vale davvero lo sforzo, i costi in termini di tempo, ecc. Che vanno nell'analisi dei big data su computer estremamente paralleli?
Anche se si analizza l'intera popolazione, il risultato sarebbe comunque nella migliore delle ipotesi una maggiore probabilità di avere ragione. Probabilmente un po 'più in alto rispetto al campionamento (o sarebbe molto di più?) L'intuizione ottenuta dall'analisi della popolazione rispetto all'analisi del campione differirebbe ampiamente?
O dovremmo accettarlo come "i tempi sono cambiati"? Il campionamento come attività potrebbe diventare meno importante dato il potere computazionale sufficiente :)
Nota: non sto cercando di avviare un dibattito, ma cerco una risposta per capire perché i big data fanno ciò che fanno (ovvero analizzano tutto) e ignorano la teoria del campionamento (o no?)