I "big data" sono ovunque nei media. Tutti dicono che i "big data" sono la cosa più importante per il 2012, ad esempio il sondaggio di KDNuggets su argomenti importanti per il 2012 . Tuttavia, ho profonde preoccupazioni qui. Con i big data, tutti sembrano essere felici solo per ottenere qualcosa . Ma non stiamo violando tutti i principi statistici classici come il test delle ipotesi e il campionamento rappresentativo?
Finché facciamo solo previsioni sullo stesso set di dati, questo dovrebbe andare bene. Quindi, se uso i dati di Twitter per prevedere il comportamento degli utenti di Twitter, probabilmente va bene. Tuttavia, l'utilizzo dei dati di Twitter per prevedere, ad esempio, le elezioni trascura completamente il fatto che gli utenti di Twitter non siano un campione rappresentativo per l'intera popolazione. Inoltre, la maggior parte dei metodi non sarà in grado di distinguere tra un vero umore "di base" e una campagna. E Twitter è pieno di campagne. Quindi, analizzando Twitter, si finisce rapidamente per misurare campagne e robot. (Vedi ad esempio "Yahoo prevede i vincitori politici americani"che è pieno di sondaggi e "l'analisi dei sentimenti è molto meglio". Hanno predetto che "Romney ha oltre il 90% di probabilità di vincere la nomination e di vincere la primaria della Carolina del Sud" (aveva il 28%, mentre Gingrich aveva il 40% in questa primaria).
Sai che altri tali big data falliscono ? Ricordo più o meno che uno scienziato aveva predetto che non potevi mantenere più di 150 amicizie. In realtà aveva scoperto un limite massimo in Friendster ...
Per quanto riguarda i dati di Twitter, o in realtà qualsiasi "big data" raccolto dal web, credo che spesso le persone introducano anche ulteriori pregiudizi nel modo in cui raccolgono i loro dati. Pochi avranno tutto Twitter. Avranno un certo sottoinsieme che hanno individuato, e questo è solo un altro errore nel loro set di dati.
La suddivisione dei dati in un set di test o per eseguire la validazione incrociata probabilmente non aiuta molto. L'altro set avrà lo stesso pregiudizio. E per i big data, ho bisogno di "comprimere" le mie informazioni così pesantemente che è piuttosto improbabile che mi adattino troppo.
Di recente ho sentito questa battuta, con lo scienziato di big data che ha scoperto che ci sono circa 6 sessi nel mondo ... e posso solo immaginarlo accadere ... "Maschio, Femmina, Orco, Peloso, Sì e No".
Quindi, quali metodi abbiamo per riportare un po 'di validità statistica nell'analisi, in particolare quando proviamo a prevedere qualcosa al di fuori del set di dati "big data"?