Come trarre conclusioni valide dai "big data"?


40

I "big data" sono ovunque nei media. Tutti dicono che i "big data" sono la cosa più importante per il 2012, ad esempio il sondaggio di KDNuggets su argomenti importanti per il 2012 . Tuttavia, ho profonde preoccupazioni qui. Con i big data, tutti sembrano essere felici solo per ottenere qualcosa . Ma non stiamo violando tutti i principi statistici classici come il test delle ipotesi e il campionamento rappresentativo?

Finché facciamo solo previsioni sullo stesso set di dati, questo dovrebbe andare bene. Quindi, se uso i dati di Twitter per prevedere il comportamento degli utenti di Twitter, probabilmente va bene. Tuttavia, l'utilizzo dei dati di Twitter per prevedere, ad esempio, le elezioni trascura completamente il fatto che gli utenti di Twitter non siano un campione rappresentativo per l'intera popolazione. Inoltre, la maggior parte dei metodi non sarà in grado di distinguere tra un vero umore "di base" e una campagna. E Twitter è pieno di campagne. Quindi, analizzando Twitter, si finisce rapidamente per misurare campagne e robot. (Vedi ad esempio "Yahoo prevede i vincitori politici americani"che è pieno di sondaggi e "l'analisi dei sentimenti è molto meglio". Hanno predetto che "Romney ha oltre il 90% di probabilità di vincere la nomination e di vincere la primaria della Carolina del Sud" (aveva il 28%, mentre Gingrich aveva il 40% in questa primaria).

Sai che altri tali big data falliscono ? Ricordo più o meno che uno scienziato aveva predetto che non potevi mantenere più di 150 amicizie. In realtà aveva scoperto un limite massimo in Friendster ...

Per quanto riguarda i dati di Twitter, o in realtà qualsiasi "big data" raccolto dal web, credo che spesso le persone introducano anche ulteriori pregiudizi nel modo in cui raccolgono i loro dati. Pochi avranno tutto Twitter. Avranno un certo sottoinsieme che hanno individuato, e questo è solo un altro errore nel loro set di dati.

La suddivisione dei dati in un set di test o per eseguire la validazione incrociata probabilmente non aiuta molto. L'altro set avrà lo stesso pregiudizio. E per i big data, ho bisogno di "comprimere" le mie informazioni così pesantemente che è piuttosto improbabile che mi adattino troppo.

Di recente ho sentito questa battuta, con lo scienziato di big data che ha scoperto che ci sono circa 6 sessi nel mondo ... e posso solo immaginarlo accadere ... "Maschio, Femmina, Orco, Peloso, Sì e No".

Quindi, quali metodi abbiamo per riportare un po 'di validità statistica nell'analisi, in particolare quando proviamo a prevedere qualcosa al di fuori del set di dati "big data"?

Risposte:


31

Le tue paure sono ben fondate e percettive. Yahoo e probabilmente molte altre società stanno facendo esperimenti randomizzati sugli utenti e lo stanno facendo bene. Ma i dati osservativi sono pieni di difficoltà. È un'idea sbagliata comune che i problemi diminuiscano all'aumentare della dimensione del campione. Questo è vero per la varianza, ma il bias rimane costante quando n aumenta. Quando la distorsione è grande, un campione veramente piccolo o uno studio randomizzato può essere più prezioso di 100.000.000 di osservazioni.


8
I big data sono probabilmente un'area in cui la scomposizione della varianza di polarizzazione non è utile: la qualità e la gestione dei dati sono più importanti. Questo perché non possiamo sperare di conoscere tutti i punti di dati o addirittura casi particolari - semplicemente troppi di loro
probabilityislogic

24

Esistono diverse tecniche di progettazione e analisi sperimentali che possono aiutarti a ridurre il tuo pregiudizio, ma questo si riduce sempre alla stessa cosa: bisogna sapere cosa si sta facendo. L'analisi dei big data ha lo stesso problema di qualsiasi altra analisi dei dati; soffre di una mancanza di ipotesi.

Un chiaro esempio è la regressione multipla con selezione variabile graduale. Molto bello, uno dire, ma con 100 variabili leggi statistiche misurate dettano che alcuni di essi si mostra una relazione significativa quando valutato cercando se i rispettivi coefficienti differisce significativamente da zero. Quindi, più variabili nel tuo set di dati, maggiori sono le possibilità di trovarne due che mostrano una relazione (insignificante). E più grande è il tuo set di dati, maggiori sono le possibilità di modelli insignificanti a causa, ad esempio, di un piccolo effetto confondente. Se testate molti modelli (e con anche solo 10 variabili che possono essere un sacco di modelli), molto probabilmente ne troverete almeno uno significativo. Significa qualcosa? No.

Cosa si dovrebbe fare allora? Usa il tuo cervello:

  • formulare un'ipotesi prima di raccogliere i dati e verificare tale ipotesi. Questo è l'unico modo per assicurarti che le tue statistiche raccontino effettivamente una storia.
  • Usa le tue covariate per stratificare il campionamento prima di fare alcuni test. Esempio stupido: se nel tuo set di dati hai 1000 maschi e 100 femmine, seleziona casualmente 50 ciascuno se vuoi parlare di una popolazione media. Questo è in realtà qualcosa in cui i big data sono utili: hai più che abbastanza da cui campionare.
  • Descrivi a fondo la popolazione di prova, quindi è chiaro per quale popolazione sono formulate le tue conclusioni.
  • Se usi il tuo set di dati di grandi dimensioni a fini esplorativi, verifica le ipotesi che ti vengono in mente durante questa esplorazione su un set di dati nuovo e diverso , non solo un sottoinsieme di ciò che hai raccolto. E testarli di nuovo usando tutte le precauzioni necessarie.

Queste cose sono tutte ovvie e ben note. Diamine, già nel 1984 Rosenbaum e Rubin hanno illustrato come utilizzare i punteggi di propensione per ridurre la distorsione negli studi osservazionali, ed è quello che sono i set di dati più importanti: dati osservativi. In lavori più recenti di Feng et al , è anche raccomandato l'uso della distanza Mahalanobis. E infatti, uno dei miei eroi statistici, Cochran, ha scritto una recensione su questo problema già nel 1973! O che dire di Rubin, che ha introdotto il campionamento multivariato abbinato e la correzione della regressione già nel 1979. Le vecchie pubblicazioni sono seriamente sottovalutate e troppo spesso ignorate, certamente in un campo come la statistica.

Tutte queste tecniche hanno pro e contro, e si deve capire che ridurre la distorsione non equivale a eliminare la distorsione. Ma se sei a conoscenza di:

  • cosa vuoi testare e
  • come lo stai facendo

I big data non sono una scusa per ottenere risultati fasulli.


Modificato dopo l'osservazione (correc) di @DW, che ha sottolineato che ho usato il termine 'overfitting' in un contesto sbagliato.


12
"più grande è il tuo set di dati, maggiori sono le possibilità di un overfitting insignificante" - In realtà, è al contrario. Maggiore è il numero di possibili modelli, maggiore è la possibilità di un overfitting (tutto il resto è uguale). Maggiore è il set di dati, minore è la possibilità di overfitting (tutto il resto è uguale).
DW

@DW Come mai? In effetti, se c'è una assoluta indipendenza in una simulazione, ci sono tante possibilità su un modello significativo con set di dati piccoli e grandi (la simulazione semplice lo dimostra). Purtroppo, devo ancora incontrare un set di dati in cui l'indipendenza è perfetta. Nel momento in cui si verifica, ad esempio, un effetto di confondimento molto piccolo, i set di dati di grandi dimensioni hanno maggiori probabilità di dare risultati significativi senza significato rispetto ai set di dati di piccole dimensioni.
Joris Meys,

Bella risposta: il tuo commento sulla ricerca di effetti significativi fornisce una buona logica per i metodi di contrazione rispetto ai metodi "in-o-out" di selezione del modello.
probabilityislogic

10
@DW sta facendo una dichiarazione sul sovradimensionamento e sembra corretto, in particolare poiché più è grande il set di dati, maggiori sono le possibilità di umiliare la convalida incrociata su sottoinsiemi di dati. Joris Meys sta facendo una dichiarazione sul significato statistico. Anche questo è corretto. Ma in grandi insiemi di dati il ​​significato statistico è controverso - è la dimensione dell'effetto che conta perché quasi tutto è "statisticamente significativo".
zbicyclist,

1
@zbicyclist Osservazione molto corretta. Ammetto di aver male interpretato DW e di aver usato il termine overfitting in un contesto sbagliato. Sono corretto.
Joris Meys,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.