Da anni si vocifera che Google utilizzi tutte le funzionalità disponibili per costruire i suoi algoritmi predittivi. Ad oggi, tuttavia, non sono emersi disclaimer, spiegazioni o white paper che chiariscono e / o contestano questa voce. Nemmeno i loro brevetti pubblicati aiutano nella comprensione. Di conseguenza, nessuno esterno a Google sa cosa sta facendo, per quanto ne so.
/ * Aggiornamento a settembre 2019, un evangelista di Google Tensorflow è stato registrato in una presentazione affermando che gli ingegneri di Google valutano regolarmente oltre 5 miliardi di parametri per l'attuale versione di PageRank . * /
Come osserva il PO, uno dei maggiori problemi nella modellazione predittiva è la conflazione tra test di ipotesi classici e attenta specifica del modello rispetto al puro data mining. La formazione classica può diventare piuttosto dogmatica sulla necessità di "rigore" nella progettazione e nello sviluppo di modelli. Il fatto è che di fronte a un numero enorme di predittori candidati e molteplici possibili obiettivi o variabili dipendenti, il quadro classico non funziona, contiene né fornisce indicazioni utili. Numerosi articoli recenti delineano questo dilemma da Chattopadhyay e dal brillante documento di Lipson Data Smashing: Uncovering in agguato nell'ordine dei dati http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Il principale collo di bottiglia è che la maggior parte degli algoritmi di confronto dei dati oggi si affida a un esperto umano per specificare quali "caratteristiche" dei dati sono rilevanti per il confronto. Qui, proponiamo un nuovo principio per stimare la somiglianza tra le fonti di flussi di dati arbitrari, non usando né la conoscenza del dominio né l'apprendimento.
All'articolo dello scorso anno sull'AER sui problemi di politica previsionale di Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 che rende il caso del data mining e della previsione come strumenti utili nella definizione delle politiche economiche, citando casi in cui "l'inferenza causale non è centrale, o addirittura necessaria. "
Il fatto è che la domanda più grande, $ 64.000, è l'ampio spostamento nel pensiero e le sfide al classico quadro di verifica delle ipotesi implicito, ad esempio, in questo simposio di Edge.org sul pensiero scientifico "obsoleto" https://www.edge.org/ risposte / che-idea-scientifica-è-pronta-per- andare in pensione così come questo recente articolo di Eric Beinhocker sulla "nuova economia" che presenta alcune proposte radicali per l'integrazione di discipline molto diverse come l'economia comportamentale, la teoria della complessità, il modello predittivo teoria dello sviluppo, delle reti e del portafoglio come piattaforma per l'implementazione e l'adozione delle politiche https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Inutile dire che questi problemi vanno ben oltre le semplici preoccupazioni economiche e suggeriscono che stiamo subendo un cambiamento fondamentale nei paradigmi scientifici. Le opinioni mutevoli sono fondamentali quanto le distinzioni tra riduzionista, il rasoio di Occam come la costruzione di modelli e il principio espansivo di pienezza di Epicuro o molteplici spiegazioni che sostengono approssimativamente che se diversi risultati spiegano qualcosa, conservali tutti ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Naturalmente, ragazzi come Beinhocker sono totalmente liberi da problemi pratici, nelle trincee riguardanti le soluzioni applicate e statistiche a questo paradigma in evoluzione. Scritto con domande grintose sulla selezione di variabili di dimensione ultra-alta, l'OP è relativamente aspecifico per quanto riguarda gli approcci praticabili alla costruzione di modelli che potrebbero sfruttare, ad esempio, Lasso, LAR, algoritmi graduali o "modelli di elefanti" che utilizzano tutte le informazioni disponibili. La realtà è che, anche con AWS o un supercomputer, non è possibile utilizzare tutte le informazioni disponibili contemporaneamente: semplicemente non c'è abbastanza RAM per caricarle tutte. Cosa significa? Sono state proposte soluzioni alternative, ad esempio, la scoperta di NSF in set di dati complessi o voluminosi: temi statistici comuni"dividere e conquistare" algoritmi per il data mining di massa, ad esempio, il documento di Wang, et al, A Survey of Statistical Methods and Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf e Leskovec, et al's book Mining of Massive Dataset http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Ora ci sono letteralmente centinaia, se non migliaia di articoli che trattano vari aspetti di queste sfide, tutti proponendo motori analitici molto diversi come il loro nucleo rispetto agli algoritmi di "divisione e conquista"; modelli "senza apprendimento" senza supervisione; teoria della matrice casuale applicata alla costruzione massiccia della covarianza; Modelli tensoriali bayesiani a regressione logistica classica, supervisionata e altro. Quindici anni fa circa, il dibattito si concentrava in gran parte sulle questioni relative ai meriti relativi delle soluzioni gerarchiche bayesiane rispetto ai modelli di miscele finite frequentiste. In un documento che affronta questi problemi, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfè giunto alla conclusione che i diversi approcci teorici, in pratica, hanno prodotto risultati in gran parte equivalenti, ad eccezione dei problemi che coinvolgono dati sparsi e / o ad alta dimensione in cui i modelli HB avevano il vantaggio. Oggi, con l'avvento delle soluzioni alternative di D&C, vengono eliminati tutti i modelli di arbitraggio HB che storicamente potrebbero essere stati apprezzati.
La logica di base di queste soluzioni alternative di D&C sono, in linea di massima, estensioni della famosa tecnica forestale casuale di Breiman che si basava sul ricampionamento bootstrap di osservazioni e caratteristiche. Breiman ha fatto il suo lavoro alla fine degli anni '90 su una singola CPU, quando dati enormi hanno significato poche decine di concerti e un paio di migliaia di funzionalità. Sulle attuali piattaforme multi-core massicciamente parallele, è possibile eseguire algoritmi che analizzano terabyte di dati contenenti decine di milioni di funzionalità costruendo milioni di mini-modelli "RF" in poche ore.
Ci sono molte domande importanti che emergono da tutto ciò. Uno ha a che fare con una preoccupazione per una perdita di precisione dovuta alla natura approssimativa di queste soluzioni alternative. Questo problema è stato affrontato da Chen e Xie nel loro documento, Un approccio diviso e conquistato per l'analisi di dati straordinariamente grandi http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf dove concludono che le approssimazioni sono indistinguibilmente diverse dai modelli di "informazione completa".
Una seconda preoccupazione che, per quanto a mia conoscenza non è stata adeguatamente affrontata dalla letteratura, ha a che fare con ciò che viene fatto con i risultati (cioè i "parametri") da potenzialmente milioni di mini-modelli predittivi una volta che le soluzioni alternative sono stati raggruppati e riassunti. In altre parole, come si fa a eseguire qualcosa di semplice come "segnare" nuovi dati con questi risultati? I coefficienti del mini-modello devono essere salvati e memorizzati o si esegue semplicemente nuovamente l'algoritmo d & c su nuovi dati?
Nel suo libro, Numbers Rule Your World , Kaiser Fung descrive il dilemma affrontato da Netflix quando presentato con un ensemble di soli 104 modelli consegnati dai vincitori della competizione. I vincitori avevano, in effetti, ridotto al minimo l'MSE rispetto a tutti gli altri concorrenti, ma ciò si è tradotto in un miglioramento di pochi decimali nella precisione della scala di valutazione di tipo Likert a 5 punti utilizzata dal loro sistema di raccomandazione del film. Inoltre, la manutenzione IT richiesta per questo insieme di modelli costa molto di più di qualsiasi altro risparmio visto dal "miglioramento" dell'accuratezza del modello.
Quindi c'è tutta la questione se "l'ottimizzazione" è persino possibile con informazioni di questa portata. Ad esempio, Emmanuel Derman, fisico e ingegnere finanziario, nel suo libro My Life as a Quant suggerisce che l'ottimizzazione è un mito insostenibile, almeno nell'ingegneria finanziaria.
Infine, devono ancora essere affrontate importanti questioni relative all'importanza delle caratteristiche relative con un numero enorme di funzioni.
Non ci sono risposte facili alle domande sulla necessità di una selezione variabile e le nuove sfide aperte dalle attuali soluzioni alternative epicuree rimangono da risolvere. La linea di fondo è che ora siamo tutti data scientist.
**** EDIT ***
Riferimenti
Chattopadhyay I, Lipson H. 2014 Smashing dei dati: scoprire l'ordine in agguato nei dati. JR Soc. Interfaccia 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan e Ziad Obermeyer. 2015. "Problemi di politica di previsione". American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, domanda annuale 2014: QUALE IDEA SCIENTIFICA È PRONTA PER IL RITIRAMENTO?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, In che modo i profondi cambiamenti nell'economia rendono irrilevanti i dibattiti tra sinistra e destra, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Principio epicuro di spiegazioni multiple: mantenere tutti i modelli. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Discovery in set di dati complessi o di grandi dimensioni: temi statistici comuni, un workshop finanziato dalla National Science Foundation, 16-17 ottobre 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Metodi statistici e informatica per i big data, documento di lavoro di Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu e Jun Yan, 29 ottobre 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Dataset, Cambridge University Press; 2 edizione (29 dicembre 2014) ISBN: 978-1107077232
Matrici di covarianza di grandi campioni e analisi di dati ad alta dimensione (serie di Cambridge in matematica statistica e probabilistica), di Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edizione (30 marzo 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE e IMRAN S. CURRIM, un confronto empirico di modelli Logit Choice con discrete contro continue rappresentazioni dell'eterogeneità, Journal of Marketing Research, 479 Vol. XXXIX (novembre 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Un approccio diviso e conquistato per l'analisi di dati straordinariamente grandi, Xueying Chen e Minge Xie, Rapporto tecnico DIMACS 2012-01, gennaio 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, i numeri governano il tuo mondo: l'influenza nascosta delle probabilità e delle statistiche su tutto ciò che fai, McGraw-Hill Education; 1 edizione (15 febbraio 2010) ISBN: 978-0071626538
Emmanuel Derman, My Life as a Quant: Reflections on Physics and Finance, Wiley; 1 edizione (11 gennaio 2016) ISBN: 978-0470192733
* Aggiornamento a novembre 2017 *
Il libro di Nathan Kutz del 2013, Modellazione basata sui dati e calcolo scientifico: metodi per sistemi complessi e big data è un'escursione matematica e incentrata sulla PDE nella selezione delle variabili, nonché metodi e strumenti di riduzione delle dimensioni. Un'eccellente introduzione di 1 ora al suo pensiero può essere trovata in questo video di Youtube del giugno 2017 Data Driven Discovery di sistemi dinamici e PDE . In esso, fa riferimento agli ultimi sviluppi in questo campo. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop