Metodi statistici online e scalabili


12

Ciò è stato ispirato dalla regressione lineare online efficiente , che ho trovato molto interessante. Esistono testi o risorse dedicati al calcolo statistico su larga scala, mediante il quale il calcolo con insiemi di dati è troppo grande per adattarsi alla memoria principale e forse troppo vario per essere effettivamente sottocampionato. Ad esempio, è possibile montare modelli di effetti misti in modo online? Qualcuno ha esaminato gli effetti della sostituzione delle tecniche standard di ottimizzazione del 2 ° ordine per MLE con tecniche di tipo SGD del 1 ° ordine?


Penso che la risposta sia "sì". Ovviamente, c'è un po 'di un problema di definizioni qui. Ciò che una persona considera "su larga scala" a volte è molto diverso da quello degli altri. La mia impressione è che, ad esempio, molti ricercatori accademici considerino il set di dati Netflix "su larga scala", mentre in molti contesti industriali sarebbe considerato "impreciso". Per quanto riguarda le tecniche di stima, di solito con dati molto grandi, l'efficienza computazionale supera l'efficienza statistica. Ad esempio, il metodo dei momenti eseguirà (quasi) così come MLE in queste impostazioni e può essere molto più facile da calcolare.
cardinale

2
potresti anche consultare il Workshop on Algorithms for Modern Massive Data Set (MMDS). È giovane, ma disegna un insieme di oratori piuttosto impressionante alle interfacce di statistica, ingegneria e informatica, nonché tra università e industria.
cardinale

Sono passati solo pochi decenni da quando la maggior parte dei set di dati era troppo grande per adattarsi alla memoria principale e la scelta degli algoritmi utilizzati nei primi programmi statistici lo rifletteva. Tuttavia, tali programmi non avevano strutture per modelli a effetti misti.
onestop

Sei in grado di calcolare le statistiche per il set di dati? ad esempio la somma o la media degli elementi di dati?
probabilityislogic

Risposte:


5

Potresti esaminare il progetto Vowpal Wabbit , da John Langford a Yahoo! Ricerca . È uno studente online che esegue una discesa gradiente specializzata in alcune funzioni di perdita. VW ha alcune caratteristiche killer:

  • Installa banalmente su Ubuntu, con "sudo apt-get install vowpal-wabbit".
  • Utilizza il trucco di hashing per spazi di funzionalità davvero enormi.
  • Pesi adattivi specifici per funzione.
  • Ancora più importante, c'è una mailing list attiva e una community che si stacca dal progetto.

Il libro Bianchi & Lugosi Prediction, Learning and Games fornisce una solida base teorica all'apprendimento online. Una lettura pesante, ma ne vale la pena!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.