Ultimamente ho lavorato con set di dati di grandi dimensioni e ho trovato molti documenti sui metodi di streaming. Per dirne alcuni:
- Follow-the-Regularized Leader e Mirror Descent: Equivalence Teorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Apprendimento in streaming: SVM One-Pass ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal stimato Sub-GrAdient SOlver per SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- o qui: SVM può eseguire l'apprendimento in streaming un esempio alla volta?
- Streaming di foreste casuali ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Tuttavia, non sono stato in grado di trovare alcuna documentazione su come si confrontano tra loro. Ogni articolo che leggo sembra condurre esperimenti su diversi set di dati.
Conosco sofia-ml, vowpal wabbit, ma sembrano implementare pochissimi metodi, rispetto all'enorme quantità di metodi esistenti!
Gli algoritmi meno comuni non sono abbastanza performanti? Esiste un documento che tenta di esaminare il maggior numero possibile di metodi?