Domande taggate «large-data»

I "dati di grandi dimensioni" si riferiscono a situazioni in cui il numero di osservazioni (punti di dati) è così grande da richiedere cambiamenti nel modo in cui l'analista di dati pensa o conduce l'analisi. (Da non confondere con 'alta dimensionalità'.)




7
Sfide tra industria e Kaggle. Raccogliere più osservazioni e avere accesso a più variabili è più importante della modellazione fantasia?
Spero che il titolo sia autoesplicativo. In Kaggle, la maggior parte dei vincitori usa lo stacking con a volte centinaia di modelli base, per spremere un po 'di% in più di MSE, precisione ... In generale, nella tua esperienza, quanto è importante la modellazione fantasia come lo stacking rispetto alla …



10
Che cosa sono esattamente i Big Data?
Mi è stato chiesto in diverse occasioni la domanda: Cosa sono i Big Data? Sia dagli studenti che dai miei parenti che stanno raccogliendo il buzz intorno alle statistiche e alla ML. Ho trovato questo post CV . E sento di essere d'accordo con l'unica risposta lì. Anche la pagina …
44 large-data 






1
Apprendimento in streaming all'avanguardia
Ultimamente ho lavorato con set di dati di grandi dimensioni e ho trovato molti documenti sui metodi di streaming. Per dirne alcuni: Follow-the-Regularized Leader e Mirror Descent: Equivalence Teorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Apprendimento in streaming: SVM One-Pass ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Primal stimato Sub-GrAdient SOlver per SVM …


3
Primo passo per i big data (
Supponiamo che tu stia analizzando un enorme insieme di dati al ritmo di miliardi di osservazioni al giorno, in cui ogni osservazione ha un paio di migliaia di variabili numeriche e categoriche sparse e possibilmente ridondanti. Diciamo che c'è un problema di regressione, un problema di classificazione binaria sbilanciato e …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.