Statistiche e Big Data

4

Libro di testo sulla * teoria * delle reti neurali / algoritmi ML?

Ogni libro di testo che ho visto finora descrive algoritmi ML e come implementarli. Esiste anche un libro di testo che costruisce teoremi e prove per il comportamento di quegli algoritmi? es. affermando che nelle condizioni , la discesa del gradiente porterà sempre ad A , B , C ?x,y,zx,y,zx,y,zA,B,CA,B,CA,B,C

23 machine-learning mathematical-statistics references algorithms

5

L'analisi dei dati esplorativi è importante quando si esegue la modellazione puramente predittiva?

Quando si costruisce un modello predittivo utilizzando tecniche di apprendimento automatico, che senso ha fare un'analisi esplorativa dei dati (EDA)? Va bene passare direttamente alla generazione delle caratteristiche e alla costruzione dei tuoi modelli? In che modo sono importanti le statistiche descrittive utilizzate in EDA?

23 machine-learning predictive-models descriptive-statistics eda

2

Quale modello statistico o algoritmo potrebbe essere utilizzato per risolvere il problema John Snow Cholera?

Sono interessato a imparare come sviluppare un'approssimazione geografica di un qualche tipo di epicentro basato sui dati dell'epidemia di John Snow Cholera. Quale modello statistico potrebbe essere utilizzato per risolvere un tale problema senza una conoscenza preliminare di dove si trovano i pozzi. Come problema generale, avresti a disposizione il …

23 bayesian spatial epidemiology gis

1

Il campionamento per la regressione logistica dovrebbe riflettere il rapporto reale tra 1 e 0?

Supponiamo di voler creare un modello di regressione logistica in grado di stimare una probabilità di insorgenza di alcune specie animali che vivono sugli alberi in base alle caratteristiche degli alberi (altezza fe). Come sempre, il mio tempo e denaro sono limitati, quindi sono in grado di raccogliere solo una …

23 logistic sampling

10

Il termine migliore per i dati inventati?

Sto scrivendo un esempio e ho inventato alcuni dati. Voglio che sia chiaro al lettore che non si tratta di dati reali, ma non voglio anche dare l'impressione di malizia, dal momento che serve solo da esempio. Non esiste un componente (pseudo) casuale per questi dati particolari, quindi mi sembra …

23 terminology synthetic-data

1

Spiegazione di ciò che Nate Silver ha detto riguardo al loess

In una domanda che ho posto di recente , mi è stato detto che era un grande "no-no" estrapolare con loess. Ma, nell'articolo più recente di Nate Silver su FiveThirtyEight.com, ha discusso dell'uso del loess per fare previsioni elettorali. Stava discutendo i dettagli delle previsioni aggressive rispetto a quelle conservative …

23 time-series forecasting predictive-models loess politics

3

La riduzione della dimensionalità per la visualizzazione dovrebbe essere considerata un problema "chiuso", risolto da t-SNE?

Ho letto molto sull'algoritmo -sne per la riduzione della dimensionalità. Sono rimasto molto colpito dalle prestazioni su set di dati "classici", come MNIST, in cui raggiunge una chiara separazione delle cifre ( vedi articolo originale ):ttt L'ho anche usato per visualizzare le funzionalità apprese da una rete neurale che mi …

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

4

Perché gli algoritmi di ottimizzazione sono definiti in termini di altri problemi di ottimizzazione?

Sto facendo alcune ricerche sulle tecniche di ottimizzazione per l'apprendimento automatico, ma sono sorpreso di trovare un gran numero di algoritmi di ottimizzazione definiti in termini di altri problemi di ottimizzazione. Illustrerò alcuni esempi di seguito. Ad esempio https://arxiv.org/pdf/1511.05133v1.pdf Sembra tutto bello e buono, ma poi c'è questo nel aggiornamento …

23 machine-learning svm optimization

1

Proprietà del PCA per osservazioni dipendenti

Usiamo solitamente PCA come tecnica di riduzione della dimensionalità per i dati in cui si presume che i casi siano considerati Domanda: Quali sono le sfumature tipiche dell'applicazione del PCA per dati dipendenti e non iid? Quali proprietà utili / utili di PCA che detengono per i dati iid sono …

23 time-series pca non-independent iid

1

Come si interpretano gli istogrammi dati da TensorFlow in TensorBoard?

Recentemente stavo correndo e imparando il flusso del tensore e ho ottenuto alcuni istogrammi che non sapevo interpretare. Di solito penso all'altezza delle barre come alla frequenza (o frequenza / conteggi relativi). Tuttavia, il fatto che non ci siano barre come in un normale istogramma e il fatto che le …

23 machine-learning neural-networks conv-neural-network tensorflow

4

Problema di Monty Hall con un Fallible Monty

Monty sapeva perfettamente se la Porta aveva una capra (o era vuota). Questo fatto consente al giocatore di raddoppiare la sua percentuale di successo nel tempo, passando "ipotesi" sull'altra porta. E se la conoscenza di Monty fosse stata meno che perfetta? E se a volte il Premio fosse davvero sulla …

23 conditional-probability

1

Keras, come funziona il decadimento del tasso di apprendimento SGD?

Se si osserva la documentazione http://keras.io/optimizers/ , nel SGD è presente un parametro per il decadimento. So che questo riduce il tasso di apprendimento nel tempo. Tuttavia, non riesco a capire come funzioni esattamente. È un valore che viene moltiplicato per il tasso di apprendimento in lr = lr * …

23 neural-networks python

2

Ha senso che un effetto fisso sia nidificato in uno casuale o come codificare misure ripetute in R (aov e lmer)?

Ho esaminato questa panoramica delle formule lm / lmer R di @conjugateprior e mi sono confuso con la seguente voce: Ora supponiamo che A sia casuale, ma B sia fisso e B sia nidificato all'interno di A. aov(Y ~ B + Error(A/B), data=d) Di seguito lmer(Y ~ B + (1 …

23 r anova mixed-model repeated-measures lme4-nlme

3

Divergenza di Kullback-Leibler SENZA teoria dell'informazione

Dopo molte ricerche su Cross Validated, non mi sento ancora più vicino alla comprensione della divergenza di KL al di fuori del regno della teoria dell'informazione. È piuttosto strano come qualcuno con un background matematico per trovare molto più facile capire la spiegazione della teoria dell'informazione. Per delineare la mia …

23 inference entropy information-theory kullback-leibler compression

2

Il modello finale (pronto per la produzione) deve essere addestrato sui dati completi o solo sul set di addestramento?

Supponiamo di aver addestrato diversi modelli sul set di allenamento, scegline uno migliore utilizzando il set di convalida incrociata e misurato le prestazioni sul set di test. Quindi ora ho un ultimo modello migliore. Devo riqualificarli su tutti i dati disponibili o sulla soluzione di spedizione addestrati solo sul set …

23 machine-learning validation regression-strategies