Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


5
L'analisi dei dati esplorativi è importante quando si esegue la modellazione puramente predittiva?
Quando si costruisce un modello predittivo utilizzando tecniche di apprendimento automatico, che senso ha fare un'analisi esplorativa dei dati (EDA)? Va bene passare direttamente alla generazione delle caratteristiche e alla costruzione dei tuoi modelli? In che modo sono importanti le statistiche descrittive utilizzate in EDA?

2
Quale modello statistico o algoritmo potrebbe essere utilizzato per risolvere il problema John Snow Cholera?
Sono interessato a imparare come sviluppare un'approssimazione geografica di un qualche tipo di epicentro basato sui dati dell'epidemia di John Snow Cholera. Quale modello statistico potrebbe essere utilizzato per risolvere un tale problema senza una conoscenza preliminare di dove si trovano i pozzi. Come problema generale, avresti a disposizione il …


10
Il termine migliore per i dati inventati?
Sto scrivendo un esempio e ho inventato alcuni dati. Voglio che sia chiaro al lettore che non si tratta di dati reali, ma non voglio anche dare l'impressione di malizia, dal momento che serve solo da esempio. Non esiste un componente (pseudo) casuale per questi dati particolari, quindi mi sembra …


3
La riduzione della dimensionalità per la visualizzazione dovrebbe essere considerata un problema "chiuso", risolto da t-SNE?
Ho letto molto sull'algoritmo -sne per la riduzione della dimensionalità. Sono rimasto molto colpito dalle prestazioni su set di dati "classici", come MNIST, in cui raggiunge una chiara separazione delle cifre ( vedi articolo originale ):ttt L'ho anche usato per visualizzare le funzionalità apprese da una rete neurale che mi …

4
Perché gli algoritmi di ottimizzazione sono definiti in termini di altri problemi di ottimizzazione?
Sto facendo alcune ricerche sulle tecniche di ottimizzazione per l'apprendimento automatico, ma sono sorpreso di trovare un gran numero di algoritmi di ottimizzazione definiti in termini di altri problemi di ottimizzazione. Illustrerò alcuni esempi di seguito. Ad esempio https://arxiv.org/pdf/1511.05133v1.pdf Sembra tutto bello e buono, ma poi c'è questo nel aggiornamento …

1
Proprietà del PCA per osservazioni dipendenti
Usiamo solitamente PCA come tecnica di riduzione della dimensionalità per i dati in cui si presume che i casi siano considerati Domanda: Quali sono le sfumature tipiche dell'applicazione del PCA per dati dipendenti e non iid? Quali proprietà utili / utili di PCA che detengono per i dati iid sono …


4
Problema di Monty Hall con un Fallible Monty
Monty sapeva perfettamente se la Porta aveva una capra (o era vuota). Questo fatto consente al giocatore di raddoppiare la sua percentuale di successo nel tempo, passando "ipotesi" sull'altra porta. E se la conoscenza di Monty fosse stata meno che perfetta? E se a volte il Premio fosse davvero sulla …




2
Il modello finale (pronto per la produzione) deve essere addestrato sui dati completi o solo sul set di addestramento?
Supponiamo di aver addestrato diversi modelli sul set di allenamento, scegline uno migliore utilizzando il set di convalida incrociata e misurato le prestazioni sul set di test. Quindi ora ho un ultimo modello migliore. Devo riqualificarli su tutti i dati disponibili o sulla soluzione di spedizione addestrati solo sul set …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.