Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati




5
Perché il confronto multiplo è un problema?
Trovo difficile capire quale sia realmente il problema con più confronti . Con una semplice analogia, si dice che una persona che prenderà molte decisioni farà molti errori. Si applicano quindi precauzioni molto conservative, come la correzione di Bonferroni, in modo da rendere probabile che questa persona commetta qualsiasi errore, …

4
Foglio informativo sui modelli statistici
Mi chiedevo se esiste un modello statistico "cheat sheet (s)" che elenca una o più informazioni: quando usare il modello quando non usare il modello input richiesti e opzionali uscite attese il modello è stato testato in diversi settori (politica, bio, ingegneria, produzione, ecc.)? è accettato nella pratica o nella …

8
Definizione rigorosa di un valore anomalo?
Le persone spesso parlano di come gestire i valori anomali nelle statistiche. La cosa che mi preoccupa di questo è che, per quanto ne so, la definizione di un outlier è completamente soggettiva. Ad esempio, se la vera distribuzione di una variabile casuale è molto pesante o bimodale, qualsiasi visualizzazione …

6
Perché la multicollinearità non è controllata nelle moderne statistiche / apprendimento automatico
Nelle statistiche tradizionali, durante la creazione di un modello, controlliamo la multicollinearità utilizzando metodi come le stime del fattore di inflazione della varianza (VIF), ma nell'apprendimento automatico, invece, utilizziamo la regolarizzazione per la selezione delle funzionalità e non sembriamo verificare se le funzionalità sono correlate affatto. Perché lo facciamo?



4
Come confrontare statisticamente due serie storiche?
Ho due serie storiche, mostrate nella trama qui sotto: La trama mostra tutti i dettagli di entrambe le serie storiche, ma se necessario posso facilmente ridurla alle osservazioni coincidenti. La mia domanda è: quali metodi statistici posso usare per valutare le differenze tra le serie storiche? So che questa è …
44 r  time-series 


4
Quale funzione di attivazione per il livello di output?
Mentre la scelta delle funzioni di attivazione per il livello nascosto è abbastanza chiara (principalmente sigma o tanh), mi chiedo come decidere la funzione di attivazione per il livello di output. Le scelte comuni sono funzioni lineari, funzioni sigmoidi e funzioni softmax. Tuttavia, quando dovrei usare quale?


5
È importante ridimensionare i dati prima del clustering?
Ho trovato questo tutorial , che suggerisce che è necessario eseguire la funzione di ridimensionamento sulle funzionalità prima del clustering (credo che converta i dati in z-score). Mi chiedo se sia necessario. Lo sto chiedendo principalmente perché c'è un bel punto a gomito quando non ridimensiono i dati, ma scompare …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.