Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


2
Combinazione di informazioni provenienti da più studi per stimare la media e la varianza dei dati normalmente distribuiti: approcci bayesiani vs meta-analitici
Ho esaminato una serie di documenti, ciascuno dei quali riportava la media osservata e la DS di una misurazione di nel rispettivo campione di dimensioni note, . Voglio fare la migliore ipotesi possibile sulla probabile distribuzione della stessa misura in un nuovo studio che sto progettando e su quanta incertezza …


2
somma delle variabili aleatorie chi-quadrate non centrali
Devo trovare la distribuzione della variabile casuale Y=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2 dove Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i) e tutti gli XiXiX_i sono indipendenti. So che è possibile prima trovare il prodotto di tutte le funzioni generatrici di momenti per XiXiX_i , e poi tornare indietro per ottenere la distribuzione di YYYTuttavia, mi chiedo se esiste una forma …

6
Qual è la differenza tra statistiche descrittive e inferenziali?
La mia comprensione era che le statistiche descrittive descrivevano quantitativamente le caratteristiche di un campione di dati, mentre le statistiche inferenziali dedussero le popolazioni da cui venivano prelevati i campioni. Tuttavia, la pagina di Wikipedia per inferenza statistica afferma: Per la maggior parte, l'inferenza statistica fa proposizioni sulle popolazioni, usando …




1
Rilevamento di valori anomali nei dati di conteggio
Ho quello che pensavo ingenuamente di essere un problema piuttosto semplice che comporta il rilevamento anomalo di molti diversi set di dati di conteggio. In particolare, voglio determinare se uno o più valori in una serie di dati di conteggio sono più alti o più bassi del previsto rispetto al …


1
Quali sono alcuni miglioramenti ben noti rispetto agli algoritmi MCMC del libro di testo che le persone usano per l'inferenza bayesiana?
Quando sto codificando una simulazione Monte Carlo per qualche problema, e il modello è abbastanza semplice, utilizzo un campionario Gibbs molto semplice. Quando non è possibile utilizzare il campionamento di Gibbs, codifico il libro di testo Metropolis-Hastings che ho imparato anni fa. L'unico pensiero che ci faccio è scegliere la …



5
Foresta casuale vs regressione
Ho eseguito un modello di regressione OLS su set di dati con 5 variabili indipendenti. Le variabili indipendenti e la variabile dipendente sono entrambe continue e correlate in modo lineare. La R Square è di circa il 99,3%. Ma quando eseguo lo stesso utilizzo della foresta casuale in R, il …

4
Imputazione multipla e selezione del modello
L'imputazione multipla è abbastanza semplice quando si dispone di un modello lineare a priori che si desidera stimare. Tuttavia, le cose sembrano essere un po 'più complicate quando si vuole effettivamente fare una selezione del modello (ad esempio, trovare il set "migliore" di variabili predittive da un set più ampio …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.