Statistiche e Big Data

6

Posteriore molto diverso dal precedente e dalla probabilità

Se la priorità e la probabilità sono molto diverse tra loro, a volte si verifica una situazione in cui il posteriore è simile a nessuno dei due. Vedi ad esempio questa immagine, che utilizza distribuzioni normali. Anche se questo è matematicamente corretto, non sembra concordare con la mia intuizione - …

21 bayesian prior posterior likelihood

2

Combinazione di informazioni provenienti da più studi per stimare la media e la varianza dei dati normalmente distribuiti: approcci bayesiani vs meta-analitici

Ho esaminato una serie di documenti, ciascuno dei quali riportava la media osservata e la DS di una misurazione di nel rispettivo campione di dimensioni note, . Voglio fare la migliore ipotesi possibile sulla probabile distribuzione della stessa misura in un nuovo studio che sto progettando e su quanta incertezza …

21 bayesian normal-distribution meta-analysis

5

Il posteriore bayesiano deve essere una distribuzione adeguata?

So che i priori non hanno bisogno di essere propri e che neanche la funzione di verosimiglianza si integra con 1. Ma il posteriore deve essere una distribuzione adeguata? Quali sono le implicazioni se è / non è?

21 distributions bayesian posterior

2

somma delle variabili aleatorie chi-quadrate non centrali

Devo trovare la distribuzione della variabile casuale Y=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2 dove Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i) e tutti gli XiXiX_i sono indipendenti. So che è possibile prima trovare il prodotto di tutte le funzioni generatrici di momenti per XiXiX_i , e poi tornare indietro per ottenere la distribuzione di YYYTuttavia, mi chiedo se esiste una forma …

21 distributions chi-squared random-variable saddlepoint-approximation

6

Qual è la differenza tra statistiche descrittive e inferenziali?

La mia comprensione era che le statistiche descrittive descrivevano quantitativamente le caratteristiche di un campione di dati, mentre le statistiche inferenziali dedussero le popolazioni da cui venivano prelevati i campioni. Tuttavia, la pagina di Wikipedia per inferenza statistica afferma: Per la maggior parte, l'inferenza statistica fa proposizioni sulle popolazioni, usando …

21 terminology descriptive-statistics inference

3

Come verificare la normale distribuzione utilizzando Excel per eseguire un test t?

Voglio sapere come controllare un set di dati per la normalità in Excel, solo per verificare che siano soddisfatti i requisiti per l'utilizzo di un test t . Per la coda destra, è appropriato calcolare solo una media e una deviazione standard, aggiungere 1, 2 e 3 deviazioni standard dalla …

21 normal-distribution excel

1

Conversione (normalizzazione) di valori di probabilità molto piccoli in probabilità

Sto scrivendo un algoritmo in cui, dato un modello, calcolo le probabilità per un elenco di set di dati e quindi ho bisogno di normalizzare (con probabilità) ciascuna delle probabilità. Quindi qualcosa come [0,00043, 0,00004, 0,00321] potrebbe essere convertito in potrebbe essere come [0,2, 0,03, 0,77]. Il mio problema è …

21 probability normalization likelihood c++ arithmetic

3

Come e quando utilizzare la regolazione Bonferroni

Ho due domande su quando usare un aggiustamento Bonferroni: È appropriato utilizzare un aggiustamento Bonferroni in tutti i casi di test multipli? Se si esegue un test su un set di dati, quindi si divide tale set di dati in livelli più fini (ad es. Dividere i dati per genere) …

21 multiple-comparisons bonferroni type-i-and-ii-errors

1

Rilevamento di valori anomali nei dati di conteggio

Ho quello che pensavo ingenuamente di essere un problema piuttosto semplice che comporta il rilevamento anomalo di molti diversi set di dati di conteggio. In particolare, voglio determinare se uno o più valori in una serie di dati di conteggio sono più alti o più bassi del previsto rispetto al …

21 outliers count-data fitting

5

Come controllare il costo dell'errata classificazione nelle foreste casuali?

È possibile controllare il costo dell'errata classificazione nel pacchetto R randomForest ? Nel mio lavoro, i falsi negativi (ad esempio, la mancanza di errori che una persona potrebbe avere una malattia) sono molto più costosi dei falsi positivi. Il pacchetto rpart consente all'utente di controllare i costi di classificazione errata …

21 r classification random-forest loss-functions metric

1

Quali sono alcuni miglioramenti ben noti rispetto agli algoritmi MCMC del libro di testo che le persone usano per l'inferenza bayesiana?

Quando sto codificando una simulazione Monte Carlo per qualche problema, e il modello è abbastanza semplice, utilizzo un campionario Gibbs molto semplice. Quando non è possibile utilizzare il campionamento di Gibbs, codifico il libro di testo Metropolis-Hastings che ho imparato anni fa. L'unico pensiero che ci faccio è scegliere la …

21 bayesian mcmc gibbs metropolis-hastings

3

Avere un coniugato prima: Proprietà profonda o incidente matematico?

Alcune distribuzioni hanno priori coniugati e altre no. Questa distinzione è solo un incidente? Cioè, fai la matematica, e funziona in un modo o nell'altro, ma non ti dice davvero nulla di importante sulla distribuzione tranne il fatto stesso? O la presenza o l'assenza di un coniugato precedente riflette alcune …

21 bayesian mathematical-statistics conjugate-prior

5

Fonti per l'apprendimento (non solo per l'esecuzione) di statistiche / matematica attraverso R

Sono interessato ad esempi di fonti (codice R, pacchetti R, libri, capitoli di libri, articoli, collegamenti ecc.) Per l' apprendimento di concetti statistici e matematici attraverso R (potrebbe anche essere attraverso altre lingue, ma R è il mio sapore preferito). La sfida è che l'apprendimento del materiale si basa sulla …

21 r references mathematical-statistics

5

Foresta casuale vs regressione

Ho eseguito un modello di regressione OLS su set di dati con 5 variabili indipendenti. Le variabili indipendenti e la variabile dipendente sono entrambe continue e correlate in modo lineare. La R Square è di circa il 99,3%. Ma quando eseguo lo stesso utilizzo della foresta casuale in R, il …

21 r regression random-forest

4

Imputazione multipla e selezione del modello

L'imputazione multipla è abbastanza semplice quando si dispone di un modello lineare a priori che si desidera stimare. Tuttavia, le cose sembrano essere un po 'più complicate quando si vuole effettivamente fare una selezione del modello (ad esempio, trovare il set "migliore" di variabili predittive da un set più ampio …

21 multiple-regression multiple-imputation