Statistiche e Big Data

2

Convalida incrociata vs Bayes empirici per la stima di iperparametri

Dato un modello gerarchico , voglio che un processo in due fasi si adatti al modello. Innanzitutto, correggi una manciata di iperparametri , quindi fai l'inferenza bayesiana sul resto dei parametri . Per correggere gli iperparametri sto prendendo in considerazione due opzioni.p ( x | ϕ , θ )p(X|φ,θ)p(x|\phi,\theta)θθ\thetaφφ\phi Usa …

20 cross-validation references empirical-bayes

1

Intervallo di confidenza attorno al rapporto di due proporzioni

Ho due proporzioni (ad esempio, percentuale di clic (CTR) su un collegamento in un layout di controllo e CTR su un collegamento in un layout sperimentale) e voglio calcolare un intervallo di confidenza del 95% attorno al rapporto di queste proporzioni. Come faccio a fare questo? So di poter usare …

20 confidence-interval

4

Che senso ha confrontare i valori p tra loro?

Ho due popolazioni (uomini e donne), ognuna contenente campioni. Per ogni campione ho due proprietà A e B (media del primo anno e punteggio SAT). Ho usato un test t separatamente per A & B: entrambi hanno trovato differenze significative tra i due gruppi; A con e B con .100010001000p …

20 statistical-significance t-test p-value effect-size

2

Esiste uno stimatore imparziale della distanza di Hellinger tra due distribuzioni?

In un'impostazione in cui si osserva X1,…,XnX1,…,XnX_1,\ldots,X_n distribuito da una distribuzione con densità fff , mi chiedo se esiste uno stimatore imparziale (basato sulla XiXiX_i ) della distanza di Hellinger ad un'altra distribuzione con densità f0f0f_0 , vale a dire H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

20 pdf unbiased-estimator distance-functions functional-data-analysis hellinger

3

Combinazione di modelli di apprendimento automatico

Sono un po 'nuovo nel datamining / machine learning / ecc. e ho letto un paio di modi per combinare più modelli ed esecuzioni dello stesso modello per migliorare le previsioni. La mia impressione dalla lettura di un paio di articoli (che sono spesso interessanti e ottimi per la teoria …

20 r random-forest k-nearest-neighbour ensemble

2

Qual è la giustificazione teorica delle decisioni per le procedure di intervallo credibili bayesiane?

(Per capire perché l'ho scritto, controlla i commenti sotto la mia risposta a questa domanda .) Errori di tipo III e teoria delle decisioni statistiche Dare la risposta giusta alla domanda sbagliata è talvolta chiamato errore di tipo III. La teoria delle decisioni statistiche è una formalizzazione del processo decisionale …

20 bayesian credible-interval decision-theory

5

Cos'è un blocco nel design sperimentale?

Ho due domande sulla nozione di blocco nella progettazione sperimentale: (1) Qual è la differenza tra un blocco e un fattore? (2) Ho provato a leggere alcuni libri ma qualcosa non è chiaro: sembra che gli autori presumano sempre che non vi sia interazione tra il "fattore di blocco" e …

20 experiment-design interaction interpretation

2

Metodi di ricampionamento del cursore

Sto usando la libreria caretin R per testare varie procedure di modellazione. L' trainControloggetto consente di specificare un metodo di ricampionamento. I metodi sono descritti nella documentazione di sezione 2.3 ed includono: boot, boot632, cv, LOOCV, LGOCV, repeatedcve oob. Sebbene alcuni di questi siano facili da dedurre, non tutti questi …

20 r resampling caret

4

Esiste un test statistico parametrico e non parametrico?

Esiste un test statistico parametrico e non parametrico? Questa domanda è stata posta da un panel di interviste. È una domanda valida?

20 nonparametric terminology parametric

6

Quando eliminare un termine da un modello di regressione?

Qualcuno potrebbe avvisare se ha senso quanto segue: Ho a che fare con un normale modello lineare con 4 predittori. Ho due menti se abbandonare il termine meno significativo. Il valore è leggermente superiore a 0,05. Ho discusso a favore di lasciarlo cadere in questo modo: moltiplicare la stima di …

20 regression model-selection

2

Test di significatività o cross validation?

Due approcci comuni per la selezione di variabili correlate sono i test di significatività e la validazione incrociata. Quale problema ciascuno cerca di risolvere e quando preferirei l'uno all'altro?

20 cross-validation feature-selection

4

Riepilogo dei risultati "Grande p, Piccola n"

Qualcuno può indicarmi un documento del sondaggio sui risultati "Grande , Piccola n "? Sono interessato a come questo problema si manifesta in diversi contesti di ricerca, ad esempio regressione, classificazione, test di Hotelling, ecc .pppnnn

20 regression classification multivariate-analysis

2

Confronti consentiti di modelli di effetti misti (principalmente effetti casuali)

Ho esaminato la modellazione di effetti misti usando il pacchetto lme4 in R. Uso principalmente il lmercomando, quindi porrò la mia domanda attraverso il codice che usa quella sintassi. Suppongo che potrebbe essere una domanda semplice generale, è corretto confrontare due modelli costruiti lmerutilizzando rapporti di probabilità basati su set …

20 r mixed-model lme4-nlme likelihood-ratio

8

Idee per il software "notebook da laboratorio"?

Quindi questa è una scelta strana, anche se in realtà penso che sia una strana misura per qualsiasi sito, quindi ho pensato di provarlo qui, tra i miei fratelli scricchiolanti di dati. Sono venuto all'epidemiologia e alla biostatistica dalla biologia, e sicuramente ho ancora alcune abitudini da quel campo. Uno …

20 references software eda

2

Qual è la differenza tra regressione binomiale e regressione logistica?

Ho sempre pensato alla regressione logistica come semplicemente un caso speciale di regressione binomiale in cui la funzione di collegamento è la funzione logistica (anziché, diciamo, una funzione probit). Dalla lettura delle risposte su un'altra domanda che ho avuto, tuttavia, sembra che potrei essere confuso, e c'è una differenza tra …

20 regression logistic binomial