Statistiche e Big Data

3

Qual è il significato di un intervallo di confidenza preso dai campioni bootstrap?

Ho esaminato numerose domande su questo sito per quanto riguarda il bootstrap e gli intervalli di confidenza, ma sono ancora confuso. Parte del motivo della mia confusione è probabilmente che non sono abbastanza avanzato nelle mie conoscenze statistiche per capire molte delle risposte. Sono a metà del corso di statistica …

38 confidence-interval bootstrap

4

Per la stampa con R, dovrei imparare ggplot2 o ggvis?

Per la stampa con R, dovrei imparare ggplot2 o ggvis? Non voglio necessariamente imparare entrambi se uno di loro è superiore sotto tutti gli aspetti. Perché la comunità R continua a creare nuovi pacchetti con funzionalità sovrapposte? Il post sul blog di introduzione non menziona una parola per cui ggvis …

38 r data-visualization software

3

Perché la regressione polinomiale è considerata un caso speciale di regressione lineare multipla?

Se la regressione polinomiale modella relazioni non lineari, come può essere considerato un caso speciale di regressione lineare multipla? Wikipedia osserva che "Sebbene la regressione polinomiale si adatti a un modello non lineare ai dati, come problema di stima statistica è lineare, nel senso che la funzione di regressione è …

38 regression multiple-regression linear-model nonlinear-regression polynomial

9

Qual è la relazione tra e in questo diagramma?

Qual è la relazione tra e nella trama seguente? Dal mio punto di vista esiste una relazione lineare negativa, ma poiché abbiamo molti valori anomali, la relazione è molto debole. Ho ragione? Voglio imparare come possiamo spiegare i grafici a dispersione.XYYYXXX

38 self-study correlation scatterplot

2

Qual è la differenza tra regressione quantile condizionale e incondizionata?

Lo stimatore di regressione quantile condizionale di Koenker e Basset (1978) per il quantile è definito come dove \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) è una funzione di ripesatura (chiamata funzione "check") dei residui u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau …

38 quantile-regression

5

Predizione nella regressione di Cox

Sto facendo una regressione multivariata di Cox, ho le mie significative variabili indipendenti e valori beta. Il modello si adatta molto bene ai miei dati. Ora, vorrei usare il mio modello e prevedere la sopravvivenza di una nuova osservazione. Non sono chiaro come farlo con un modello Cox. In una …

38 regression survival prediction cox-model

3

Perché gli ingenui classificatori bayesiani si comportano così bene?

I classificatori Naive Bayes sono una scelta popolare per i problemi di classificazione. Ci sono molte ragioni per questo, tra cui: "Zeitgeist" - consapevolezza diffusa dopo il successo dei filtri antispam di circa dieci anni fa Facile da scrivere Il modello di classificatore è veloce da costruire Il modello può …

38 classification naive-bayes

2

Cos'è l'identificabilità del modello?

So che con un modello non identificabile si può dire che i dati sono generati da più assegnazioni diverse ai parametri del modello. So che a volte è possibile vincolare i parametri in modo che tutti siano identificabili, come nell'esempio in Cassella & Berger 2nd ed, sezione 11.2. Dato un …

38 identifiability

6

Qual è la connessione tra regioni credibili e test di ipotesi bayesiana?

Nelle statistiche del frequentista, esiste una stretta connessione tra intervalli di confidenza e test. Usando l'inferenza su nella distribuzione come esempio, l' intervallo di confidenza contiene tutti i valori di che non sono rifiutati dal test al livello di significatività .μμ\muN ( μ , σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1 - α1−α1-\alphaX¯± tα / …

38 hypothesis-testing bayesian confidence-interval frequentist credible-interval

7

Esiste un buon browser / visualizzatore per vedere un set di dati R (file .rda)

Voglio sfogliare un file .rda (set di dati R). Conosco il View(datasetname)comando. Il R.app predefinito fornito per Mac non ha un ottimo browser per i dati (apre una finestra in X11). Mi piace il browser dati RStudio che si apre con il Viewcomando. Tuttavia, mostra solo 1000 righe e omette …

38 r

8

È valido includere una misura di base come variabile di controllo quando si verifica l'effetto di una variabile indipendente sui punteggi delle modifiche?

Sto tentando di eseguire una regressione OLS: DV: variazione di peso nell'arco di un anno (peso iniziale - peso finale) IV: se ti alleni o meno. Tuttavia, sembra ragionevole che le persone più pesanti perderanno più peso per unità di esercizio rispetto alle persone più magre. Pertanto, volevo includere una …

38 regression repeated-measures least-squares change-scores

5

'Raggruppamento' di serie storiche in R

Ho un insieme di dati di serie storiche. Ogni serie copre lo stesso periodo, anche se le date effettive di ciascuna serie temporale potrebbero non "allinearsi" esattamente. Vale a dire, se le serie temporali fossero lette in una matrice 2D, sarebbe simile a questa: date T1 T2 T3 .... TN …

38 r time-series clustering cointegration

9

Come posso modellare in modo efficiente la somma delle variabili casuali di Bernoulli?

YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Sono interessato a rispondere rapidamente a domande come (dove viene fornito ).Pr(Y<=k)Pr(Y<=k)\Pr(Y<=k)kkk Attualmente utilizzo simulazioni casuali per rispondere a tali domande. Traccio casualmente ogni X_i inXiXiX_i base alla sua pipip_i , quindi somma tutti i valori XiXiX_i per ottenere Y′Y′Y' . Ripeto questo processo alcune migliaia di volte …

38 r distributions binomial random-variable poisson-binomial

8

Come generare in modo efficiente matrici di correlazione semidefinite positive casuali?

Vorrei essere in grado di generare in modo efficiente matrici di correlazione semidefinite positiva (PSD). Il mio metodo rallenta notevolmente man mano che aumento le dimensioni delle matrici da generare. Potresti suggerire soluzioni efficaci? Se siete a conoscenza di esempi in Matlab, sarei molto grato. Quando generi una matrice di …

38 random-generation correlation-matrix

3

Come funziona l'approssimazione del punto di sella?

Come funziona l'approssimazione del punto di sella? Per quale tipo di problema è utile? (Sentiti libero di usare un esempio o esempi particolari a titolo illustrativo) Ci sono svantaggi, difficoltà, cose a cui fare attenzione o trappole per gli incauti?

38 distributions mathematical-statistics mgf saddlepoint-approximation partial-moments