Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


4
Per la stampa con R, dovrei imparare ggplot2 o ggvis?
Per la stampa con R, dovrei imparare ggplot2 o ggvis? Non voglio necessariamente imparare entrambi se uno di loro è superiore sotto tutti gli aspetti. Perché la comunità R continua a creare nuovi pacchetti con funzionalità sovrapposte? Il post sul blog di introduzione non menziona una parola per cui ggvis …

3
Perché la regressione polinomiale è considerata un caso speciale di regressione lineare multipla?
Se la regressione polinomiale modella relazioni non lineari, come può essere considerato un caso speciale di regressione lineare multipla? Wikipedia osserva che "Sebbene la regressione polinomiale si adatti a un modello non lineare ai dati, come problema di stima statistica è lineare, nel senso che la funzione di regressione è …


2
Qual è la differenza tra regressione quantile condizionale e incondizionata?
Lo stimatore di regressione quantile condizionale di Koenker e Basset (1978) per il quantile è definito come dove \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) è una funzione di ripesatura (chiamata funzione "check") dei residui u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau …

5
Predizione nella regressione di Cox
Sto facendo una regressione multivariata di Cox, ho le mie significative variabili indipendenti e valori beta. Il modello si adatta molto bene ai miei dati. Ora, vorrei usare il mio modello e prevedere la sopravvivenza di una nuova osservazione. Non sono chiaro come farlo con un modello Cox. In una …


2
Cos'è l'identificabilità del modello?
So che con un modello non identificabile si può dire che i dati sono generati da più assegnazioni diverse ai parametri del modello. So che a volte è possibile vincolare i parametri in modo che tutti siano identificabili, come nell'esempio in Cassella & Berger 2nd ed, sezione 11.2. Dato un …

6
Qual è la connessione tra regioni credibili e test di ipotesi bayesiana?
Nelle statistiche del frequentista, esiste una stretta connessione tra intervalli di confidenza e test. Usando l'inferenza su nella distribuzione come esempio, l' intervallo di confidenza contiene tutti i valori di che non sono rifiutati dal test al livello di significatività .μμ\muN ( μ , σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1 - α1−α1-\alphaX¯± tα / …


8
È valido includere una misura di base come variabile di controllo quando si verifica l'effetto di una variabile indipendente sui punteggi delle modifiche?
Sto tentando di eseguire una regressione OLS: DV: variazione di peso nell'arco di un anno (peso iniziale - peso finale) IV: se ti alleni o meno. Tuttavia, sembra ragionevole che le persone più pesanti perderanno più peso per unità di esercizio rispetto alle persone più magre. Pertanto, volevo includere una …

5
'Raggruppamento' di serie storiche in R
Ho un insieme di dati di serie storiche. Ogni serie copre lo stesso periodo, anche se le date effettive di ciascuna serie temporale potrebbero non "allinearsi" esattamente. Vale a dire, se le serie temporali fossero lette in una matrice 2D, sarebbe simile a questa: date T1 T2 T3 .... TN …

9
Come posso modellare in modo efficiente la somma delle variabili casuali di Bernoulli?
YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Sono interessato a rispondere rapidamente a domande come (dove viene fornito ).Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)kkk Attualmente utilizzo simulazioni casuali per rispondere a tali domande. Traccio casualmente ogni X_i inXiXiX_i base alla sua pipip_i , quindi somma tutti i valori XiXiX_i per ottenere Y′Y′Y' . Ripeto questo processo alcune migliaia di volte …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.