Statistiche e Big Data computational-statistics

1

Soluzione in forma chiusa al problema del lazo quando la matrice di dati è diagonale

\newcommand{\diag}{\operatorname{diag}} Abbiamo il problema: minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), presupponendo che: ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Esiste una soluzione a forma chiusa in questo caso? Ho questo: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), e quindi penso che la risposta sia : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, per yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} , ma non ne sono sicuro.

13 mathematical-statistics lasso computational-statistics regularization

7

Dare un senso alla teoria e alle applicazioni statistiche

Mi sono recentemente laureato con un master in modellistica medica e biologica, accompagnato da ingegneria matematica come sfondo. Anche se il mio programma educativo includeva una quantità significativa di corsi di statistica matematica (vedi sotto per un elenco), che ho gestito con voti piuttosto alti, finisco spesso per perdere completamente …

13 mathematical-statistics bioinformatics computational-statistics

1

Come posso ottimizzare l'efficienza computazionale quando si adatta ripetutamente un modello complesso a un set di dati di grandi dimensioni?

Sto MCMCglmmriscontrando problemi di prestazioni utilizzando il pacchetto in R per eseguire un modello di effetti misti. Il codice è simile al seguente: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) Ci sono circa 20.000 osservazioni nei dati e sono raggruppate in circa 200 scuole. Ho eliminato tutte …

12 r mixed-model mcmc computational-statistics

4

Rilevamento anomalo nelle serie temporali: come ridurre i falsi positivi?

Sto cercando di automatizzare il rilevamento anomalo nelle serie temporali e ho usato una modifica della soluzione proposta da Rob Hyndman qui . Ad esempio, misuro le visite giornaliere a un sito Web di vari paesi. Per alcuni paesi in cui le visite giornaliere sono poche centinaia o migliaia, il …

11 time-series outliers computational-statistics

3

Utilizzo di simulazioni al computer per comprendere meglio i concetti statistici a livello di laurea

Salve, sto seguendo un corso di laurea in Statistica e stiamo trattando le statistiche dei test e altri concetti. Tuttavia, sono spesso in grado di applicare le formule e sviluppare una sorta di intuizione su come funzionano le cose, ma spesso mi viene la sensazione che forse se avessi sostenuto …

11 r hypothesis-testing sas simulation computational-statistics

1

Che cos'è questo "coefficiente di correlazione massimo"?

Una tipica statistica di elaborazione delle immagini è l'uso delle funzioni della trama di Haralick , che sono 14. Mi chiedo la quattordicesima di queste caratteristiche: data una mappa di adiacenza (che possiamo semplicemente visualizzare una distribuzione empirica di due numeri interi i , j < 256 ), è definita …

11 probability computational-statistics

1

Trovare un gruppo di controllo comparabile per un gruppo di trattamento?

Ho un gruppo di trattamento di dimensioni 30 (30 scuole in California) che utilizzava un software aggiuntivo per la matematica. In una semplice analisi, vorrei confrontare la crescita matematica media degli studenti tra il nostro gruppo di trattamento e un gruppo di controllo comparabile. Ci sono molte scuole in California …

11 mathematical-statistics descriptive-statistics computational-statistics

2

Matrice inversa di covarianza vs matrice di covarianza in PCA

Nella PCA, fa differenza se scegliamo i componenti principali della matrice di covarianza inversa O se lasciamo cadere gli autovettori della matrice di covarianza corrispondenti a grandi autovalori? Questo è legato alla discussione in questo post .

10 machine-learning pca computational-statistics

3

È possibile in R (o in generale) forzare i coefficienti di regressione come un certo segno?

Sto lavorando con alcuni dati del mondo reale e i modelli di regressione stanno producendo risultati controintuitivi. Di solito mi fido delle statistiche ma in realtà alcune di queste cose non possono essere vere. Il problema principale che sto vedendo è che un aumento di una variabile sta causando un …

10 r regression regression-coefficients computational-statistics

1

Calcolo / stima rapidi di un sistema lineare di basso rango

I sistemi lineari di equazioni sono pervasivi nelle statistiche computazionali. Un sistema speciale che ho riscontrato (ad es. Nell'analisi fattoriale) è il sistema Ax=bAx=bAx=b dove A=D+BΩBTA=D+BΩBTA=D+ B \Omega B^T Qui DDD è una matrice diagonale n×nn×nn\times n con una diagonale strettamente positiva, ΩΩ\Omega è una matrice semi-definita positiva simmetrica m×mm×mm\times …

10 factor-analysis matrix computational-statistics matrix-decomposition matrix-inverse

4

Test di software statistico

Quali tecniche / approcci sono utili nel test di software statistico? Sono particolarmente interessato ai programmi che eseguono stime parametriche utilizzando la massima probabilità. Confrontare i risultati con quelli di altri programmi o fonti pubblicate non è sempre possibile poiché la maggior parte delle volte quando scrivo un mio programma …

10 software computing computational-statistics

4

Perché è richiesta la discesa gradiente?

Quando possiamo differenziare la funzione di costo e trovare parametri risolvendo equazioni ottenute attraverso una differenziazione parziale rispetto a ciascun parametro e scoprire dove la funzione di costo è minima. Inoltre penso che sia possibile trovare più luoghi in cui i derivati sono zero, quindi possiamo verificare tutti questi posti …

10 machine-learning computational-statistics

2

Come campionare dalla distribuzione discreta sugli interi non negativi?

Ho la seguente distribuzione discreta, dove sono costanti conosciute:α,βα,β\alpha,\beta p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,…p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots Quali sono alcuni approcci per campionare in modo efficiente da questa distribuzione?

10 sampling mcmc computational-statistics importance-sampling rejection-sampling

3

Rilevazione di anomalie di serie storiche con Python

Devo implementare il rilevamento di anomalie su diversi set di dati di serie storiche. Non l'ho mai fatto prima e speravo in qualche consiglio. Mi sento molto a mio agio con Python, quindi preferirei implementare la soluzione (la maggior parte del mio codice è Python per altre parti del mio …

10 machine-learning time-series python computational-statistics anomaly-detection

1

costo di campionamento di

Mi sono imbattuto nel seguente problema di simulazione: dato un set di numeri reali noti, una distribuzione su è definita da dove indica la parte positiva di . Mentre riesco a pensare a un campionatore Metropolis-Hastings che prende di mira questa distribuzione, mi chiedo se esiste un campionatore diretto efficiente, …

9 simulation algorithms random-generation computational-statistics metropolis-hastings

Domande taggate «computational-statistics»