Statistiche e Big Data

2

Qual è il modello statistico alla base dell'algoritmo SVM?

Ho imparato che, quando si tratta di dati utilizzando un approccio basato sul modello, il primo passo è la modellazione della procedura dei dati come modello statistico. Quindi il passo successivo è lo sviluppo di un algoritmo di inferenza / apprendimento efficiente / veloce basato su questo modello statistico. Quindi …

28 machine-learning svm modeling

1

Esistono analisi fattoriali o PCA per dati ordinali o binari?

Ho completato l'analisi dei componenti principali (PCA), l'analisi dei fattori esplorativi (EFA) e l'analisi dei fattori di conferma (CFA), trattando i dati con una scala di likert (risposte a 5 livelli: nessuna, un po ', alcune, ..) come continua variabile. Quindi, usando Lavaan, ho ripetuto il CFA definendo le variabili …

28 pca factor-analysis ordinal-data binary-data likert

3

Rompicapo: Qual è la lunghezza attesa di una sequenza iid che sta aumentando monotonicamente quando viene attinto da una distribuzione uniforme [0,1]?

Questa è una domanda di intervista per una posizione di analista quantitativa, riportata qui . Supponiamo che stiamo attingendo da una distribuzione uniforme [0,1][0,1][0,1] e che i disegni siano iid, qual è la lunghezza prevista di una distribuzione monotonicamente crescente? Cioè, smettiamo di disegnare se il sorteggio corrente è minore …

28 probability random-variable expected-value uniform iid

2

Significato (e prova) di "RNN può approssimare qualsiasi algoritmo"

Recentemente ho letto che una rete neurale ricorrente può approssimare qualsiasi algoritmo. Quindi la mia domanda è: cosa significa esattamente questo e puoi darmi un riferimento dove questo è dimostrato?

28 references rnn

1

Quanto è errato un modello di regressione quando le assunzioni non sono soddisfatte?

Quando si adatta un modello di regressione, cosa succede se le ipotesi degli output non sono soddisfatte, in particolare: Cosa succede se i residui non sono omoscedastici? Se i residui mostrano uno schema crescente o decrescente nella trama Residui vs. Cosa succede se i residui non sono normalmente distribuiti e …

28 regression multiple-regression error assumptions normality-assumption

4

Una distribuzione uniforme di molti valori p fornisce prove statistiche che H0 è vero?

Un singolo test statistico può fornire la prova che l'ipotesi nulla (H0) è falsa e quindi l'ipotesi alternativa (H1) è vera. Ma non può essere usato per mostrare che H0 è vero perché non si respinge H0 non significa che H0 è vero. Ma supponiamo che tu abbia la possibilità …

28 hypothesis-testing p-value combining-p-values

1

Valore "Frequenza" per intervalli di secondi / minuti dati in R

Sto usando i modelli R (3.1.1) e ARIMA per le previsioni. Vorrei sapere quale dovrebbe essere il parametro "frequenza", che è assegnato nella ts()funzione , se sto usando dati di serie temporali che sono: separato da minuti e si sviluppa su 180 giorni (1440 minuti / giorno) separato da secondi …

28 r time-series arima multiple-seasonalities mape

2

Rumore bianco nelle statistiche

Vedo spesso il termine rumore bianco che appare quando leggo su diversi modelli statistici. Devo tuttavia ammettere che non sono completamente sicuro di cosa significhi. Di solito è abbreviato come WN( 0 , σ2)WN(0,σ2)WN(0,σ^2) . Significa che è normalmente distribuito o potrebbe seguire qualsiasi distribuzione?

28 normal-distribution white-noise

1

Perché la mia derivazione di una soluzione lazo in forma chiusa non è corretta?

βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX Tuttavia non capisco perché non esiste una soluzione a forma chiusa in generale. Usando le sottodifferenziali ho ottenuto quanto segue. ( XXX è una matrice n×pn×pn \times p ) f(β)=∥y−Xβ∥22+α∥β∥1f(β)=‖y−Xβ‖22+α‖β‖1f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1 =∑i=1n(yi−Xiβ)2+α∑j=1p|βj|=∑i=1n(yi−Xiβ)2+α∑j=1p|βj| =\sum_{i=1}^n (y_i-X_i\beta)^2 + \alpha \sum_{j=1}^p |\beta_j| …

28 regression lasso regularization

2

Perché i valori p sono fuorvianti dopo aver eseguito una selezione graduale?

Consideriamo ad esempio un modello di regressione lineare. Ho sentito che, nel data mining, dopo aver eseguito una selezione graduale basata sul criterio AIC, è fuorviante guardare i valori p per testare l'ipotesi nulla che ogni coefficiente di regressione reale sia zero. Ho sentito che si dovrebbero considerare invece tutte …

28 multiple-regression predictive-models data-mining stepwise-regression

1

Approssimazione della funzione di perdita XGBoost con Taylor Expansion

Come esempio, assumere la funzione obiettivo del modello XGBoost sulla 'th iterazione:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) dove è la funzione di perdita, è la t 'th uscita albero e \ Omega è la regolarizzazione. Uno dei (molti) passaggi chiave per il calcolo veloce è l'approssimazione:ℓℓ\ellftftf_ttttΩΩ\Omega L( t )≈ ∑i = 1nℓ ( yio, …

28 optimization loss-functions boosting xgboost taylor-series

2

Quali aspetti del set di dati “Iris” lo rendono così efficace come un set di dati di esempio / insegnamento / test

Il set di dati "Iris" è probabilmente familiare alla maggior parte delle persone qui: è uno dei set di dati di test canonici e un set di dati di esempio per tutto, dalla visualizzazione dei dati all'apprendimento automatico. Ad esempio, tutti in questa domanda hanno finito per usarlo per una …

28 dataset

2

Reti di credenze profonde o macchine Deep Boltzmann?

Non ho capito bene. C'è una differenza tra le reti di credenze profonde e le macchine Deep Boltzmann? In tal caso, qual è la differenza?

28 machine-learning deep-learning rbm deep-belief-networks

5

Differenza tra le reti bayesiane e il processo di Markov?

Qual è la differenza tra una rete bayesiana e un processo Markov? Credevo di aver capito i principi di entrambi, ma ora quando ho bisogno di confrontare i due mi sento perso. Significano quasi lo stesso per me. Sicuramente non lo sono. Sono anche apprezzati i collegamenti ad altre risorse.

28 bayesian references modeling markov-process bayesian-network

2

Perché la regressione della cresta glmnet mi dà una risposta diversa rispetto al calcolo manuale?

Sto usando glmnet per calcolare le stime di regressione della cresta. Ho ottenuto alcuni risultati che mi hanno fatto sospettare che glmnet stia davvero facendo quello che penso faccia. Per verificare questo ho scritto un semplice script R in cui comparo il risultato della regressione della cresta effettuata da risolvere …

28 r ridge-regression glmnet