Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


5
In che modo i principali componenti principali possono conservare il potere predittivo su una variabile dipendente (o persino portare a previsioni migliori)?
Supponiamo che io sono in esecuzione una regressione Y∼XY∼XY \sim X . Perché selezionando i componenti principali di di , il modello mantiene il suo potere predittivo su ?kkkXXXYYY Capisco che dal punto di vista della riduzione di dimensionalità / selezione delle caratteristiche, se sono gli autovettori della matrice di …

3
Interpretazione della regolarizzazione della cresta nella regressione
Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta …






2
Correlazione tra stimatori OLS per intercettazione e pendenza
In un semplice modello di regressione, y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, gli stimatori OLS betaβ^OLS0β^0OLS\hat{\beta}_0^{OLS} e sono correlate.β^OLS1β^1OLS\hat{\beta}_1^{OLS} La formula per la correlazione tra i due stimatori è (se l'ho derivata correttamente): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. Domande: Qual è la spiegazione intuitiva della presenza …

5
Come generare una grande matrice di correlazione casuale full-rank con alcune forti correlazioni presenti?
Vorrei generare una matrice di correlazione casuale di dimensioni tale che siano presenti alcune correlazioni moderatamente forti: n × nCC\mathbf Cn × nn×nn \times n matrice quadrata simmetrica reale di dimensione, ad es. ;n = 100n × nn×nn \times nn = 100n=100n=100 definito positivo, cioè con tutti gli autovalori reali …




1
"Stima della densità del kernel" è una convoluzione di cosa?
Sto cercando di comprendere meglio la stima della densità del kernel. Utilizzando la definizione da Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^( x ) = 1nΣni = 1Kh( x - xio)= 1n hΣni = 1K( x - xioh)fh^(X)=1nΣio=1nKh(X-Xio)=1nhΣio=1nK(X-Xioh) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) Prendiamo come una funzione …

2
Come utilizzare i risultati R prcomp per la previsione?
Ho un data.frame con 800 obs. di 40 variabili e vorrei utilizzare l'analisi dei componenti di principio per migliorare i risultati della mia previsione (che finora funziona meglio con Support Vector Machine su circa 15 variabili selezionate manualmente). Comprendo che un prcomp può aiutarmi a migliorare le mie previsioni, ma …
25 r  pca 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.