Statistiche e Big Data

2

Approssimazioni di Satterthwaite vs. Kenward-Roger per i gradi di libertà nei modelli misti

Il lmerTestpacchetto fornisce una anova()funzione per modelli misti lineari con l'approssimazione di Satterthwaite (impostazione predefinita) o Kenward-Roger dei gradi di libertà (df). Qual è la differenza tra questi due approcci? Quando scegliere quale?

25 r anova mixed-model lme4-nlme degrees-of-freedom

5

In che modo i principali componenti principali possono conservare il potere predittivo su una variabile dipendente (o persino portare a previsioni migliori)?

Supponiamo che io sono in esecuzione una regressione Y∼XY∼XY \sim X . Perché selezionando i componenti principali di di , il modello mantiene il suo potere predittivo su ?kkkXXXYYY Capisco che dal punto di vista della riduzione di dimensionalità / selezione delle caratteristiche, se sono gli autovettori della matrice di …

25 regression classification pca dimensionality-reduction regularization

3

Interpretazione della regolarizzazione della cresta nella regressione

Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta …

25 regression pca regularization ridge-regression

4

Come si utilizza il set di dati "test" dopo la convalida incrociata?

In alcune lezioni ed esercitazioni che ho visto, suggeriscono di dividere i dati in tre parti: formazione, convalida e test. Ma non è chiaro come utilizzare il set di dati di test, né come questo approccio sia migliore della convalida incrociata sull'intero set di dati. Supponiamo di aver salvato il …

25 machine-learning cross-validation validation

4

Quando evitare la foresta casuale?

Le foreste casuali sono ben note per svolgere abbastanza bene su una varietà di compiti e sono state indicate come la pellettiera dei metodi di apprendimento . Esistono tipi di problemi o condizioni specifiche in cui si dovrebbe evitare di usare una foresta casuale?

25 machine-learning classification random-forest

2

Ha senso combinare PCA e LDA?

Supponiamo di avere un set di dati per un'attività di classificazione statistica supervisionata, ad esempio tramite un classificatore di Bayes. Questo set di dati è composto da 20 funzionalità e desidero ridurlo a 2 funzionalità tramite tecniche di riduzione della dimensionalità come Analisi componenti principali (PCA) e / o Analisi …

25 classification pca regularization discriminant-analysis overfitting

3

Ragionamento intuitivo alla base di stimatori di massima verosimiglianza distorti

Ho una confusione sugli stimatori di massima verosimiglianza (ML) distorti . La matematica dell'intero concetto mi è abbastanza chiara, ma non riesco a capire il ragionamento intuitivo alla base. Dato un determinato set di dati che contiene campioni da una distribuzione, che è esso stesso una funzione di un parametro …

25 maximum-likelihood bias

7

Qual è la routine lavorativa quotidiana dello scienziato che impara le macchine?

Sono uno studente CS master in un'università tedesca e sto scrivendo la mia tesi. Tra due mesi avrò preso la decisione molto difficile se dovessi continuare con un dottorato di ricerca o trovare un lavoro nel settore. Le mie ragioni per fare un dottorato di ricerca: Sono una persona molto …

25 machine-learning data-mining careers

2

Correlazione tra stimatori OLS per intercettazione e pendenza

In un semplice modello di regressione, y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, gli stimatori OLS betaβ^OLS0β^0OLS\hat{\beta}_0^{OLS} e sono correlate.β^OLS1β^1OLS\hat{\beta}_1^{OLS} La formula per la correlazione tra i due stimatori è (se l'ho derivata correttamente): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. Domande: Qual è la spiegazione intuitiva della presenza …

25 regression least-squares estimators

5

Come generare una grande matrice di correlazione casuale full-rank con alcune forti correlazioni presenti?

Vorrei generare una matrice di correlazione casuale di dimensioni tale che siano presenti alcune correlazioni moderatamente forti: n × nCC\mathbf Cn × nn×nn \times n matrice quadrata simmetrica reale di dimensione, ad es. ;n = 100n × nn×nn \times nn = 100n=100n=100 definito positivo, cioè con tutti gli autovalori reali …

25 random-generation covariance-matrix correlation-matrix

5

Come testare ed evitare la multicollinearità nel modello lineare misto?

Attualmente sto eseguendo alcuni modelli lineari ad effetto misto. Sto usando il pacchetto "lme4" in R. I miei modelli prendono la forma: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) Prima di eseguire i miei modelli, ho verificato la possibile multicollinearità tra predittori. L'ho fatto per: …

25 r correlation mixed-model lme4-nlme multicollinearity

3

Come interpretare il dendrogramma di un'analisi dei cluster gerarchici

Considera l'esempio R di seguito: plot( hclust(dist(USArrests), "ave") ) Cosa significa esattamente "Altezza" sull'asse y? Guardando la Carolina del Nord e la California (piuttosto a sinistra). La California è "più vicina" alla Carolina del Nord rispetto all'Arizona? Posso fare questa interpretazione? Hawaii (a destra) si unisce al cluster piuttosto tardi. …

25 interpretation hierarchical-clustering dendrogram

4

Verifica dei presupposti modelli misti lmer / lme in R

Ho eseguito un disegno ripetuto per cui ho testato 30 maschi e 30 femmine in tre diversi compiti. Voglio capire come il comportamento di maschi e femmine sia diverso e come ciò dipenda dal compito. Ho usato sia il pacchetto lmer che lme4 per indagare su questo, tuttavia, sono bloccato …

25 r mixed-model assumptions lme4-nlme

1

"Stima della densità del kernel" è una convoluzione di cosa?

Sto cercando di comprendere meglio la stima della densità del kernel. Utilizzando la definizione da Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^( x ) = 1nΣni = 1Kh( x - xio)= 1n hΣni = 1K( x - xioh)fh^(X)=1nΣio=1nKh(X-Xio)=1nhΣio=1nK(X-Xioh) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) Prendiamo come una funzione …

25 r kernel-smoothing convolution

2

Come utilizzare i risultati R prcomp per la previsione?

Ho un data.frame con 800 obs. di 40 variabili e vorrei utilizzare l'analisi dei componenti di principio per migliorare i risultati della mia previsione (che finora funziona meglio con Support Vector Machine su circa 15 variabili selezionate manualmente). Comprendo che un prcomp può aiutarmi a migliorare le mie previsioni, ma …

25 r pca