Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati
Il lmerTestpacchetto fornisce una anova()funzione per modelli misti lineari con l'approssimazione di Satterthwaite (impostazione predefinita) o Kenward-Roger dei gradi di libertà (df). Qual è la differenza tra questi due approcci? Quando scegliere quale?
Supponiamo che io sono in esecuzione una regressione Y∼XY∼XY \sim X . Perché selezionando i componenti principali di di , il modello mantiene il suo potere predittivo su ?kkkXXXYYY Capisco che dal punto di vista della riduzione di dimensionalità / selezione delle caratteristiche, se sono gli autovettori della matrice di …
Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta …
In alcune lezioni ed esercitazioni che ho visto, suggeriscono di dividere i dati in tre parti: formazione, convalida e test. Ma non è chiaro come utilizzare il set di dati di test, né come questo approccio sia migliore della convalida incrociata sull'intero set di dati. Supponiamo di aver salvato il …
Le foreste casuali sono ben note per svolgere abbastanza bene su una varietà di compiti e sono state indicate come la pellettiera dei metodi di apprendimento . Esistono tipi di problemi o condizioni specifiche in cui si dovrebbe evitare di usare una foresta casuale?
Supponiamo di avere un set di dati per un'attività di classificazione statistica supervisionata, ad esempio tramite un classificatore di Bayes. Questo set di dati è composto da 20 funzionalità e desidero ridurlo a 2 funzionalità tramite tecniche di riduzione della dimensionalità come Analisi componenti principali (PCA) e / o Analisi …
Ho una confusione sugli stimatori di massima verosimiglianza (ML) distorti . La matematica dell'intero concetto mi è abbastanza chiara, ma non riesco a capire il ragionamento intuitivo alla base. Dato un determinato set di dati che contiene campioni da una distribuzione, che è esso stesso una funzione di un parametro …
Sono uno studente CS master in un'università tedesca e sto scrivendo la mia tesi. Tra due mesi avrò preso la decisione molto difficile se dovessi continuare con un dottorato di ricerca o trovare un lavoro nel settore. Le mie ragioni per fare un dottorato di ricerca: Sono una persona molto …
In un semplice modello di regressione, y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, gli stimatori OLS betaβ^OLS0β^0OLS\hat{\beta}_0^{OLS} e sono correlate.β^OLS1β^1OLS\hat{\beta}_1^{OLS} La formula per la correlazione tra i due stimatori è (se l'ho derivata correttamente): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. Domande: Qual è la spiegazione intuitiva della presenza …
Vorrei generare una matrice di correlazione casuale di dimensioni tale che siano presenti alcune correlazioni moderatamente forti: n × nCC\mathbf Cn × nn×nn \times n matrice quadrata simmetrica reale di dimensione, ad es. ;n = 100n × nn×nn \times nn = 100n=100n=100 definito positivo, cioè con tutti gli autovalori reali …
Attualmente sto eseguendo alcuni modelli lineari ad effetto misto. Sto usando il pacchetto "lme4" in R. I miei modelli prendono la forma: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) Prima di eseguire i miei modelli, ho verificato la possibile multicollinearità tra predittori. L'ho fatto per: …
Considera l'esempio R di seguito: plot( hclust(dist(USArrests), "ave") ) Cosa significa esattamente "Altezza" sull'asse y? Guardando la Carolina del Nord e la California (piuttosto a sinistra). La California è "più vicina" alla Carolina del Nord rispetto all'Arizona? Posso fare questa interpretazione? Hawaii (a destra) si unisce al cluster piuttosto tardi. …
Ho eseguito un disegno ripetuto per cui ho testato 30 maschi e 30 femmine in tre diversi compiti. Voglio capire come il comportamento di maschi e femmine sia diverso e come ciò dipenda dal compito. Ho usato sia il pacchetto lmer che lme4 per indagare su questo, tuttavia, sono bloccato …
Sto cercando di comprendere meglio la stima della densità del kernel. Utilizzando la definizione da Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^( x ) = 1nΣni = 1Kh( x - xio)= 1n hΣni = 1K( x - xioh)fh^(X)=1nΣio=1nKh(X-Xio)=1nhΣio=1nK(X-Xioh) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) Prendiamo come una funzione …
Ho un data.frame con 800 obs. di 40 variabili e vorrei utilizzare l'analisi dei componenti di principio per migliorare i risultati della mia previsione (che finora funziona meglio con Support Vector Machine su circa 15 variabili selezionate manualmente). Comprendo che un prcomp può aiutarmi a migliorare le mie previsioni, ma …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.