Statistiche e Big Data

1

Cosa fa il comando anova () con un oggetto modello lmer?

Spero che questa sia una domanda a cui qualcuno qui può rispondere per me sulla natura della scomposizione di somme di quadrati da un modello a effetti misti adatto lmer(dal pacchetto lme4 R). Prima di tutto, dovrei dire che sono a conoscenza della controversia con l'utilizzo di questo approccio e …

30 r anova mixed-model lme4-nlme

9

Perché usare il modello di correzione dell'errore vettoriale?

Sono confuso riguardo al Vector Error Correction Model ( VECM ). Background tecnico: VECM offre la possibilità di applicare il modello autoregressivo vettoriale ( VAR ) alle serie temporali multivariate integrate. Nei libri di testo sono indicati alcuni problemi nell'applicazione di un VAR alle serie temporali integrate, la più importante …

30 time-series forecasting var cointegration vecm

5

Generazione di numeri casuali manualmente

Come posso generare manualmente un numero casuale da una determinata distribuzione, come ad esempio 10 realizzazioni dalla distribuzione normale standard?

30 normal-distribution simulation monte-carlo random-generation randomness

1

Quando la funzione di distribuzione binomiale è superiore / inferiore alla sua funzione di distribuzione di Poisson limitante?

Sia denota la funzione di distribuzione binomiale (DF) con i parametri e valutati a : e lasciare che denoti il DF di Poisson con il parametro a \ in \ mathbb R ^ + valutato in r \ in \ {0,1,2, \ ldots \} : \ begin {equation} F (a …

30 binomial poisson-distribution convergence probability-inequalities

2

Confronto tra lme e lmer

Mi chiedevo se qualcuno potesse illuminarmi sulle attuali differenze tra queste due funzioni. Ho trovato la seguente domanda: Come scegliere la libreria nlme o lme4 R per i modelli di effetti misti? , ma risale a un paio d'anni fa. È una vita nei circoli del software. Le mie domande …

30 r mixed-model lme4-nlme

8

Quali argomenti di matematica suggeriresti di preparare per il data mining e l'apprendimento automatico?

Sto cercando di mettere insieme un curriculum di matematica auto-diretto per preparare l'apprendimento del data mining e dell'apprendimento automatico. Ciò è motivato avviando il corso di machine learning di Andrew Ng su Coursera e sentendo che prima di procedere avevo bisogno di migliorare le mie abilità matematiche. Mi sono laureato …

30 machine-learning references data-mining

2

Test per la distribuzione bimodale

Mi chiedo se esiste un test statistico per "testare" il significato di una distribuzione bimodale. Voglio dire, quanto i miei dati soddisfano o meno la distribuzione bimodale? In tal caso, c'è qualche test nel programma R?

30 r hypothesis-testing distributions bimodal

4

Come eseguire la riduzione della dimensionalità con PCA in R

Ho un grande set di dati e voglio eseguire una riduzione di dimensionalità. Ora ovunque leggo che posso usare PCA per questo. Tuttavia, non riesco ancora a capire cosa fare dopo aver calcolato / eseguito il PCA. In R questo è facilmente eseguibile con il comando princomp. Ma cosa fare …

30 r pca

2

Quali sono i presupposti della regressione binomiale negativa?

Sto lavorando con un set di dati di grandi dimensioni (riservato, quindi non posso condividere troppo) e sono giunto alla conclusione che sarebbe necessaria una regressione binomiale negativa. Non ho mai fatto una regressione glm prima e non riesco a trovare informazioni chiare su quali siano le ipotesi. Sono gli …

30 regression generalized-linear-model data-transformation assumptions negative-binomial

4

Tecniche di apprendimento automatico per l'analisi delle stringhe?

Ho molte stringhe di indirizzi: 1600 Pennsylvania Ave, Washington, DC 20500 USA Voglio analizzarli nei loro componenti: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ma ovviamente i dati sono sporchi: provengono da molti paesi in molte lingue, scritti in modi diversi, contengono errori di ortografia, …

30 machine-learning text-mining

3

Consigli per un giornale open source con peer review?

Ho un manoscritto su un metodo bootstrap per testare ipotesi su un mezzo e vorrei inviarlo per la pubblicazione, ma ho un dilemma morale. Ho aderito alla protesta contro Elsevier per le loro pratiche commerciali non etiche e la lettura dell'intera questione mi ha fatto davvero mettere in discussione l'etica …

30 hypothesis-testing bootstrap journals

3

Come determinare la qualità di un classificatore multiclasse

Dato un set di dati con istanze insieme a classi cui ogni istanza appartiene esattamente a una classe N x i y ixixix_iNNNxixix_iyiyiy_i un classificatore multiclasse Dopo l'addestramento e i test ho sostanzialmente una tabella con la vera classe e la classe prevista per ogni istanza nel set di test. …

30 machine-learning classification multi-class

5

Dati "esplorazione" vs dati "ficcanaso" / "tortura"?

Molte volte mi sono imbattuto in avvertimenti informali contro lo "snooping dei dati" (ecco un esempio divertente ) e penso di avere un'idea intuitiva di ciò che ciò significa e del perché potrebbe essere un problema. D'altra parte, l '"analisi dei dati esplorativi" sembra essere una procedura perfettamente rispettabile in …

30 multiple-comparisons interpretation eda

3

Come definire rigorosamente la probabilità?

La probabilità potrebbe essere definita in diversi modi, ad esempio: la funzione da che mappa a cioè .LLLΘ×XΘ×X\Theta\times{\cal X}(θ,x)(θ,x)(\theta,x)L(θ∣x)L(θ∣x)L(\theta \mid x)L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} la funzione casualeL(⋅∣X)L(⋅∣X)L(\cdot \mid X) potremmo anche considerare che la probabilità è solo la probabilità "osservata"L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) in pratica la probabilità porta informazioni su solo …

30 mathematical-statistics likelihood likelihood-ratio parametric

3

Come sapere se una serie storica è fissa o non fissa?

Sto usando R, ho cercato su Google e ho imparato che kpss.test(), PP.test()e adf.test()vengono utilizzati per sapere di stazionarietà delle serie storiche. Ma io non sono uno statistico, che può interpretare i loro risultati > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, …

30 r time-series stationarity augmented-dickey-fuller kpss-test