Statistiche e Big Data algorithms

7

Algoritmo per il monitoraggio dinamico dei quantili

Voglio stimare il quantile di alcuni dati. I dati sono così enormi che non possono essere inseriti nella memoria. E i dati non sono statici, i nuovi dati continuano ad arrivare. Qualcuno conosce qualche algoritmo per monitorare i quantili dei dati osservati finora con memoria e calcolo molto limitati? Trovo …

24 algorithms quantiles

4

Libro di testo sulla * teoria * delle reti neurali / algoritmi ML?

Ogni libro di testo che ho visto finora descrive algoritmi ML e come implementarli. Esiste anche un libro di testo che costruisce teoremi e prove per il comportamento di quegli algoritmi? es. affermando che nelle condizioni , la discesa del gradiente porterà sempre ad A , B , C ?x,y,zx,y,zx,y,zA,B,CA,B,CA,B,C

23 machine-learning mathematical-statistics references algorithms

2

Perché PCA dei dati mediante SVD dei dati?

Questa domanda riguarda un modo efficiente per calcolare i componenti principali. Molti testi su PCA lineare sostengono l'uso della decomposizione a valore singolare dei dati casewise . Cioè, se abbiamo dati e vogliamo sostituire le variabili (le sue colonne ) con i componenti principali, facciamo SVD: , valori singolari (radici …

22 pca algorithms svd matrix-decomposition

2

È possibile accumulare una serie di statistiche che descrivono un gran numero di campioni in modo da poter produrre un diagramma a scatole?

Devo chiarire immediatamente che sono uno sviluppatore di software praticante, non uno statistico, e che la mia classe di statistiche del college era molto tempo fa ... Detto questo, vorrei sapere se esiste un metodo per accumulare una serie di statistiche descrittive che potrebbero quindi essere utilizzate per produrre un …

22 algorithms median quantiles

6

Esempi di problemi di modelli Markov nascosti?

Ho letto un bel po 'di modelli Markov nascosti e sono stato in grado di codificarne una versione piuttosto semplice. Ma ci sono due modi principali che mi sembra di imparare. Uno è di leggerlo e implementarlo nel codice (che è fatto) e il secondo è capire come si applica …

21 algorithms markov-process

4

Come proiettare un nuovo vettore nello spazio PCA?

Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Simulazione di serie storiche date potenza e densità spettrali incrociate

Ho difficoltà a generare una serie di serie temporali colorate stazionarie, data la loro matrice di covarianza (densità di potenza spettrale (PSD) e densità spettrale di potenza incrociata (CSD)). So che, date due serie temporali e , posso stimare la loro densità spettrale di potenza (PSD) e densità spettrale incrociata …

20 time-series sampling algorithms simulation covariance

2

Calcolare quantili approssimativi per un flusso di numeri interi usando i momenti?

migrato da math.stackexchange . Sto elaborando un lungo flusso di numeri interi e sto considerando di tenere traccia di alcuni momenti per poter calcolare approssimativamente vari percentili per il flusso senza memorizzare molti dati. Qual è il modo più semplice per calcolare percentili da pochi istanti. Esiste un approccio migliore …

20 algorithms mathematical-statistics moments

2

In che modo la foresta casuale genera la foresta casuale

Non sono un esperto di foreste casuali ma capisco chiaramente che il problema chiave con la foresta casuale è la generazione di alberi (casuali). Puoi spiegarmi come vengono generati gli alberi? (ovvero qual è la distribuzione utilizzata per la generazione di alberi?) Grazie in anticipo !

20 machine-learning r algorithms cart random-forest

2

Velocità, spese di calcolo di PCA, LASSO, rete elastica

Sto cercando di confrontare la complessità computazionale / la velocità di stima di tre gruppi di metodi per la regressione lineare, come distinto in Hastie et al. "Elements of Statistical Learning" (2a edizione), capitolo 3: Selezione del sottoinsieme Metodi di restringimento Metodi che utilizzano direzioni di input derivate (PCR, PLS) …

18 machine-learning estimation feature-selection algorithms time-complexity

1

In che modo la foresta casuale estrema differisce dalla foresta casuale?

L'implementazione di ER è più efficiente ( Extreme Gradient Boostingè come aumentare il gradiente) - la differenza è importante dal punto di vista pratico? C'è un pacchetto R che li implementa. È un nuovo algoritmo che supera l'implementazione "generica" (pacchetto RandomForest da R) non solo in termini di efficienza o …

18 r machine-learning algorithms random-forest

9

Distanze Mahalanobis a coppie

Devo calcolare la distanza di Mahalanobis del campione in R tra ogni coppia di osservazioni in una matrice di covariate. Ho bisogno di una soluzione efficiente, ovvero vengono calcolate solo distanze, e preferibilmente implementate in C / RCpp / Fortran ecc. Suppongo che , la matrice di covarianza della popolazione, …

18 r algorithms distance

8

Algoritmi per calcolare la mediana corrente?

Su finestre di dimensioni inferiori, l' n log nordinamento potrebbe funzionare. Ci sono algoritmi migliori per raggiungere questo obiettivo?

18 algorithms median

1

Aggiornamento della decomposizione SVD dopo aver aggiunto una nuova riga alla matrice

Supponiamo di avere una matrice densa di dimensioni , con decomposizione SVDIn posso calcolare la SVD come segue: .AA \textbf{A}m×nm×nm \times nA=USV⊤.A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) Se una nuova riga viene aggiunta a , si può calcolare la nuova decomposizione SVD sulla base di quella vecchia (cioè usando , e ), senza ricalcolare SVD …

17 algorithms svd linear-algebra matrix-decomposition numerics

3

Quale algoritmo di ottimizzazione viene utilizzato nella funzione glm in R?

È possibile eseguire una regressione del log in R utilizzando tale codice: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Sembra che l'algoritmo di ottimizzazione sia converto - ci sono informazioni sul numero di passaggi dell'algoritmo di punteggio …

17 r generalized-linear-model optimization algorithms logit

Domande taggate «algorithms»