Statistiche e Big Data r

2

Clustering di dati rumorosi o con valori anomali

Ho un dato rumoroso di due variabili come questa. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

9 r machine-learning clustering

1

Comprensione della decomposizione del valore singolare nel contesto di LSI

La mia domanda è generalmente sulla decomposizione del valore singolare (SVD), e in particolare sull'indicizzazione semantica latente (LSI). Di ', ho che contiene frequenze di 5 parole per 7 documenti.Aword×documentUNword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') Ho la fattorizzazione matrice usando …

9 r svd natural-language latent-semantic-indexing

2

Stima dei rapporti di rischio adeguati nei dati binari usando la regressione di Poisson

Sono interessato a stimare un rapporto di rischio rettificato, analogo a come si stima un rapporto di probabilità rettificato utilizzando la regressione logistica. Alcune pubblicazioni (ad esempio, questo ) indicano che l'uso della regressione di Poisson con errori standard di Huber-White è un modo basato su modelli per farlo Non …

9 r references biostatistics poisson-regression relative-risk

3

K-fold o hold-out cross validation per la regressione della cresta usando R

Sto lavorando alla convalida incrociata della previsione dei miei dati con 200 soggetti e 1000 variabili. Sono interessato alla regressione della cresta poiché il numero di variabili (che voglio usare) è maggiore del numero del campione. Quindi voglio usare gli stimatori di contrazione. Di seguito sono riportati i dati di …

9 r cross-validation prediction ridge-regression

1

anova test di tipo III per un GLMM

Sto inserendo un glmermodello nel lme4pacchetto R. Sto cercando una tabella anova con il valore p mostrato al suo interno, ma non riesco a trovare nessun pacchetto adatto. È possibile farlo in R? Il modello che sto adattando ha la forma: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson", data=subset(dataset, group=='Four times a year'), control=glmerControl(optimizer="bobyqa"))

9 r anova lme4-nlme mixed-model

5

Regressione logistica su Big Data

Ho un set di dati di circa 5000 funzionalità. Per quei dati ho usato per la prima volta il test Chi Square per la selezione delle caratteristiche; successivamente, ho ottenuto circa 1500 variabili che mostravano una relazione significativa con la variabile response. Ora devo adattarmi alla regressione logistica su questo. …

9 r logistic generalized-linear-model modeling regression-strategies

2

Stima dei parametri con modelli lineari generalizzati

Per impostazione predefinita, quando utilizziamo una glmfunzione in R, utilizza il metodo IWLS (reimpostazione dei minimi quadrati ripetutamente iterativamente) per trovare la stima della massima verosimiglianza dei parametri. Ora ho due domande. Le stime IWLS garantiscono il massimo globale della funzione di probabilità? Sulla base dell'ultima diapositiva di questa presentazione, …

9 r estimation generalized-linear-model maximum-likelihood optimization

4

Come si fa l'apprendimento automatico multivariato? (prevedere più variabili dipendenti)

Sto cercando di prevedere gruppi di articoli che qualcuno acquisterà ... cioè, ho più variabili dipendenti dal colore. Anziché creare 7 modelli indipendenti per prevedere la probabilità che qualcuno acquisti ciascuno dei 7 articoli e quindi combinare i risultati, quali metodi devo esaminare per avere un modello che tenga conto …

9 r machine-learning multivariate-analysis

2

Analisi bayesiana delle tabelle di contingenza: come descrivere la dimensione dell'effetto

Sto lavorando agli esempi di Doing Bayesian Data Analysis di Kruschke , in particolare l'ANOVA esponenziale di Poisson in cap. 22, che presenta in alternativa ai test chi-quadrato di indipendenza per le tabelle di contingenza. Vedo come otteniamo informazioni sulle interazioni che si verificano più o meno frequentemente di quanto …

9 r bayesian effect-size contingency-tables

2

R rileva la tendenza crescente / decrescente delle serie storiche

Ho un sacco di serie temporali con periodi: giorno, settimana o mese. Con la stl()funzione o con loess(x ~ y)posso vedere come appaiono le tendenze di particolari serie storiche. Devo rilevare se la tendenza delle serie temporali è in aumento o in diminuzione. Come posso gestirlo? Ho provato a calcolare …

9 r time-series trend

1

Montaggio di un coefficiente DLM variabile nel tempo

Voglio adattare un DLM con coefficienti variabili nel tempo, ovvero un'estensione alla solita regressione lineare, .yt=θ1+θ2x2yt=θ1+θ2x2y_t = \theta_1 + \theta_2x_2 Ho un predittore ( ) e una variabile di risposta ( y t ), rispettivamente catture ittiche marine e interne dal 1950 al 2011. Voglio seguire il modello di regressione …

9 r regression time-series dlm dynamic-regression

1

Strano modo di calcolare chi-quadrato in Excel vs R

Sto guardando un foglio Excel che afferma di calcolare il , ma non riconosco questo modo di farlo, e mi chiedevo se mi mancasse qualcosa.χ2χ2\chi^2 Ecco i dati che sta analizzando: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 …

9 r chi-squared excel

3

Perché la regressione lineare non è in grado di prevedere l'esito di una semplice sequenza deterministica?

Un mio collega mi ha inviato questo problema apparentemente facendo il giro su Internet: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? La risposta sembra essere 200. 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 Quando eseguo una …

9 r regression lm

1

R: Anova e regressione lineare

Sono nuovo nelle statistiche e sto cercando di capire la differenza tra ANOVA e regressione lineare. Sto usando R per esplorare questo. Ho letto vari articoli sul perché ANOVA e la regressione sono diversi ma sempre uguali e come possono essere visualizzati ecc. Penso di essere abbastanza lì, ma manca …

9 r regression anova

3

Valutare la potenza di un test di normalità (in R)

Voglio valutare l'accuratezza dei test di normalità su diverse dimensioni del campione in R (mi rendo conto che i test di normalità possono essere fuorvianti ). Ad esempio, per esaminare il test di Shapiro-Wilk, sto conducendo la seguente simulazione (oltre a tracciare i risultati) e mi aspetterei che quando la …

9 r simulation power-analysis normality-assumption

Domande taggate «r»