Statistiche e Big Data r

4

Tempo di calcolo casuale della foresta in R

Sto usando il pacchetto party in R con 10.000 righe e 34 funzionalità e alcune funzionalità dei fattori hanno più di 300 livelli. Il tempo di elaborazione è troppo lungo. (Ci sono volute 3 ore finora e non è ancora finito.) Voglio sapere quali elementi hanno un grande effetto sul …

49 r random-forest

5

Qual è la differenza tra NaN e NA?

Vorrei sapere perché alcune lingue come R hanno sia NA che NaN. Quali sono le differenze o sono ugualmente uguali? È davvero necessario avere NA?

48 r

7

Da dove iniziare con le statistiche per uno sviluppatore esperto

Durante la prima metà del 2015 ho seguito il corso di Machine Learning (di Andrew Ng, GRANDE corso). E imparato le basi dell'apprendimento automatico (regressione lineare, regressione logistica, SVM, reti neuronali ...) Inoltre sono uno sviluppatore da 10 anni, quindi imparare un nuovo linguaggio di programmazione non sarebbe un problema. …

47 r regression machine-learning references

1

Come applicare la standardizzazione / normalizzazione al training e al testset se l'obiettivo è la previsione?

Trasformo tutti i miei dati o le mie pieghe (se viene applicato il CV) contemporaneamente? per esempio (allData - mean(allData)) / sd(allData) Trasformo il set di treni e il set di test separatamente? per esempio (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Oppure trasformo il set di …

47 r cross-validation data-transformation normalization standardization

5

R - QQPlot: come vedere se i dati sono normalmente distribuiti

L'ho tracciato dopo aver fatto un test di normalità Shapiro-Wilk. Il test ha dimostrato che è probabile che la popolazione sia normalmente distribuita. Tuttavia, come vedere questo "comportamento" su questa trama? AGGIORNARE Un semplice istogramma dei dati: AGGIORNARE Il test Shapiro-Wilk dice:

47 r data-visualization normal-distribution histogram qq-plot

4

Come eseguire la selezione del sottoinsieme di regressione logistica?

Sto adattando una gloria binomiale della famiglia in R, e ho un'intera troupe di variabili esplicative, e ho bisogno di trovare il migliore (R al quadrato come misura va bene). A corto di scrivere una sceneggiatura per scorrere in modo casuale diverse combinazioni delle variabili esplicative e quindi registrare quale …

47 r logistic

5

Il primo codice sorgente dei pacchetti R da studiare in preparazione per la scrittura del proprio pacchetto

Sto programmando di iniziare a scrivere pacchetti R. Ho pensato che sarebbe stato utile studiare il codice sorgente dei pacchetti esistenti per apprendere le convenzioni sulla costruzione dei pacchetti. I miei criteri per i buoni pacchetti da studiare: Semplici idee statistiche / tecniche : il punto è conoscere la meccanica …

47 r

3

È possibile eseguire il clustering di serie temporali in base alla forma della curva?

Ho dati di vendita per una serie di punti vendita e desidero categorizzarli in base alla forma delle loro curve nel tempo. I dati sono più o meno così (ma ovviamente non sono casuali e hanno alcuni dati mancanti): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for …

47 r time-series clustering

5

Come calcolare la pseudo-

La scrittura di Christopher Manning sulla regressione logistica in R mostra una regressione logistica in R come segue: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Alcuni output: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median …

46 r logistic log-likelihood

3

Interpretazione del predittore e / o della risposta trasformati in tronchi

Mi chiedo se fa differenza nell'interpretazione se solo le variabili dipendenti, dipendenti e indipendenti, o solo le variabili indipendenti, vengono trasformate in log. Considera il caso di log(DV) = Intercept + B1*IV + Error Posso interpretare il IV come l'aumento percentuale, ma come cambia quando lo faccio log(DV) = Intercept …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

Come simulare i dati artificiali per la regressione logistica?

So che mi manca qualcosa nella mia comprensione della regressione logistica e apprezzerei molto qualsiasi aiuto. Per quanto ho capito, la regressione logistica presuppone che la probabilità di un risultato "1" dato gli input, sia una combinazione lineare degli input, passata attraverso una funzione inversa-logistica. Questo è esemplificato nel seguente …

45 r regression logistic generalized-linear-model simulation

5

Uso di R online - senza installarlo [chiuso]

Esiste la possibilità di utilizzare R in un'interfaccia web senza la necessità di installarlo? Ho solo un piccolo script che mi piace eseguire ma voglio solo provarlo senza una lunga procedura di installazione. Grazie.

45 r

3

Cos'è Deviance? (in particolare in CART / rpart)

Che cos'è "Devianza", come viene calcolata e quali sono i suoi usi in diversi campi nelle statistiche? In particolare, sono personalmente interessato ai suoi usi in CART (e alla sua implementazione in rpart in R). Lo sto chiedendo poiché l' articolo wiki sembra in qualche modo carente e le tue …

45 r cart rpart deviance

3

C'è qualche differenza tra lm e glm per la famiglia gaussiana di glm?

In particolare, voglio sapere se c'è una differenza tra lm(y ~ x1 + x2)e glm(y ~ x1 + x2, family=gaussian). Penso che questo caso particolare di glm sia uguale a lm. Ho sbagliato?

45 r normal-distribution generalized-linear-model lm

1

Come interpretare il tipo I, il tipo II e il tipo III ANOVA e MANOVA?

La mia domanda principale è come interpretare l'output (coefficienti, F, P) quando si esegue un ANOVA di tipo I (sequenziale)? Il mio problema di ricerca specifico è un po 'più complesso, quindi spezzerò il mio esempio in parti. Innanzitutto, se sono interessato all'effetto della densità del ragno (X1) sulla crescita …

45 r hypothesis-testing anova manova sums-of-squares

Domande taggate «r»