Statistiche e Big Data r

1

Qual è l'intuizione alla base della metrica variazione di informazioni (VI) per la convalida dei cluster?

Per i non statistici come me, è molto difficile catturare l'idea di VImetrica (variazione delle informazioni) anche dopo aver letto l'articolo pertinente di Marina Melia " Confronto di clustering - Una distanza basata sull'informazione " (Journal of Multivariate Analysis, 2007). In effetti, non ho familiarità con molti dei termini dei …

11 r clustering validation intuition

1

La regressione della cresta risulta diversa nell'uso di lm.ridge e glmnet

Ho applicato alcuni dati per trovare la migliore soluzione di variabili del modello di regressione usando la regressione della cresta in R. Ho usato lm.ridgee glmnet(quando alpha=0), ma i risultati sono molto diversi soprattutto quando lambda=0. Supponiamo che entrambi gli stimatori dei parametri abbiano gli stessi valori. Quindi, qual è …

11 r regression ridge-regression glmnet

1

Comprensione dell'output di un bootstrap eseguito in R (tsboot, MannKendall)

Ho una domanda sull'interpretazione della chiamata tsboot in R. Ho controllato la documentazione di Kendall e del pacchetto di avvio, ma non sono più intelligente di prima. Quando eseguo un bootstrap usando ad esempio l'esempio nel pacchetto Kendall, dove la statistica del test è la tau di Kendall: library(Kendall) # …

11 r bootstrap

2

Come funziona la "regressione graduale"?

Ho usato il seguente codice R per adattarsi a un modello probit: p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') Voglio sapere cosa significa stepwisee backward/forwardfare esattamente e come selezionare le variabili?

11 r probit stepwise-regression

2

Come ottenere valori p aggregati sui test eseguiti in più set di dati imputati?

Usando Amelia in R, ho ottenuto più set di dati imputati. Successivamente, ho eseguito un test di misure ripetute in SPSS. Ora voglio unire i risultati dei test. So di poter usare le regole di Rubin (implementate attraverso qualsiasi pacchetto di imputazione multipla in R) per raggruppare mezzi ed errori …

11 r spss p-value multiple-imputation pooling

4

Come scegliere il numero di alberi in un modello di regressione potenziato generalizzato?

Esiste una strategia per scegliere il numero di alberi in un GBM? Specificamente, l' ntreesargomento R's gbmfunzione. Non vedo perché non dovresti impostare ntreesil valore ragionevole più alto. Ho notato che un numero maggiore di alberi riduce chiaramente la variabilità dei risultati di più GBM. Non credo che un elevato …

11 r machine-learning gbm

1

R neuralnet: il calcolo fornisce una risposta costante

Sto cercando di usare il neuralnetpacchetto di R (documentazione qui ) per la previsione. Ecco cosa sto cercando di fare: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], …

11 r neural-networks prediction error

2

autocorrelazione spaziale per i dati di serie storiche

Ho un set di dati di 20 anni di un conteggio annuale di abbondanza di specie per un set di poligoni (~ 200 poligoni continui di forma irregolare). Ho usato l'analisi di regressione per dedurre le tendenze (variazione nel conteggio annuale) per ciascun poligono, nonché aggregazioni di dati poligonali basati …

11 r time-series correlation spatial spatio-temporal

2

Interpretazione del diagramma QQ

Considera il seguente codice e output: par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") Sembra che quel diagramma QQ per log-normal sia quasi uguale …

11 r data-visualization interpretation qq-plot

5

Se non un Poisson, quale distribuzione è questa?

Ho un set di dati contenente il numero di azioni eseguite da singoli nel corso di 7 giorni. L'azione specifica non dovrebbe essere pertinente per questa domanda. Ecco alcune statistiche descrittive per il set di dati: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline …

11 r distributions poisson-distribution mean sample

1

Funzione di costo per la validazione dei modelli di regressione di Poisson

Per i dati di conteggio che ho raccolto, utilizzo la regressione di Poisson per creare modelli. Lo faccio usando la glmfunzione in R, dove uso family = "poisson". Per valutare possibili modelli (ho diversi predittori) uso l'AIC. Fin qui tutto bene. Ora voglio eseguire la convalida incrociata. Sono già riuscito …

11 r generalized-linear-model poisson-distribution

2

Campionamento con sostituzione in R randomForest

L'implementazione randomForest non consente il campionamento oltre il numero di osservazioni, anche quando si campiona con la sostituzione. Perchè è questo? Funziona bene: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Cosa voglio fare: rf <- randomForest(Species ~ ., iris, …

11 r sampling random-forest stratification oversampling

2

Modelli di conteggio a zero zero in R: qual è il vero vantaggio?

Per analizzare i conteggi di uccelli a gonfiamento zero, vorrei applicare i modelli di conteggio a gonfiamento zero utilizzando il pacchetto R pscl . Tuttavia, guardando l'esempio fornito nella documentazione per una delle funzioni principali ( ? Zeroinfl ), inizio a dubitare di quale sia il vero vantaggio di questi …

11 r poisson-distribution zero-inflation

1

Confronti multipli di modelli misti per l'interazione tra predittore continuo e categorico

Vorrei utilizzare lme4per adattare una regressione di effetti misti e multcompper calcolare i confronti a coppie. Ho un set di dati complesso con più predittori continui e categorici, ma la mia domanda può essere dimostrata usando il ChickWeightset di dati integrato come esempio: m <- lmer(weight ~ Time * Diet …

11 r mixed-model multiple-comparisons

2

Ipotesi di regressione di Poisson e come testarle in R

Vorrei testare quale regressione si adatta meglio ai miei dati. La mia variabile dipendente è un conteggio e ha molti zeri. E avrei bisogno di un po 'di aiuto per determinare quale modello e famiglia usare (poisson o quasipoisson, o regressione di poisson zero-inflated) e come testare i presupposti. Regressione …

11 r count-data zero-inflation poisson-regression

Domande taggate «r»