Statistiche e Big Data r

3

Cluster Big Data in R ed il campionamento è rilevante?

Sono nuovo nella scienza dei dati e ho un problema a trovare i cluster in un set di dati con 200.000 righe e 50 colonne in R. Dato che i dati hanno sia variabili numeriche che nominali, metodi come K-significa che usa la misura della distanza euclidea non sembra una …

13 r clustering sampling large-data

1

R-quadrato nel modello lineare rispetto alla devianza nel modello lineare generalizzato?

Ecco il mio contesto per questa domanda: da quello che posso dire, non possiamo eseguire una regressione dei minimi quadrati ordinaria in R quando si utilizzano i dati ponderati e il surveypacchetto. Qui, dobbiamo usare svyglm(), che invece esegue un modello lineare generalizzato (che potrebbe essere la stessa cosa? Sono …

13 r generalized-linear-model least-squares r-squared deviance

1

Comprensione delle previsioni dalla regressione logistica

Le mie previsioni provenienti da un modello di regressione logistica (glm in R) non sono limitate tra 0 e 1 come mi sarei aspettato. La mia comprensione della regressione logistica è che i parametri di input e modello sono combinati in modo lineare e la risposta viene trasformata in una …

13 r regression logistic generalized-linear-model

2

Per una matrice casuale, un SVD non dovrebbe spiegare nulla? Che cosa sto facendo di sbagliato?

Se costruissi una matrice 2D composta interamente da dati casuali, mi aspetterei che i componenti PCA e SVD non spieghino sostanzialmente nulla. Invece, sembra che la prima colonna SVD sembra spiegare il 75% dei dati. Come può essere possibile? Che cosa sto facendo di sbagliato? Ecco la trama: Ecco il …

13 r pca svd

2

Esiste un pacchetto R per risposte binarie longitudinali a tempo continuo?

Il bildpacchetto sembra essere un pacchetto eccellente per le risposte binarie seriali. Ma è per tempo discreto. Vorrei specificare una funzione regolare del tempo per la connessione del rapporto di probabilità della risposta corrente Y con risposte binarie misurate in tempi precedenti, o almeno una versione Markov del primo ordine …

13 r repeated-measures binary-data panel-data

2

Solutori numerici per equazioni differenziali stocastiche in R: ce ne sono?

Sto cercando un pacchetto R generale, pulito e veloce (ovvero usando routine C ++) per simulare percorsi da una diffusione non lineare non omogenea come (1) usando lo schema Euler-Maruyama, lo schema Milstein (o qualsiasi altro). Questo è destinato ad essere incorporato in un codice di stima più ampio e …

13 r simulation stochastic-processes markov-process

1

Regressione lineare e autocorrelazione spaziale

Voglio prevedere Tree Heights in una determinata area usando alcune variabili ottenute tramite il telerilevamento. Come la biomassa approssimativa, ecc. Voglio prima usare una regressione lineare (so che non è la migliore idea ma è un passo obbligato per il mio progetto). Volevo sapere in che modo l'autocorrelazione spaziale può …

13 r multiple-regression spatial autocorrelation

3

I componenti di PCA rappresentano davvero la percentuale di varianza? Possono riassumere oltre il 100%?

"Machine Learning For Hackers" di O'Reilly afferma che ogni componente principale rappresenta una percentuale della varianza. Ho citato la parte pertinente della pagina seguente (capitolo 8, p. 207). Parlando con un altro esperto, hanno concordato che è la percentuale. Tuttavia, i 24 componenti si sommano al 133,2095%. Come può essere? …

13 r pca

1

Aiutami a capire i valori

Sto cercando di eseguire un log in bayesiano sui dati qui . Sto usando bayesglm()nel armpacchetto in R. La codifica è abbastanza semplice: df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) fornisce il seguente output: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …

13 r bayesian p-value

1

Previsioni usando glmnet in R

Sto cercando di modellare alcuni dati usando il glmnetpacchetto in R. Supponiamo di avere i seguenti dati training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (Questa è una semplificazione; i miei dati sono molto più …

13 r glmnet

1

Qual è la differenza tra wilcox.test e coin :: wilcox_test in R?

Queste due funzioni esistono in R ma non conosco le loro differenze. Sembra che restituiscano gli stessi valori p solo quando si chiama wilcox.testcon correct=FALSE, e wilcox_test(nel pacchetto monete) con distribution="aymptotic". Per altri valori restituiscono valori p diversi. Inoltre wilcox.testrestituisce sempre W = 0 per il mio set di dati, …

13 r hypothesis-testing p-value wilcoxon-mann-whitney

2

Come ottenere i risultati di un test post-hoc Tukey HSD in una tabella che mostra le coppie raggruppate?

Mi piacerebbe eseguire un test post-hoc TukeyHSD dopo il mio Anova a due vie con R, ottenendo una tabella contenente le coppie ordinate raggruppate per differenza significativa. (Mi dispiace per il testo, sono ancora nuovo con le statistiche.) Vorrei avere qualcosa del genere: Quindi, raggruppati con stelle o lettere. Qualche …

13 r anova multiple-comparisons post-hoc tukey-hsd

6

Foresta casuale: come gestire i nuovi livelli di fattore nel set di test?

Sto cercando di fare previsioni usando un modello di foresta casuale in R. Tuttavia, ricevo errori poiché alcuni fattori hanno valori diversi nel set di test rispetto al set di training. Ad esempio, un fattore Cat_2ha valori 34, 68, 76, ecc., Nel set di test che non compaiono nel set …

13 r categorical-data random-forest

2

Genera campioni di dati dalla regressione di Poisson

Mi chiedevo come avresti generato i dati da un'equazione di regressione di Poisson in R? Sono un po 'confuso su come affrontare il problema. Quindi, se presumo, abbiamo due predittori e X 2 che sono distribuiti N ( 0 , 1 ) . E l'intercetta è 0 ed entrambi i …

13 r regression poisson-distribution simulation

2

Cosa sono i chunk test?

In risposta a una domanda sulla selezione del modello in presenza di multicollinearità , Frank Harrell ha suggerito : Inserisci tutte le variabili nel modello ma non testare l'effetto di una variabile aggiustata per gli effetti delle variabili concorrenti ... I test di blocco delle variabili concorrenti sono potenti perché …

13 r model-selection multicollinearity

Domande taggate «r»