Usa questo tag per qualsiasi domanda * sull'argomento * che (a) coinvolga `R` come parte critica della domanda o risposta prevista, e (b) non è * solo * su come usare` R`.
Sono nuovo nella scienza dei dati e ho un problema a trovare i cluster in un set di dati con 200.000 righe e 50 colonne in R. Dato che i dati hanno sia variabili numeriche che nominali, metodi come K-significa che usa la misura della distanza euclidea non sembra una …
Ecco il mio contesto per questa domanda: da quello che posso dire, non possiamo eseguire una regressione dei minimi quadrati ordinaria in R quando si utilizzano i dati ponderati e il surveypacchetto. Qui, dobbiamo usare svyglm(), che invece esegue un modello lineare generalizzato (che potrebbe essere la stessa cosa? Sono …
Le mie previsioni provenienti da un modello di regressione logistica (glm in R) non sono limitate tra 0 e 1 come mi sarei aspettato. La mia comprensione della regressione logistica è che i parametri di input e modello sono combinati in modo lineare e la risposta viene trasformata in una …
Se costruissi una matrice 2D composta interamente da dati casuali, mi aspetterei che i componenti PCA e SVD non spieghino sostanzialmente nulla. Invece, sembra che la prima colonna SVD sembra spiegare il 75% dei dati. Come può essere possibile? Che cosa sto facendo di sbagliato? Ecco la trama: Ecco il …
Il bildpacchetto sembra essere un pacchetto eccellente per le risposte binarie seriali. Ma è per tempo discreto. Vorrei specificare una funzione regolare del tempo per la connessione del rapporto di probabilità della risposta corrente Y con risposte binarie misurate in tempi precedenti, o almeno una versione Markov del primo ordine …
Sto cercando un pacchetto R generale, pulito e veloce (ovvero usando routine C ++) per simulare percorsi da una diffusione non lineare non omogenea come (1) usando lo schema Euler-Maruyama, lo schema Milstein (o qualsiasi altro). Questo è destinato ad essere incorporato in un codice di stima più ampio e …
Voglio prevedere Tree Heights in una determinata area usando alcune variabili ottenute tramite il telerilevamento. Come la biomassa approssimativa, ecc. Voglio prima usare una regressione lineare (so che non è la migliore idea ma è un passo obbligato per il mio progetto). Volevo sapere in che modo l'autocorrelazione spaziale può …
"Machine Learning For Hackers" di O'Reilly afferma che ogni componente principale rappresenta una percentuale della varianza. Ho citato la parte pertinente della pagina seguente (capitolo 8, p. 207). Parlando con un altro esperto, hanno concordato che è la percentuale. Tuttavia, i 24 componenti si sommano al 133,2095%. Come può essere? …
Sto cercando di eseguire un log in bayesiano sui dati qui . Sto usando bayesglm()nel armpacchetto in R. La codifica è abbastanza semplice: df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) fornisce il seguente output: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …
Sto cercando di modellare alcuni dati usando il glmnetpacchetto in R. Supponiamo di avere i seguenti dati training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (Questa è una semplificazione; i miei dati sono molto più …
Queste due funzioni esistono in R ma non conosco le loro differenze. Sembra che restituiscano gli stessi valori p solo quando si chiama wilcox.testcon correct=FALSE, e wilcox_test(nel pacchetto monete) con distribution="aymptotic". Per altri valori restituiscono valori p diversi. Inoltre wilcox.testrestituisce sempre W = 0 per il mio set di dati, …
Mi piacerebbe eseguire un test post-hoc TukeyHSD dopo il mio Anova a due vie con R, ottenendo una tabella contenente le coppie ordinate raggruppate per differenza significativa. (Mi dispiace per il testo, sono ancora nuovo con le statistiche.) Vorrei avere qualcosa del genere: Quindi, raggruppati con stelle o lettere. Qualche …
Sto cercando di fare previsioni usando un modello di foresta casuale in R. Tuttavia, ricevo errori poiché alcuni fattori hanno valori diversi nel set di test rispetto al set di training. Ad esempio, un fattore Cat_2ha valori 34, 68, 76, ecc., Nel set di test che non compaiono nel set …
Mi chiedevo come avresti generato i dati da un'equazione di regressione di Poisson in R? Sono un po 'confuso su come affrontare il problema. Quindi, se presumo, abbiamo due predittori e X 2 che sono distribuiti N ( 0 , 1 ) . E l'intercetta è 0 ed entrambi i …
In risposta a una domanda sulla selezione del modello in presenza di multicollinearità , Frank Harrell ha suggerito : Inserisci tutte le variabili nel modello ma non testare l'effetto di una variabile aggiustata per gli effetti delle variabili concorrenti ... I test di blocco delle variabili concorrenti sono potenti perché …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.