Statistiche e Big Data

2

Stimare il quantile di valore in un vettore

Ho una serie di numeri reali. Devo stimare il quantile di un nuovo numero. C'è un modo pulito per farlo in R? in generale? Spero che questo non sia ultra banale ;-) Molto apprezzato per la tua risposta. PK

26 r

2

Qual è la distribuzione di nella regressione lineare sotto l'ipotesi nulla? Perché la sua modalità non è zero quando ?

Qual è la distribuzione del coefficiente di determinazione, o R al quadrato, , nella regressione multipla univariata lineare sotto l'ipotesi nulla ?R 2 R2R^2H 0 : β = 0H0:β=0H_0:\beta=0 In che modo dipende dal numero di predittori e dal numero di campioni ? Esiste un'espressione a forma chiusa per la …

26 regression mathematical-statistics r-squared intuition

3

Come posso interpretare le "correlazioni degli effetti fissi" nel mio output glmer?

Ho il seguente output: Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: …

26 mixed-model poisson-distribution lme4-nlme

2

I vantaggi di fare il "doppio lazo" o eseguire il lazo due volte?

Una volta ho sentito un metodo per usare due volte il lazo (come un doppio lazo) in cui esegui il lazo sull'insieme originale di variabili, ad esempio S1, ottieni un insieme sparso chiamato S2, quindi esegui nuovamente il lazo sull'insieme S2 per ottenere l'insieme S3 . C'è un termine metodologico …

26 regression lasso regularization shrinkage lars

2

Come calcolare SVD di una matrice sparsa enorme?

Qual è il modo migliore per calcolare la decomposizione a valore singolare (SVD) di una matrice positiva molto grande (65 M x 3,4 M) in cui i dati sono estremamente scarsi? Meno dello 0,1% della matrice è diverso da zero. Ho bisogno di un modo che: andrà bene nella memoria …

26 svd numerics

2

Diagnostica di collinearità problematica solo quando è incluso il termine di interazione

Ho registrato una regressione sulle contee statunitensi e sto verificando la collinearità nelle mie variabili "indipendenti". Belsley, Kuh e Welsch's Regression Diagnostics suggeriscono di esaminare l'indice delle condizioni e le proporzioni di decomposizione della varianza: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k …

26 r multicollinearity vif variance-decomposition

3

Perché i modelli di processo gaussiani sono chiamati non parametrici?

Sono un po 'confuso. Perché i processi gaussiani sono chiamati modelli non parametrici? Presumono che i valori funzionali, o un loro sottoinsieme, abbiano un prioritario gaussiano con media 0 e funzione di covarianza data come funzione del kernel. Queste stesse funzioni del kernel hanno alcuni parametri (es. Iperparametri). Quindi perché …

26 nonparametric gaussian-process

1

Come interpretare gli errori standard dei coefficienti nella regressione lineare?

Mi chiedo come interpretare gli errori standard del coefficiente di una regressione quando si utilizza la funzione di visualizzazione in R. Ad esempio nel seguente output: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, …

26 r regression interpretation

6

Adatta un termine sinusoidale ai dati

Anche se ho letto questo post, non ho ancora idea di come applicare questo ai miei dati e spero che qualcuno mi possa aiutare. Ho i seguenti dati: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, …

26 r regression fitting

1

Il test di Mantel può essere esteso a matrici asimmetriche?

Il test di Mantel viene generalmente applicato a matrici simmetriche di distanza / differenza. Per quanto ho capito, un'ipotesi del test è che la misura utilizzata per definire le differenze deve essere almeno una semi-metrica (soddisfare i requisiti standard di una metrica ma non la disuguaglianza del triangolo). L'assunzione della …

26 statistical-significance assumptions distance

3

Modelli di argomenti e metodi di ricorrenza delle parole

I modelli di argomenti popolari come LDA di solito raggruppano parole che tendono a ricorrere nello stesso argomento (cluster). Qual è la differenza principale tra tali modelli di argomenti e altri semplici approcci di clustering basati sulla ricorrenza come PMI? (PMI è l'acronimo di Pointwise Mutual Information, e viene utilizzato …

26 machine-learning text-mining natural-language topic-models

5

Strategie per l'introduzione di statistiche avanzate a vari pubblici

Lavoro principalmente con non statistici in settori come la medicina, le scienze sociali e l'istruzione. Che io stia consultando studenti laureati, aiutando i ricercatori con articoli o esaminando articoli per riviste, ho spesso il problema che qualcuno (cliente, autore, comitato di tesi, editore di riviste) voglia usare una tecnica relativamente …

26 consulting

2

Quando utilizzare il test di somma dei ranghi di Wilcoxon invece del test t spaiato?

Questa è una domanda successiva a ciò che Frank Harrell ha scritto qui : Nella mia esperienza, la dimensione del campione richiesta affinché la distribuzione t sia accurata è spesso maggiore della dimensione del campione a portata di mano. Il test dei ranghi firmati Wilcoxon è estremamente efficiente, come hai …

26 t-test wilcoxon-mann-whitney

6

Dimensione del campione per la regressione logistica?

Voglio fare un modello logistico dai miei dati del sondaggio. È un piccolo sondaggio di quattro colonie residenziali in cui sono stati intervistati solo 154 intervistati. La mia variabile dipendente è "transizione soddisfacente al lavoro". Ho scoperto che, tra i 154 intervistati, 73 hanno affermato di essere passati in modo …

26 logistic sample-size assumptions power unbalanced-classes

2

Interpretazione geometrica della regressione lineare penalizzata

So che la regressione lineare può essere pensata come "la linea che è verticalmente più vicina a tutti i punti" : Ma c'è un altro modo di vederlo, visualizzando lo spazio delle colonne, come "la proiezione sullo spazio attraversato dalle colonne della matrice dei coefficienti" : La mia domanda è: …

26 regression intuition geometry