Statistiche e Big Data regression

4

Indica che un problema è adatto alla regressione lineare

Sto imparando la regressione lineare usando Introduzione all'analisi della regressione lineare di Montgomery, Peck e Vining . Vorrei scegliere un progetto di analisi dei dati. Ho l'ingenua idea che la regressione lineare sia adatta solo quando si sospetta l'esistenza di relazioni funzionali lineari tra le variabili esplicative e la variabile …

12 regression data-transformation model linear regression-strategies

2

Tradurre il problema dell'apprendimento automatico in un quadro di regressione

Supponiamo che io abbia un pannello di variabili esplicative , per , , nonché un vettore di variabili binarie dipendenti dal risultato . Quindi Y viene osservato solo nell'ultima volta T e non in qualsiasi momento precedente. Il caso del tutto generale è avere più X_ {ijt} per j = …

12 regression machine-learning reinforcement-learning

3

Perché il metodo di controllo (suddivisione dei dati in formazione e test) non viene utilizzato nelle statistiche classiche?

Nella mia esposizione in classe al data mining, il metodo di controllo è stato introdotto come un modo per valutare le prestazioni del modello. Tuttavia, quando ho preso la mia prima classe sui modelli lineari, questo non è stato introdotto come mezzo di validazione o valutazione del modello. Anche la …

12 regression validation model-evaluation out-of-sample

3

Comprensione dei parametri della funzione di base gaussiana da utilizzare nella regressione lineare

Vorrei applicare la funzione di base gaussiana in un'implementazione di regressione lineare. Sfortunatamente non riesco a capire un paio di parametri nella funzione base. In particolare μμ\mu e σσ\sigma . Il mio set di dati è una matrice 10.000 x 31. 10.000 campioni e 31 funzioni. Ho letto che "Ogni …

12 regression machine-learning basis-function

2

Normalmente X e Y distribuiti hanno maggiori probabilità di provocare residui normalmente distribuiti?

Qui viene discussa l'interpretazione errata dell'assunzione della normalità nella regressione lineare (che la "normalità" si riferisce alla X e / o Y anziché ai residui) e il poster chiede se è possibile avere X e Y non distribuiti normalmente e hanno ancora residui normalmente distribuiti. La mia domanda è: normalmente …

12 regression normal-distribution data-transformation residuals assumptions

5

Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?

Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Possiamo fare dichiarazioni probabilistiche con intervalli di previsione?

Ho letto le molte eccellenti discussioni sul sito relative all'interpretazione degli intervalli di confidenza e degli intervalli di previsione, ma un concetto è ancora un po 'sconcertante: Considera il framework OLS e abbiamo ottenuto il modello montato . Ci viene dato un e ci viene chiesto di prevederne la risposta. …

12 regression confidence-interval prediction-interval

2

Regressione graduale in R - Valore p critico

Qual è il valore p critico utilizzato dalla step()funzione in R per la regressione graduale? Presumo che sia 0,15, ma la mia ipotesi è corretta? Come posso modificare il valore p critico?

12 r regression p-value stepwise-regression

4

Presupposti sulla distribuzione residua della regressione

Perché è necessario porre l'assunto distributivo sugli errori, ad es ϵ i ∼ N ( 0 , σ 2 )yio= Xβ+ ϵioyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , con .εio∼ N( 0 , σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) Perché non scrivere y i ~ N ( X β , σ 2 )yio= Xβ+ …

12 regression normal-distribution residuals assumptions notation

1

Informazioni fuori dalla matrice del cappello per la regressione logistica

Mi è chiaro, e ben spiegato su più siti, quali informazioni i valori sulla diagonale della matrice del cappello forniscono per la regressione lineare. La matrice del cappello di un modello di regressione logistica è meno chiara per me. È identico alle informazioni che ottieni dalla matrice del cappello applicando …

12 regression logistic

1

Modellazione quando la variabile dipendente ha un "cut-off"

Ci scusiamo in anticipo se la terminologia che uso non è corretta. Gradirei qualsiasi correzione. Se quello che descrivo come un "cut-off" ha un nome diverso, fammi sapere e posso aggiornare la domanda. La situazione che mi interessa è questa: hai variabili indipendenti e una singola variabile dipendente . Lo …

12 regression modeling survival censoring

5

Algoritmo dei minimi quadrati regolarizzati ricorsivi (online)

Qualcuno può indicarmi la direzione di un algoritmo online (ricorsivo) per la regolarizzazione di Tikhonov (minimi quadrati regolarizzati)? In un'impostazione offline, calcolerei usando il mio set di dati originale dove λ si trova usando la convalida incrociata n-fold. È possibile prevedere un nuovo valore y per un dato x usando …

12 regression machine-learning least-squares regularization online

2

Perché alcune persone testano ipotesi modello di regressione sui loro dati grezzi e altre persone li testano sul residuo?

Sono un dottorando in psicologia sperimentale e faccio del mio meglio per migliorare le mie capacità e conoscenze su come analizzare i miei dati. Fino al mio quinto anno di psicologia, ho pensato che i modelli simili alla regressione (ad es. ANOVA) assumessero le seguenti cose: normalità dei dati omogeneità …

12 regression dataset residuals assumptions

1

Criteri per la selezione del modello "migliore" in un modello Markov nascosto

Ho un set di dati di serie temporali in cui sto cercando di adattare un modello Hov (Hidden Markov Model) al fine di stimare il numero di stati latenti nei dati. Il mio pseudo codice per farlo è il seguente: for( i in 2 : max_number_of_states ){ ... calculate HMM …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

2

Modello misto con 1 osservazione per livello

Sto adattando un modello di effetti casuali glmerad alcuni dati aziendali. L'obiettivo è analizzare le prestazioni delle vendite per distributore, tenendo conto delle variazioni regionali. Ho le seguenti variabili: distcode: ID distributore, con circa 800 livelli region: ID geografico di livello superiore (nord, sud, est, ovest) zone: geografia di medio …

12 r regression mixed-model lme4-nlme

Domande taggate «regression»