Statistiche e Big Data regression

4

Ho un modello di regressione logistica binaria con uno pseudo R-quadrato di McFadden di 0,192 con una variabile dipendente chiamata payment (1 = pagamento e 0 = nessun pagamento). Qual è l'interpretazione di questo pseudo R-quadrato? È un confronto relativo per i modelli nidificati (ad esempio un modello a 6 …

29 regression self-study logistic

4

Come si interpreta RMSLE (errore logaritmico al quadrato della radice)?

Ho partecipato a una competizione di machine learning in cui usano RMSLE (Root Mean Squared Logarithmic Error) per valutare le prestazioni prevedendo il prezzo di vendita di una categoria di apparecchiature. Il problema è che non sono sicuro di come interpretare il successo del mio risultato finale. Ad esempio, se …

29 regression machine-learning interpretation measurement-error theory

4

Come tradurre i risultati da lm () a un'equazione?

Possiamo usare lm()per prevedere un valore, ma in alcuni casi abbiamo ancora bisogno dell'equazione della formula del risultato. Ad esempio, aggiungere l'equazione ai grafici.

29 r regression lm

3

Regressione polinomiale usando scikit-learn

Sto cercando di usare scikit-learn per la regressione polinomiale. Da quello che leggo la regressione polinomiale è un caso speciale di regressione lineare. Stavo pensando che forse uno dei modelli lineari generalizzati di scikit possa essere parametrizzato per adattarsi a polinomi di ordine superiore ma non vedo alcuna opzione per …

29 regression machine-learning large-data polynomial scikit-learn

3

R: Random Forest lancia NaN / Inf nell'errore di "richiamo della funzione esterna" nonostante nessuna NaN nel set di dati [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Sto usando il cursore per eseguire una foresta casuale convalidata in modo incrociato su un set di …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

Come viene derivata la funzione di costo dalla regressione logistica

Sto facendo il corso di Machine Learning Stanford su Coursera. Nel capitolo sulla regressione logistica, la funzione di costo è questa: Quindi, è derivato qui: Ho provato a ottenere la derivata della funzione di costo ma ho ottenuto qualcosa di completamente diverso. Come si ottiene il derivato? Quali sono i …

29 regression logistic gradient-descent derivative

1

Quanto è errato un modello di regressione quando le assunzioni non sono soddisfatte?

Quando si adatta un modello di regressione, cosa succede se le ipotesi degli output non sono soddisfatte, in particolare: Cosa succede se i residui non sono omoscedastici? Se i residui mostrano uno schema crescente o decrescente nella trama Residui vs. Cosa succede se i residui non sono normalmente distribuiti e …

28 regression multiple-regression error assumptions normality-assumption

1

Perché la mia derivazione di una soluzione lazo in forma chiusa non è corretta?

βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX Tuttavia non capisco perché non esiste una soluzione a forma chiusa in generale. Usando le sottodifferenziali ho ottenuto quanto segue. ( XXX è una matrice n×pn×pn \times p ) f(β)=∥y−Xβ∥22+α∥β∥1f(β)=‖y−Xβ‖22+α‖β‖1f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1 =∑i=1n(yi−Xiβ)2+α∑j=1p|βj|=∑i=1n(yi−Xiβ)2+α∑j=1p|βj| =\sum_{i=1}^n (y_i-X_i\beta)^2 + \alpha \sum_{j=1}^p |\beta_j| …

28 regression lasso regularization

5

Quali sono i pericoli derivanti dalla violazione dell'ipotesi di omoscedasticità per la regressione lineare?

Ad esempio, considera il ChickWeightset di dati in R. La varianza ovviamente aumenta nel tempo, quindi se uso una semplice regressione lineare come: m <- lm(weight ~ Time*Diet, data=ChickWeight) Le mie domande: Quali aspetti del modello saranno discutibili? I problemi si limitano all'estrapolazione al di fuori Timedell'intervallo? Quanto è tollerante …

28 r regression heteroscedasticity assumptions

1

Ripetibilità informatica degli effetti da un modello più leggero

Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

5

Scegliere il modello migliore tra diversi modelli "migliori"

Come si sceglie un modello tra diversi modelli scelti con metodi diversi (ad es. Selezione indietro o avanti)? Inoltre, cos'è un modello parsimonioso?

28 regression model-selection

4

Pseudo R formula quadrata per GLM

Ho trovato una formula per lo pseudo nel libro Extending the Linear Model with R, Julian J. Faraway (p. 59).R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . È una formula comune per pseudo per GLM?R2R2R^2

28 r regression generalized-linear-model r-squared

6

Perché abbiamo bisogno della regressione multivariata (al contrario di un mucchio di regressioni univariate)?

Ho appena sfogliato questo meraviglioso libro: analisi statistica multivariata applicata di Johnson e Wichern . L'ironia è che non sono ancora in grado di comprendere la motivazione per l'utilizzo di modelli multivariati (regressione) invece di modelli univariati separati (regressione). Ho esaminato i post 1 e 2 di stats.statexchange che spiegano …

28 regression multiple-regression inference multivariate-regression

3

Perché la centratura di variabili indipendenti può modificare gli effetti principali con moderazione?

Ho una domanda relativa alla regressione multipla e all'interazione, ispirata a questo thread CV: termine di interazione che utilizza l'analisi della regressione gerarchica con variabili centrate? Quali variabili dovremmo centrare? Quando cerco un effetto di moderazione, concentro le mie variabili indipendenti e moltiplico le variabili centrate per calcolare il mio …

28 regression interaction centering

2

Perché RSS distribuito chi square times np?

Vorrei capire perché, sotto il modello OLS, l'RSS (somma residua dei quadrati) è distribuito ( è il numero di parametri nel modello, il numero di osservazioni).p nχ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn Mi scuso per aver posto una domanda così basilare, ma sembra che non riesca a trovare la risposta online (o nei miei …

28 regression distributions least-squares

Domande taggate «regression»