Statistiche e Big Data cart

1

Ridimensionamento (funzionalità) degli alberi decisionali e normalizzazione (ottimizzazione) delle variabili (funzione) richiesti in quali implementazioni?

In molti algoritmi di machine learning, il ridimensionamento delle funzioni (noto anche come ridimensionamento variabile, normalizzazione) è un passaggio di preprocessamento comune Wikipedia - Ridimensionamento delle funzionalità - questa domanda era vicina Domanda n. 41704 - Come e perché funzionano la normalizzazione e il ridimensionamento delle funzioni? Ho due domande …

10 machine-learning feature-selection cart

1

Perché Anova () e drop1 () hanno fornito risposte diverse per i GLMM?

Ho un GLMM del modulo: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), ottengo risultati diversi rispetto a quelli che utilizzo Anova(model, type="III")dal pacchetto auto o summary(model). Questi ultimi due danno le stesse risposte. Usando un mucchio di dati fabbricati, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Dimensione dell'albero nell'incremento dell'albero gradiente

L'incremento dell'albero dei gradienti, come proposto da Friedman, utilizza gli alberi decisionali con Jnodi terminali (= foglie) come apprendenti di base. Esistono diversi modi per far crescere un albero con esattamente Jnodi, ad esempio si può far crescere l'albero in un modo molto profondo prima o in un modo molto …

10 r cart boosting

1

Valore “nascosto” della variabile categoriale della regressione lineare

Questo è solo un esempio che ho riscontrato più volte, quindi non ho dati di esempio. Esecuzione di un modello di regressione lineare in R: a.lm = lm(Y ~ x1 + x2) x1è una variabile continua. x2è categorico e ha tre valori, ad esempio "Basso", "Medio" e "Alto". Tuttavia, l'output …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

Indagare sulle differenze tra le popolazioni

Supponiamo di avere un campione di due popolazioni: Ae B. Supponiamo che queste popolazioni siano composte da individui e scegliamo di descriverli in termini di caratteristiche. Alcune di queste funzioni sono categoriche (ad esempio, guidano per funzionare?) E alcune sono numeriche (ad esempio, la loro altezza). Chiamiamo queste funzionalità: . …

9 anova random-forest cart group-differences

2

Gli stimatori degli alberi sono SEMPRE di parte?

Sto facendo i compiti sugli alberi decisionali e una delle domande a cui devo rispondere è "Perché gli stimatori sono costruiti su alberi distorti e in che modo l'insacco aiuta a ridurne la varianza?". Ora, so che i modelli troppo equipaggiati tendono ad avere una propensione molto bassa, perché cercano …

9 cart bias

2

Gli alberi CART acquisiscono interazioni tra i predittori?

Questo documento afferma che in CART, poiché una divisione binaria viene eseguita su una singola covariata ad ogni passaggio, tutte le divisioni sono ortogonali e quindi le interazioni tra covariate non sono considerate. Tuttavia, molti riferimenti molto seri sostengono, al contrario, che la struttura gerarchica di un albero garantisce che …

9 machine-learning classification data-mining cart

2

Come valutare la bontà dell'adattamento per le funzioni di sopravvivenza

Sono un nuovo arrivato nell'analisi di sopravvivenza, anche se ho una certa conoscenza della classificazione e della regressione. Per regressione, abbiamo statistiche MSE e R quadrate. Ma come possiamo dire che il modello di sopravvivenza A è superiore al modello di sopravvivenza B oltre a qualche tipo di grafici (curva …

9 regression survival goodness-of-fit cart rpart

1

Come scegliere il numero di divisioni in rpart ()?

Ho usato rpart.controlper minsplit=2e ho ottenuto i seguenti risultati dalla rpart()funzione. Per evitare un overfitting dei dati, devo usare le split 3 o le split 7? Non dovrei usare split 7? Per favore mi faccia sapere. Variabili effettivamente utilizzate nella costruzione di alberi: [1] ct_a ct_b usr_a Root node error: …

9 r cart rpart

1

Posso combinare molti alberi che aumentano il gradiente usando la tecnica dell'insacco

Basato su Gradient Boosting Tree vs Random Forest . GBDT e RF utilizzano strategie diverse per contrastare la distorsione e la variazione. La mia domanda è che posso ricampionare il set di dati (con la sostituzione) per addestrare più GBDT e combinare le loro previsioni come risultato finale? È equivalente …

8 random-forest cart boosting bagging gradient

Domande taggate «cart»