Statistiche e Big Data random-forest

1

Come devono essere implementate le suddivisioni dell'albero decisionale quando si prevedono variabili continue?

In realtà sto scrivendo un'implementazione di Random Forests ma credo che la domanda sia specifica per gli alberi delle decisioni (indipendentemente dalle RF). Quindi il contesto è che sto creando un nodo in un albero decisionale e sia la previsione che le variabili target sono continue. Il nodo ha una …

15 algorithms cart random-forest

2

Quale misura dell'errore di addestramento segnalare per le foreste casuali?

Attualmente sto adattando foreste casuali per un problema di classificazione usando il randomForestpacchetto in R, e non sono sicuro su come segnalare errori di addestramento per questi modelli. Il mio errore di allenamento è vicino allo 0% quando lo calcolo usando le previsioni che ottengo con il comando: predict(model, data=X_train) …

15 r machine-learning classification random-forest overfitting

3

In che modo `predict.randomForest` stima le probabilità della classe?

In che modo il randomForestpacchetto stima le probabilità della classe quando uso predict(model, data, type = "prob")? Stavo usando rangerper addestrare foreste casuali usando l' probability = Targomento per prevedere le probabilità. rangerdice nella documentazione che: Coltiva una foresta di probabilità come in Malley et al. (2012). Ho simulato alcuni …

15 r random-forest prediction

1

Quale metodo di confronto multiplo utilizzare per un modello lmer: lsmeans o glht?

Sto analizzando un set di dati usando un modello di effetti misti con un effetto fisso (condizione) e due effetti casuali (partecipante a causa del disegno e della coppia all'interno del soggetto). Il modello è stato generato conlme4 pacchetto: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Successivamente, ho eseguito un test del rapporto di verosimiglianza di …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

1

Compresi i termini di interazione nella foresta casuale

Supponiamo di avere una risposta Y e i predittori X1, ...., Xn. Se dovessimo provare ad adattare Y tramite un modello lineare di X1, ...., Xn, ed è successo che la vera relazione tra Y e X1, ..., Xn non fosse lineare, potremmo essere in grado per riparare il modello …

15 machine-learning random-forest

2

Perché la funzione bootstrap di scikit-learn ricampiona il set di test?

Quando ho utilizzato il bootstrap per la valutazione del modello, ho sempre pensato che i campioni out-of-bag fossero usati direttamente come set di test. Tuttavia, questo non sembra essere il caso dell'approccio scikit-learn deprecato , che sembra costruire il set di test dal disegno con la sostituzione dal sottoinsieme di …

15 cross-validation bootstrap random-forest scikit-learn bagging

1

Quali algoritmi di insaccamento sono degni successori di Random Forest?

Per aumentare gli algoritmi, direi che si sono evoluti abbastanza bene. All'inizio del 1995 fu introdotto AdaBoost, poi dopo qualche tempo fu Gradient Boosting Machine (GBM). Di recente, intorno al 2015 è stato introdotto XGBoost, che è accurato, gestisce il sovradimensionamento ed è diventato un vincitore di più competizioni Kaggle. …

14 random-forest boosting bagging

2

Risultati diversi da randomForest via caret e dal pacchetto randomForest di base

Sono un po 'confuso: in che modo i risultati di un modello addestrato tramite il cursore possono differire dal modello nella confezione originale? Ho letto Se è necessaria la preelaborazione prima della previsione utilizzando FinalModel di RandomForest con pacchetto di inserimento? ma non uso alcuna preelaborazione qui. Ho addestrato diverse …

14 r machine-learning random-forest caret train

3

Ponderazione dei dati più recenti nel modello Foresta casuale

Sto addestrando un modello di classificazione con Random Forest per discriminare tra 6 categorie. I miei dati transazionali hanno circa 60k + osservazioni e 35 variabili. Ecco un esempio di come appare approssimativamente. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | …

14 r machine-learning classification random-forest

1

Utilizzo di LASSO su foreste casuali

Vorrei creare una foresta casuale usando il seguente processo: Costruisci un albero su un campione casuale di dati e caratteristiche usando il guadagno delle informazioni per determinare le divisioni Terminare un nodo foglia se supera una profondità predefinita O qualsiasi divisione comporterebbe un conteggio delle foglie inferiore a un minimo …

14 classification random-forest lasso ensemble

1

RandomForest - Interpretazione del diagramma MDS

Ho usato randomForest per classificare 6 comportamenti animali (ad es. In piedi, camminare, nuotare, ecc.) In base a 8 variabili (diverse posture del corpo e movimento). MDSplot nel pacchetto randomForest mi dà questo output e ho problemi nell'interpretazione del risultato. Ho fatto un PCA sugli stessi dati e ho già …

14 r classification random-forest multidimensional-scaling

2

Perché la stima OOB della foresta casuale di errore migliora quando si riduce il numero di funzionalità selezionate?

Sto applicando un algoritmo di foresta casuale come classificatore su un set di dati di microarray che sono divisi in due gruppi noti con migliaia di funzionalità. Dopo la corsa iniziale guardo l'importanza delle funzionalità ed eseguo di nuovo l'algoritmo dell'albero con le funzionalità più importanti 5, 10 e 20. …

14 r machine-learning classification random-forest

3

Come modellare i big data longitudinali?

Tradizionalmente usiamo il modello misto per modellare i dati longitudinali, cioè dati come: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 possiamo supporre intercettazione o pendenza casuali per …

14 machine-learning data-transformation random-forest panel-data large-data

3

R: Cosa vedo nei grafici di dipendenza parziale di gbm e RandomForest?

In realtà, pensavo di aver capito cosa si può mostrare con un diagramma di dipendenza parziale, ma usando un esempio ipotetico molto semplice, sono rimasto piuttosto perplesso. Nel seguente pezzo di codice a generare tre variabili indipendenti ( un , b , c ) e una variabile dipendente ( y …

14 r random-forest boosting partial-plot

5

Foresta casuale e algoritmo dell'albero delle decisioni

Una foresta casuale è una raccolta di alberi decisionali che seguono il concetto di insacco. Quando passiamo da un albero decisionale all'albero decisionale successivo, in che modo le informazioni apprese dall'ultimo albero decisionale passano al successivo? Perché, secondo la mia comprensione, non esiste nulla come un modello addestrato che viene …

14 machine-learning random-forest cart bagging

Domande taggate «random-forest»