Statistiche e Big Data random-forest

3

Quali dovrebbero essere i parametri ottimali per il classificatore Random Forest?

Attualmente sto usando la toolbox RF su MATLAB per un problema di classificazione binaria Set di dati: 50000 campioni e oltre 250 funzioni Quindi quale dovrebbe essere il numero di alberi e la funzione selezionata casualmente su ogni divisione per far crescere gli alberi? qualsiasi altro parametro può influenzare notevolmente …

14 machine-learning classification random-forest

4

Bisogna preoccuparsi della multi-collinearità quando si usano modelli non lineari?

Supponiamo che abbiamo un problema di classificazione binaria con caratteristiche per lo più categoriche. Usiamo alcuni modelli non lineari (ad esempio XGBoost o Random Forests) per impararlo. Bisogna ancora preoccuparsi della multi-collinearità? Perché? Se la risposta a quanto sopra è vera, come si dovrebbe combatterla considerando che si stanno usando …

13 classification random-forest multicollinearity xgboost

1

Valuta foresta casuale: OOB vs CV

Quando valutiamo la qualità di una foresta casuale, ad esempio utilizzando AUC, è più appropriato calcolare queste quantità sui campioni out of bag o sul set di validazione incrociata? Ho sentito che il calcolo su campioni OOB fornisce una valutazione più pessimistica, ma non vedo perché.

13 cross-validation random-forest auc

3

La foresta casuale e il potenziamento sono parametrici o non parametrici?

Leggendo l'eccellente modellistica statistica: le due culture (Breiman 2001) , possiamo cogliere tutta la differenza tra modelli statistici tradizionali (ad es. Regressione lineare) e algoritmi di apprendimento automatico (ad es. Insaccamento, foresta casuale, alberi potenziati ...). Breiman critica i modelli di dati (parametrici) perché si basano sul presupposto che le …

13 machine-learning data-mining random-forest boosting bagging

3

Foresta casuale su dati multilivello / struttura gerarchica

Sono abbastanza nuovo nell'apprendimento automatico, nelle tecniche CART e simili, e spero che la mia ingenuità non sia troppo ovvia. In che modo Random Forest gestisce strutture dati multilivello / gerarchiche (ad esempio quando l'interazione tra livelli è interessante)? Cioè, set di dati con unità di analisi a diversi livelli …

13 machine-learning random-forest multilevel-analysis cart

1

Foresta casuale e previsione

Sto cercando di capire come funziona Random Forest. Ho una comprensione di come vengono costruiti gli alberi, ma non riesco a capire come Random Forest faccia previsioni sul campione fuori borsa. Qualcuno potrebbe darmi una spiegazione semplice, per favore? :)

13 random-forest prediction

2

Quando registrare / espandere le variabili quando si utilizzano modelli a foresta casuale?

Sto facendo regressione utilizzando le foreste casuali per prevedere i prezzi in base a diversi attributi. Il codice è scritto in Python usando Scikit-learn. Come decidete se trasformare le variabili usando exp/ logprima di usarle per adattarsi al modello di regressione? È necessario quando si utilizza un approccio Ensemble come …

13 regression machine-learning predictive-models python random-forest

3

PCA su dati di testo ad alta dimensione prima della classificazione casuale delle foreste?

Ha senso fare PCA prima di effettuare una classificazione casuale delle foreste? Ho a che fare con dati di testo ad alta dimensione e voglio fare una riduzione delle caratteristiche per evitare la maledizione della dimensionalità, ma le foreste casuali non hanno già una sorta di riduzione della dimensione?

13 classification pca random-forest dimensionality-reduction high-dimensional

6

Foresta casuale: come gestire i nuovi livelli di fattore nel set di test?

Sto cercando di fare previsioni usando un modello di foresta casuale in R. Tuttavia, ricevo errori poiché alcuni fattori hanno valori diversi nel set di test rispetto al set di training. Ad esempio, un fattore Cat_2ha valori 34, 68, 76, ecc., Nel set di test che non compaiono nel set …

13 r categorical-data random-forest

3

Esiste una formula o una regola per determinare il sampSize corretto per un randomForest?

Sto giocando con un randomForest e ho scoperto che generalmente aumentare il sampSize porta a prestazioni migliori. Esiste una regola / formula / ecc. Che suggerisce quale dovrebbe essere il sampSize ottimale o è una cosa di prova ed errore? Immagino un altro modo di esprimerlo; quali sono i miei …

13 r random-forest

1

In Random Forest, perché un sottoinsieme casuale di funzionalità viene scelto a livello di nodo anziché a livello di albero?

La mia domanda: Perché la foresta casuale considera sottoinsiemi casuali di funzioni da suddividere a livello di nodo all'interno di ciascun albero anziché a livello di albero ? Sfondo: questa è una questione di storia. Tin Kam Ho pubblicato questo articolo sulla costruzione di "foreste" decision selezionando in modo casuale …

13 machine-learning feature-selection random-forest importance history

1

In che modo Kinect utilizza foreste casuali?

Ho letto su questo sito che apparentemente Kinect utilizza l' algoritmo di foreste casuali per l'apprendimento automatico in qualche modo. Qualcuno può spiegare a cosa serve le foreste casuali e come funziona il loro approccio?

13 machine-learning random-forest application

2

Random Forest è adatto a set di dati molto piccoli?

Ho un set di dati che comprende 24 righe di dati mensili. Le caratteristiche sono PIL, arrivi in aeroporto, mese e pochi altri. La variabile dipendente è il numero di visitatori verso una destinazione turistica popolare. Random Forest sarebbe adatto a un simile problema? I dati non sono pubblici, quindi …

13 random-forest small-sample

2

Cosa si intende per vicinanza nelle foreste casuali?

Mi sono imbattuto nel termine prossimità in foreste casuali. Ma non riuscivo a capire cosa facesse nelle foreste casuali. In che modo aiuta a fini di classificazione?

13 machine-learning random-forest

2

Le migliori pratiche per la codifica di caratteristiche categoriche per gli alberi decisionali?

Quando si codificano le caratteristiche categoriche per la regressione lineare, esiste una regola: il numero di manichini dovrebbe essere uno in meno del numero totale di livelli (per evitare la collinearità). Esiste una regola simile per gli alberi decisionali (in sacchi, potenziati)? Lo sto chiedendo perché una pratica standard in …

13 categorical-data random-forest cart boosting

Domande taggate «random-forest»