Statistiche e Big Data random-forest

2

Misure di importanza variabile nelle foreste casuali

Ho giocato con foreste casuali per la regressione e ho difficoltà a capire esattamente cosa significano le due misure di importanza e come dovrebbero essere interpretate. La importance()funzione fornisce due valori per ogni variabile: %IncMSEe IncNodePurity. Esistono interpretazioni semplici per questi 2 valori? In IncNodePurityparticolare, questo è semplicemente l'importo che …

40 r machine-learning random-forest importance

1

calcolato manualmente non corrisponde a randomForest ()

So che questa è una Rdomanda abbastanza specifica , ma potrei pensare alla varianza della proporzione spiegata, , in modo errato. Ecco qui.R2R2R^2 Sto cercando di usare il Rpacchetto randomForest. Ho alcuni dati di allenamento e dati di test. Quando inserisco un modello di foresta casuale, la randomForestfunzione consente di …

38 r correlation predictive-models random-forest r-squared

6

Migliora la classificazione con molte variabili categoriali

Sto lavorando a un set di dati con oltre 200.000 campioni e circa 50 funzioni per campione: 10 variabili continue e le altre ~ 40 sono variabili categoriali (paesi, lingue, campi scientifici ecc.). Per queste variabili categoriche, hai ad esempio 150 paesi diversi, 50 lingue, 50 campi scientifici ecc ... …

37 machine-learning classification categorical-data random-forest many-categories

3

Creare un "punteggio di certezza" dai voti nelle foreste casuali?

Sto cercando di formare un classificatore che discriminerà tra Type Ae Type Boggetti con un set di addestramento ragionevolmente ampio di circa 10.000 oggetti, di cui circa la metà Type Ae metà Type B. Il set di dati è composto da 100 funzioni continue che descrivono in dettaglio le proprietà …

36 r machine-learning random-forest

3

Come interpretare la matrice OOB e confusione per la foresta casuale?

Ho ricevuto uno script R da qualcuno per eseguire un modello di foresta casuale. L'ho modificato ed eseguito con alcuni dati dei dipendenti. Stiamo cercando di prevedere separazioni volontarie. Ecco alcune informazioni aggiuntive: questo è un modello di classificazione dove 0 = dipendente è rimasto, 1 = dipendente è terminato, …

35 r classification error random-forest

3

Come interpretare la riduzione media della precisione e la riduzione media GINI nei modelli a foresta casuale

Ho delle difficoltà a capire come interpretare l'output di importanza variabile dal pacchetto Random Forest. La riduzione media dell'accuratezza è generalmente descritta come "la riduzione dell'accuratezza del modello dal permutare i valori in ciascuna caratteristica". È un'affermazione sulla funzionalità nel suo insieme o su valori specifici all'interno della funzione? In …

34 r machine-learning classification random-forest

3

In che modo le foreste casuali non sono sensibili ai valori anomali?

Ho letto in alcune fonti, tra cui questa , che le foreste casuali non sono sensibili ai valori anomali (come lo sono la regressione logistica e altri metodi ML). Tuttavia, due pezzi di intuizione mi dicono diversamente: Ogni volta che viene costruito un albero decisionale, tutti i punti devono essere …

33 random-forest bootstrap outliers cart

2

Le variabili altamente correlate nella foresta casuale distorcono la precisione e la selezione delle caratteristiche?

A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri? Ad esempio, ci sono due serie di informazioni …

32 random-forest multicollinearity ensemble

2

Importanza relativa di una serie di predittori in una classificazione casuale delle foreste in R

Vorrei determinare l'importanza relativa degli insiemi di variabili verso un randomForestmodello di classificazione in R. La importancefunzione fornisce la MeanDecreaseGinimetrica per ogni singolo predittore - è semplice come sommare questo attraverso ciascun predittore in un insieme? Per esempio: # Assumes df has variables a1, a2, b1, b2, and outcome rf …

31 r machine-learning classification random-forest

3

In che misura R scala le attività di classificazione del testo? [chiuso]

Sto cercando di accelerare con R. Alla fine voglio usare le librerie R per fare la classificazione del testo. Mi stavo solo chiedendo quali sono le esperienze delle persone riguardo alla scalabilità di R quando si tratta di fare una classificazione del testo. Probabilmente incapperò in dati ad alta dimensione …

30 r machine-learning svm text-mining random-forest

2

È essenziale eseguire la normalizzazione per SVM e Random Forest?

Ogni dimensione delle mie caratteristiche ha una gamma di valori diversa. Voglio sapere se è essenziale normalizzare questo set di dati.

29 machine-learning svm random-forest normalization

3

R: Random Forest lancia NaN / Inf nell'errore di "richiamo della funzione esterna" nonostante nessuna NaN nel set di dati [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Sto usando il cursore per eseguire una foresta casuale convalidata in modo incrociato su un set di …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Conversione della matrice di somiglianza in matrice di distanza (euclidea)

Nell'algoritmo della foresta casuale, Breiman (autore) costruisce una matrice di somiglianza come segue: Invia tutti gli esempi di apprendimento giù per ogni albero nella foresta Se due esempi arrivano alla stessa foglia incrementano l'elemento corrispondente nella matrice di somiglianza di 1 Normalizza la matrice con il numero di alberi Lui …

27 random-forest distance similarities euclidean

4

Quando evitare la foresta casuale?

Le foreste casuali sono ben note per svolgere abbastanza bene su una varietà di compiti e sono state indicate come la pellettiera dei metodi di apprendimento . Esistono tipi di problemi o condizioni specifiche in cui si dovrebbe evitare di usare una foresta casuale?

25 machine-learning classification random-forest

4

Esiste un'implementazione di Random Forest che funziona bene con dati molto sparsi?

Esiste un'implementazione della foresta casuale R che funziona bene con dati molto sparsi? Ho migliaia o milioni di variabili di input booleane, ma solo centinaia o giù di lì saranno VERE per ogni dato esempio. Sono relativamente nuovo su R e ho notato che esiste un pacchetto "Matrix" per gestire …

23 r random-forest sparse

Domande taggate «random-forest»