Ho giocato con foreste casuali per la regressione e ho difficoltà a capire esattamente cosa significano le due misure di importanza e come dovrebbero essere interpretate. La importance()funzione fornisce due valori per ogni variabile: %IncMSEe IncNodePurity. Esistono interpretazioni semplici per questi 2 valori? In IncNodePurityparticolare, questo è semplicemente l'importo che …
So che questa è una Rdomanda abbastanza specifica , ma potrei pensare alla varianza della proporzione spiegata, , in modo errato. Ecco qui.R2R2R^2 Sto cercando di usare il Rpacchetto randomForest. Ho alcuni dati di allenamento e dati di test. Quando inserisco un modello di foresta casuale, la randomForestfunzione consente di …
Sto lavorando a un set di dati con oltre 200.000 campioni e circa 50 funzioni per campione: 10 variabili continue e le altre ~ 40 sono variabili categoriali (paesi, lingue, campi scientifici ecc.). Per queste variabili categoriche, hai ad esempio 150 paesi diversi, 50 lingue, 50 campi scientifici ecc ... …
Sto cercando di formare un classificatore che discriminerà tra Type Ae Type Boggetti con un set di addestramento ragionevolmente ampio di circa 10.000 oggetti, di cui circa la metà Type Ae metà Type B. Il set di dati è composto da 100 funzioni continue che descrivono in dettaglio le proprietà …
Ho ricevuto uno script R da qualcuno per eseguire un modello di foresta casuale. L'ho modificato ed eseguito con alcuni dati dei dipendenti. Stiamo cercando di prevedere separazioni volontarie. Ecco alcune informazioni aggiuntive: questo è un modello di classificazione dove 0 = dipendente è rimasto, 1 = dipendente è terminato, …
Ho delle difficoltà a capire come interpretare l'output di importanza variabile dal pacchetto Random Forest. La riduzione media dell'accuratezza è generalmente descritta come "la riduzione dell'accuratezza del modello dal permutare i valori in ciascuna caratteristica". È un'affermazione sulla funzionalità nel suo insieme o su valori specifici all'interno della funzione? In …
Ho letto in alcune fonti, tra cui questa , che le foreste casuali non sono sensibili ai valori anomali (come lo sono la regressione logistica e altri metodi ML). Tuttavia, due pezzi di intuizione mi dicono diversamente: Ogni volta che viene costruito un albero decisionale, tutti i punti devono essere …
A mio avviso, le variabili altamente correlate non causeranno problemi di multi-collinearità nel modello di foresta casuale (correggimi se sbaglio). Tuttavia, in caso contrario, se ho troppe variabili contenenti informazioni simili, il modello peserà troppo su questo set piuttosto che sugli altri? Ad esempio, ci sono due serie di informazioni …
Vorrei determinare l'importanza relativa degli insiemi di variabili verso un randomForestmodello di classificazione in R. La importancefunzione fornisce la MeanDecreaseGinimetrica per ogni singolo predittore - è semplice come sommare questo attraverso ciascun predittore in un insieme? Per esempio: # Assumes df has variables a1, a2, b1, b2, and outcome rf …
Sto cercando di accelerare con R. Alla fine voglio usare le librerie R per fare la classificazione del testo. Mi stavo solo chiedendo quali sono le esperienze delle persone riguardo alla scalabilità di R quando si tratta di fare una classificazione del testo. Probabilmente incapperò in dati ad alta dimensione …
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Sto usando il cursore per eseguire una foresta casuale convalidata in modo incrociato su un set di …
Nell'algoritmo della foresta casuale, Breiman (autore) costruisce una matrice di somiglianza come segue: Invia tutti gli esempi di apprendimento giù per ogni albero nella foresta Se due esempi arrivano alla stessa foglia incrementano l'elemento corrispondente nella matrice di somiglianza di 1 Normalizza la matrice con il numero di alberi Lui …
Le foreste casuali sono ben note per svolgere abbastanza bene su una varietà di compiti e sono state indicate come la pellettiera dei metodi di apprendimento . Esistono tipi di problemi o condizioni specifiche in cui si dovrebbe evitare di usare una foresta casuale?
Esiste un'implementazione della foresta casuale R che funziona bene con dati molto sparsi? Ho migliaia o milioni di variabili di input booleane, ma solo centinaia o giù di lì saranno VERE per ogni dato esempio. Sono relativamente nuovo su R e ho notato che esiste un pacchetto "Matrix" per gestire …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.