Sto cercando di identificare il modello migliore per prevedere i prezzi delle automobili, utilizzando i prezzi e le funzionalità disponibili sui siti di annunci classificati automobilistici. Per questo ho usato un paio di modelli della libreria scikit-learn e modelli di reti neurali di pybrain e neurolab. L'approccio che ho usato …
Sto lavorando con molti algoritmi: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear e rbf), KNN, LDA e XGBoost. Tutti sono stati piuttosto veloci, tranne SVM. Questo è quando ho saputo che ha bisogno del ridimensionamento delle funzionalità per funzionare più velocemente. Poi ho iniziato a chiedermi se avrei dovuto fare …
Dopo aver creato un modello di foresta casuale (regressione) in R, la chiamata rf$importancemi fornisce due misure per ciascuna variabile predittore %IncMSEe IncNodePurity. L'interpretazione secondo cui le variabili predittive con %IncMSEvalori minori sono più importanti delle variabili predittive con %IncMSEvalori maggiori ? Che ne dici di IncNodePurity?
Sto esplorando diversi metodi di classificazione per un progetto a cui sto lavorando e sono interessato a provare le foreste casuali. Sto cercando di educare me stesso mentre vado avanti e apprezzerei qualsiasi aiuto fornito dalla comunità CV. Ho diviso i miei dati in set di allenamento / test. Dalla …
Sto cercando di capire come posso ottenere l'importanza di una variabile categoriale che è stata suddivisa in variabili fittizie. Sto usando scikit-learn che non gestisce le variabili categoriali per te come fanno R o h2o. Se suddivido una variabile categoriale in variabili fittizie, ottengo importazioni di funzionalità separate per classe …
Random Forests (RFs) è un metodo di modellazione / mining di dati competitivo. Un modello RF ha un'uscita: la variabile di uscita / previsione. L'approccio ingenuo alla modellazione di più uscite con RF sarebbe quello di costruire una RF per ogni variabile di uscita. Quindi abbiamo N modelli indipendenti e …
Ho un set di dati con principalmente variabili finanziarie (120 caratteristiche, esempi 4k) che sono per lo più altamente correlate e molto rumorose (indicatori tecnici, ad esempio), quindi vorrei selezionare circa 20-30 max per un uso successivo con la formazione dei modelli (classificazione binaria - aumento diminuzione). Stavo pensando di …
La macchina per aumentare il gradiente di Friedman può ottenere prestazioni migliori rispetto alla Foresta casuale di Breiman ? In tal caso, in quali condizioni o che tipo di set di dati può migliorare gbm?
Quindi, sono un principiante nel campo ML e provo a fare un po 'di classificazione. Il mio obiettivo è prevedere il risultato di un evento sportivo. Ho raccolto alcuni dati storici e ora provo a formare un classificatore. Ho ottenuto circa 1200 campioni, 0,2 dei quali li ho suddivisi a …
Sto cercando di utilizzare Random Forest per prevedere il risultato di un set di dati estremamente squilibrato (il tasso di classe di minoranza è solo dell'1% o anche meno). Poiché l'algoritmo tradizionale Foresta casuale riduce al minimo il tasso di errore complessivo, anziché prestare particolare attenzione alle classi di minoranza, …
Le mie variabili di input hanno dimensioni diverse. Alcune variabili sono decimali mentre altre sono centinaia. È essenziale centrare (sottrarre media) o ridimensionare (dividere per deviazione standard) queste variabili di input al fine di rendere i dati senza dimensioni quando si utilizza la foresta casuale?
Sono abbastanza nuovo per le foreste casuali. In passato, ho sempre confrontato l'accuratezza di adattamento vs test rispetto a adattamento vs treno per rilevare eventuali eccessi. Ma ho appena letto qui che: "Nelle foreste casuali, non è necessaria la convalida incrociata o un set di test separato per ottenere una …
Vorrei sapere se la foresta casuale di Breiman (foresta casuale nel pacchetto R randomForest) utilizza come criterio di suddivisione (criterio per la selezione degli attributi) guadagno di informazioni o indice Gini? Ho provato a scoprirlo su http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm e nella documentazione per il pacchetto randomForest in R. Ma l'unica cosa che …
Sto lavorando alla misura di importanza della funzione Gini per la foresta casuale. Pertanto, devo calcolare la diminuzione di Gini nell'impurità del nodo. Ecco il modo in cui lo faccio, che porta a un conflitto con la definizione, suggerendo che devo sbagliarmi da qualche parte ... :) Per un albero …
Sto cercando di usare la regressione casuale della foresta in scikits-learn. Il problema è che sto ricevendo un errore di test molto elevato: train MSE, 4.64, test MSE: 252.25. Ecco come appaiono i miei dati: (blu: dati reali, verde: previsto): Sto usando il 90% per l'allenamento e il 10% per …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.