La foresta casuale è un classificatore di apprendimento automatico basato sulla scelta di sottoinsiemi casuali di variabili per ciascun albero e utilizzando l'output dell'albero più frequente come classificazione generale.
Sto riscontrando alcuni problemi su un'applicazione dell'albero decisionale / foresta casuale. Sto cercando di adattare un problema che ha numeri e stringhe (come il nome del paese) come funzionalità. Ora la libreria, scikit-learn prende solo i numeri come parametri, ma voglio iniettare le stringhe oltre a portare una notevole quantità …
Ho ottenuto ValueError durante la previsione dei dati di test utilizzando un modello RandomForest. Il mio codice: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) L'errore: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Come trovo i valori errati …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
Quando si dovrebbe usare Random Forestoltre SVMe viceversa? Lo capisco cross-validatione il confronto tra modelli è un aspetto importante nella scelta di un modello, ma qui vorrei saperne di più sulle regole empiriche e sull'euristica dei due metodi. Qualcuno può spiegare le sottigliezze, i punti di forza e di debolezza …
Sto seguendo questo esempio sul sito Web di scikit-learn per eseguire una classificazione multioutput con un modello Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, …
Non ero chiaro su un paio di concetti: XGBoost converte gli studenti deboli in studenti forti. Qual è il vantaggio di farlo? Combinando molti studenti deboli invece di usare un solo albero? La foresta casuale usa vari campioni dall'albero per creare un albero. Qual è il vantaggio di questo metodo …
Ho letto delle foreste casuali ma non riesco davvero a trovare una risposta definitiva al problema del sovradimensionamento. Secondo il documento originale di Breiman, non dovrebbero esagerare quando si aumenta il numero di alberi nella foresta, ma sembra che non ci sia consenso al riguardo. Questo mi sta creando una …
Per quanto ho visto, le opinioni tendono a differire su questo. Le migliori pratiche detterebbero certamente l'uso della convalida incrociata (soprattutto se si confrontano RF con altri algoritmi sullo stesso set di dati). D'altra parte, la fonte originale afferma che il fatto che l'errore OOB viene calcolato durante l'addestramento del …
Sto usando l'esempio di OpenCV letter_recog.cpp per sperimentare su alberi casuali e altri classificatori. Questo esempio ha implementazioni di sei classificatori: alberi casuali, boosting, MLP, kNN, ingenui Bayes e SVM. Viene utilizzato il set di dati di riconoscimento lettere UCI con 20000 istanze e 16 funzionalità, che ho diviso a …
Ho un problema di classificazione binaria: Circa 1000 campioni in set di allenamento 10 attributi, inclusi binari, numerici e categorici Quale algoritmo è la scelta migliore per questo tipo di problema? Per impostazione predefinita, inizierò con SVM (preliminare con valori di attributi nominali convertiti in funzioni binarie), poiché è considerato …
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
L'implementazione casuale della foresta in scikit-learn utilizza l'accuratezza media come metodo di calcolo del punteggio per stimare l'errore di generalizzazione con campioni out-of-bag? Questo non è menzionato nella documentazione, ma il metodo score () riporta l'accuratezza media. Ho un set di dati altamente sbilanciato e sto usando AUC di ROC …
Uso Python per eseguire un modello di foresta casuale sul mio set di dati non bilanciato (la variabile di destinazione era una classe binaria). Quando ho diviso il set di dati di training e testing, ho faticato a usare il campionamento stratificato (come il codice mostrato) oppure no. Finora, ho …
La pagina di Wikipedia che cita "Gli elementi dell'apprendimento statistico" dice: In genere, per un problema di classificazione con funzionalità ppp , le funzioni vengono utilizzate in ogni divisione.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Capisco che si tratta di una supposizione abbastanza istruita e probabilmente è stata confermata da prove empiriche, ma ci …
Sto usando Scikit-learn Random Forest Classifier e voglio tracciare l'importanza delle funzionalità come in questo esempio . Tuttavia, il mio risultato è completamente diverso, nel senso che l'importanza della deviazione standard è quasi sempre maggiore dell'importanza della caratteristica stessa (vedi immagine allegata). È possibile avere questo tipo di comportamento, o …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.