Domande taggate «random-forest»

La foresta casuale è un classificatore di apprendimento automatico basato sulla scelta di sottoinsiemi casuali di variabili per ciascun albero e utilizzando l'output dell'albero più frequente come classificazione generale.


9
ValueError: l'input contiene NaN, infinito o un valore troppo grande per dtype ('float32')
Ho ottenuto ValueError durante la previsione dei dati di test utilizzando un modello RandomForest. Il mio codice: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) L'errore: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Come trovo i valori errati …

1


3
Comprensione di predict_proba da MultiOutputClassifier
Sto seguendo questo esempio sul sito Web di scikit-learn per eseguire una classificazione multioutput con un modello Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, …


4
Random Forest si allena?
Ho letto delle foreste casuali ma non riesco davvero a trovare una risposta definitiva al problema del sovradimensionamento. Secondo il documento originale di Breiman, non dovrebbero esagerare quando si aumenta il numero di alberi nella foresta, ma sembra che non ci sia consenso al riguardo. Questo mi sta creando una …




5
ingrandisci la mappa di calore dei nati marini
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Metodo di punteggio OOB RandomForestClassifier
L'implementazione casuale della foresta in scikit-learn utilizza l'accuratezza media come metodo di calcolo del punteggio per stimare l'errore di generalizzazione con campioni out-of-bag? Questo non è menzionato nella documentazione, ma il metodo score () riporta l'accuratezza media. Ho un set di dati altamente sbilanciato e sto usando AUC di ROC …


1
Quante funzioni da campionare usando le foreste casuali
La pagina di Wikipedia che cita "Gli elementi dell'apprendimento statistico" dice: In genere, per un problema di classificazione con funzionalità ppp , le funzioni vengono utilizzate in ogni divisione.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Capisco che si tratta di una supposizione abbastanza istruita e probabilmente è stata confermata da prove empiriche, ma ci …

5
L'importanza delle funzionalità con Scikit-learn Random Forest mostra una deviazione standard molto elevata
Sto usando Scikit-learn Random Forest Classifier e voglio tracciare l'importanza delle funzionalità come in questo esempio . Tuttavia, il mio risultato è completamente diverso, nel senso che l'importanza della deviazione standard è quasi sempre maggiore dell'importanza della caratteristica stessa (vedi immagine allegata). È possibile avere questo tipo di comportamento, o …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.