Una libreria di apprendimento automatico per Python. Usa questo tag per qualsiasi domanda sull'argomento che (a) coinvolga scikit-learn come parte critica della domanda o risposta prevista, e (b) non riguarda solo come usare scikit-learn.
Sto cercando di capire come funziona XGBoost. Capisco già come funzionano gli alberi con gradiente potenziato su Python sklearn. Ciò che non mi è chiaro è se XGBoost funziona allo stesso modo, ma più velocemente, o se ci sono differenze fondamentali tra esso e l'implementazione di Python. Quando ho letto …
Sto cercando di creare un classificatore multi-etichetta in modo da assegnare argomenti ai documenti esistenti usando scikit Sto elaborando i miei documenti passandoli attraverso le TfidfVectorizeretichette attraverso il MultiLabelBinarizere ho creato un OneVsRestClassifiercon uno SGDClassifiercome stimatore. Tuttavia quando collaudo il mio classificatore ottengo solo punteggi fino a .29 che da …
Sto sperimentando foreste casuali con scikit-learn e sto ottenendo grandi risultati dal mio set di allenamento, ma risultati relativamente scarsi sul mio set di test ... Ecco il problema (ispirato al poker) che sto cercando di risolvere: date le carte coperte del giocatore A, le carte coperte del giocatore B …
Sto usando lo scikit-learning di Python per allenare e testare una regressione logistica. scikit-learn restituisce i coefficienti di regressione delle variabili indipendenti, ma non fornisce gli errori standard dei coefficienti. Ho bisogno di questi errori standard per calcolare una statistica Wald per ciascun coefficiente e, a loro volta, confrontare questi …
Ho visto questo elenco qui e non potevo credere che ci fossero così tanti modi per risolvere i minimi quadrati. I "equazioni normali" su Wikipedia sembrava essere un modo abbastanza α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Quindi perché non …
Ho letto i seguenti post per la validazione incrociata nidificata e non sono ancora sicuro al 100% di cosa devo fare con la selezione del modello con validazione incrociata nidificata: Convalida incrociata nidificata per la selezione del modello Selezione del modello e convalida incrociata: la strada giusta Per spiegare la …
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Finora ho rimosso le variabili collineari come parte del processo di preparazione dei dati guardando le tabelle …
Sto addestrando un classificatore LDA multi-classe con 8 classi di dati. Durante l'allenamento, ricevo un avviso di: "Le variabili sono collineari " Sto ottenendo una precisione di allenamento superiore al 90% . Sto usando la libreria scikits-learn in Python per addestrare e testare i dati multi-classe. Ottengo anche una discreta …
Più di una domanda generale. Sto eseguendo un SVM rbf per la modellazione predittiva. Penso che il mio programma attuale abbia sicuramente bisogno di un po 'di accelerazione. Uso Scikit Learn con una ricerca della griglia da grossolana a fine + convalida incrociata. Ogni esecuzione SVM richiede circa un minuto, …
Sto cercando di usare la regressione casuale della foresta in scikits-learn. Il problema è che sto ricevendo un errore di test molto elevato: train MSE, 4.64, test MSE: 252.25. Ecco come appaiono i miei dati: (blu: dati reali, verde: previsto): Sto usando il 90% per l'allenamento e il 10% per …
Sto cercando di duplicare i risultati dalla sklearnlibreria di regressione logistica usando il glmnetpacchetto in R. Dalla documentazione sullasklearn regressione logistica , sta cercando di minimizzare la funzione di costo sotto penalità l2 minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog(exp(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Dalle vignette di glmnet, la sua implementazione riduce al …
Praticamente qualsiasi database che vogliamo fare previsioni usando algoritmi di machine learning troverà valori mancanti per alcune delle caratteristiche. Esistono diversi approcci per risolvere questo problema, per escludere le linee che hanno valori mancanti fino a quando non si riempiono con i valori medi delle caratteristiche. Vorrei utilizzare per un …
Il confronto delle funzionalità utilizza F-regressionle stesse funzionalità correlate con l'etichetta individualmente e l'osservazione del valore ?R2R2R^2 Ho visto spesso i miei colleghi utilizzare una F regressionselezione di funzionalità nella loro pipeline di machine learning da sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Alcuni, per favore, mi dicono: perché fornisce gli stessi risultati della semplice …
Quando ho utilizzato il bootstrap per la valutazione del modello, ho sempre pensato che i campioni out-of-bag fossero usati direttamente come set di test. Tuttavia, questo non sembra essere il caso dell'approccio scikit-learn deprecato , che sembra costruire il set di test dal disegno con la sostituzione dal sottoinsieme di …
Scikit ha CalibratedClassifierCV , che ci consente di calibrare i nostri modelli su una particolare coppia X, y. Lo afferma anche chiaramentedata for fitting the classifier and for calibrating it must be disjoint. Se devono essere disgiunti, è legittimo addestrare il classificatore con quanto segue? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.