Una libreria di apprendimento automatico per Python. Usa questo tag per qualsiasi domanda sull'argomento che (a) coinvolga scikit-learn come parte critica della domanda o risposta prevista, e (b) non riguarda solo come usare scikit-learn.
Ho una domanda su due metodi diversi da diverse librerie che sembra fare lo stesso lavoro. Sto cercando di creare un modello di regressione lineare. Ecco il codice che utilizzo la libreria statsmodel con OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, …
La pagina di Scikit Learn sulla selezione del modello menziona l'uso della validazione incrociata nidificata: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Due cicli di validazione incrociata vengono eseguiti in parallelo: uno dallo stimatore GridSearchCV per impostare la gamma e l'altro da cross_val_score per misurare le …
Le classi previste dalla regressione logistica (binaria) sono determinate usando una soglia sulle probabilità di appartenenza alla classe generate dal modello. A quanto ho capito, in genere 0,5 viene utilizzato per impostazione predefinita. Ma variando la soglia cambieranno le classificazioni previste. Questo significa che la soglia è un iperparametro? In …
Attualmente sto provando a calcolare il BIC per il mio set di dati giocattolo (ofc iris (:). Voglio riprodurre i risultati come mostrato qui (Fig. 5). Quel documento è anche la mia fonte per le formule BIC. Ho 2 problemi con questo: Notazione: nionin_i = numero di elementi nel clusterioii …
Sto usando scikit-learn per eseguire una regressione logistica con crossvalidation su un set di dati (circa 14 parametri con> 7000 osservazioni normalizzate). Ho anche un classificatore di destinazione che ha un valore di 1 o 0. Il problema che ho è che, indipendentemente dal solutore utilizzato, continuo a ricevere avvisi …
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
Comprendo la relazione tra l'analisi delle componenti principali e la decomposizione del valore singolare a livello algebrico / esatto. La mia domanda riguarda l' implementazione di scikit-learn . La documentazione dice: " [TruncatedSVD] è molto simile al PCA, ma opera direttamente sui vettori di campione, anziché su una matrice di …
Sto lavorando con la libreria scikit-learn in Python. Nel codice seguente, sto predicendo la probabilità ma non so come leggere l'output. Test dei dati from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Dividi il set di dati X_train, X_test, y_train, y_test = …
Sto cercando di imparare alcuni Python e Sklearn, ma per il mio lavoro ho bisogno di eseguire regressioni che utilizzano distribuzioni di errori dalle famiglie Poisson, Gamma e soprattutto Tweedie. Non vedo nulla nella documentazione su di loro, ma si trovano in diverse parti della distribuzione R, quindi mi chiedevo …
Stavo leggendo le metriche di regressione nel manuale di Python Scikit-Learn e anche se ognuna di esse ha la sua formula, non posso dire intuitivamente qual è la differenza tra e il punteggio di varianza e quindi quando usare l'uno o l'altro per valutare i miei modelli.R2R2R^2
Ho letto del metodo Nyström per l'aproximation del kernel di basso rango. Questo metodo è implementato in scikit-learn [1] come metodo per proiettare campioni di dati su un'approssimazione di basso rango della mappatura delle caratteristiche del kernel. Al meglio della mia conoscenza, dato un insieme di formazione e una funzione …
Giocando con il Boston Housing Dataset e RandomForestRegressor(con parametri di default) in scikit-learn, ho notato qualcosa di strano: il punteggio medio di validazione incrociata è diminuito quando ho aumentato il numero di pieghe oltre 10. La mia strategia di validazione incrociata era la seguente: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = …
Qualcuno ha provato a verificare se il montaggio di un modello di rete elastica con ElasticNetin scikit-learn in Python e glmnetin R sullo stesso set di dati produce risultati aritmetici identici? Ho sperimentato molte combinazioni di parametri (poiché le due funzioni differiscono nei valori predefiniti che passano agli argomenti) e …
Sto esaminando la sezione LAB §6.6 su Ridge Regression / Lasso nel libro 'An Introduction to Statistical Learning with Applications in R' di James, Witten, Hastie, Tibshirani (2013). Più specificamente, sto cercando di applicare il Ridgemodello scikit-learn al set di dati "Hitters" dal pacchetto R "ISLR". Ho creato lo stesso …
Qui sto chiedendo cosa fanno comunemente gli altri per usare il test chi quadrato per la selezione delle caratteristiche e il risultato nell'apprendimento supervisionato. Se capisco correttamente, testano l'indipendenza tra ogni caratteristica e il risultato e confrontano i valori p tra i test per ciascuna caratteristica? In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Il …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.