Domande taggate «scikit-learn»

Una libreria di apprendimento automatico per Python. Usa questo tag per qualsiasi domanda sull'argomento che (a) coinvolga scikit-learn come parte critica della domanda o risposta prevista, e (b) non riguarda solo come usare scikit-learn.


2
Utilizzo della convalida incrociata nidificata
La pagina di Scikit Learn sulla selezione del modello menziona l'uso della validazione incrociata nidificata: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Due cicli di validazione incrociata vengono eseguiti in parallelo: uno dallo stimatore GridSearchCV per impostare la gamma e l'altro da cross_val_score per misurare le …

2
La soglia di decisione è un iperparametro nella regressione logistica?
Le classi previste dalla regressione logistica (binaria) sono determinate usando una soglia sulle probabilità di appartenenza alla classe generate dal modello. A quanto ho capito, in genere 0,5 viene utilizzato per impostazione predefinita. Ma variando la soglia cambieranno le classificazioni previste. Questo significa che la soglia è un iperparametro? In …



5
Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
Interpretazione dell'output di Scikit predict_proba
Sto lavorando con la libreria scikit-learn in Python. Nel codice seguente, sto predicendo la probabilità ma non so come leggere l'output. Test dei dati from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Dividi il set di dati X_train, X_test, y_train, y_test = …

2
È possibile valutare GLM in Python / scikit-learn usando le distribuzioni Poisson, Gamma o Tweedie come famiglia per la distribuzione degli errori?
Sto cercando di imparare alcuni Python e Sklearn, ma per il mio lavoro ho bisogno di eseguire regressioni che utilizzano distribuzioni di errori dalle famiglie Poisson, Gamma e soprattutto Tweedie. Non vedo nulla nella documentazione su di loro, ma si trovano in diverse parti della distribuzione R, quindi mi chiedevo …



1
Perché una vasta scelta di K riduce il mio punteggio di convalida incrociata?
Giocando con il Boston Housing Dataset e RandomForestRegressor(con parametri di default) in scikit-learn, ho notato qualcosa di strano: il punteggio medio di validazione incrociata è diminuito quando ho aumentato il numero di pieghe oltre 10. La mia strategia di validazione incrociata era la seguente: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = …



1
Per quale tipo di selezione delle funzioni è possibile utilizzare il test Chi square?
Qui sto chiedendo cosa fanno comunemente gli altri per usare il test chi quadrato per la selezione delle caratteristiche e il risultato nell'apprendimento supervisionato. Se capisco correttamente, testano l'indipendenza tra ogni caratteristica e il risultato e confrontano i valori p tra i test per ciascuna caratteristica? In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Il …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.