Scikit-learn è un modulo Python composto da uno strumento semplice ed efficiente per l'apprendimento automatico, il data mining e l'analisi dei dati. È basato su NumPy, SciPy e matplotlib. È distribuito sotto la licenza BSD a 3 clausole.
Esistono delle regole empiriche (o regole effettive) relative alla quantità minima, massima e "ragionevole" di celle LSTM che dovrei usare? In particolare mi riferisco a BasicLSTMCell di TensorFlow e num_unitsproprietà. Si prega di supporre che ho un problema di classificazione definito da: t - number of time steps n - …
Ho un set di dati con ~ 1M righe e ~ 500K caratteristiche sparse. Voglio ridurre la dimensionalità da qualche parte nell'ordine delle caratteristiche dense 1K-5K. sklearn.decomposition.PCAnon funziona su dati sparsi e ho provato a usare sklearn.decomposition.TruncatedSVDma ho un errore di memoria abbastanza rapidamente. Quali sono le mie opzioni per …
Capisco cosa fa lo scalare standard e cosa fa il normalizzatore, secondo la documentazione di scikit: normalizzatore , scaler standard . So quando viene applicato lo scaler standard. Ma in quale scenario viene applicato Normalizer? Ci sono scenari in cui uno è preferito rispetto all'altro?
Ho appena adattato una curva logistica ad alcuni dati falsi. Ho reso i dati essenzialmente una funzione di passaggio. data = -------------++++++++++++++ Ma quando guardo la curva adattata, la pendenza è molto piccola. La funzione che minimizza al meglio la funzione di costo, assumendo l'entropia incrociata, è la funzione di …
Sto prototipando un'applicazione e ho bisogno di un modello linguistico per calcolare la perplessità su alcune frasi generate. Esiste un modello di linguaggio addestrato in Python che posso usare facilmente? Qualcosa di semplice come model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
Come parte della mia ricerca, sono interessato a eseguire la propagazione delle etichette su un grafico. Sono particolarmente interessato a questi due metodi: Xiaojin Zhu e Zoubin Ghahramani. Imparare da dati etichettati e senza etichetta con la propagazione delle etichette. Rapporto tecnico CMU-CALD-02-107, Carnegie Mellon University, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, …
Sto convertendo un corpus di documenti di testo in vettori di parole per ogni documento. Ho provato questo usando un TfidfVectorizer e un HashingVectorizer Capisco che a HashingVectorizernon prende in considerazione i IDFpunteggi come TfidfVectorizerfa. Il motivo per cui sto ancora lavorando con a HashingVectorizerè la flessibilità che offre durante …
Nella maggior parte degli stimatori su scikit-learn, c'è un n_jobsparametro in fit/ predictmetodi per creare lavori paralleli usando joblib. Ho notato che impostandolo su -1crea solo 1 processo Python e massimizza i core, facendo sì che l'utilizzo della CPU raggiunga il 2500% in cima. Questo è abbastanza diverso dall'impostarlo su …
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 5 anni fa . Sembra che la maggior parte delle lingue abbia un certo numero …
Attualmente sto lavorando a un modello di regressione logistica per la genomica. Uno dei campi di input che voglio includere come covariata ègenes . Esistono circa 24.000 geni noti. Ci sono molte caratteristiche con questo livello di variabilità nella biologia computazionale e sono necessarie centinaia di migliaia di campioni. Se …
Ho un set di dati che include un insieme di clienti in diverse città della California, l'ora della chiamata per ciascun cliente e lo stato della chiamata (Vero se il cliente risponde alla chiamata e Falso se il cliente non risponde). Devo trovare un momento adeguato per chiamare i futuri …
Ho un set di dati contenente dati su temperatura, precipitazioni e rese di soia per un'azienda agricola per 10 anni (2005-2014). Vorrei prevedere i rendimenti per il 2015 sulla base di questi dati. Si noti che il set di dati ha valori GIORNALIERI per temperatura e precipitazioni, ma solo 1 …
Sto programmando di utilizzare il classificatore SVM (scikit linear support vector machine) per la classificazione del testo su un corpus costituito da 1 milione di documenti etichettati. Quello che sto pianificando di fare è che, quando un utente inserisce una parola chiave, il classificatore prima lo classificherà in una categoria, …
Una panoramica del processo di ottimizzazione dell'iperparametro in scikit-learn è qui . La ricerca esaustiva della griglia troverà il set ottimale di iperparametri per un modello. Il rovescio della medaglia è che la ricerca esaustiva della griglia è lenta. La ricerca casuale è più veloce della ricerca sulla griglia ma …
Stavo analizzando il classificatore creato usando un albero decisionale. C'è un parametro di ottimizzazione chiamato max_depth nell'albero decisionale di scikit. Questo equivalente di potatura è un albero decisionale? In caso contrario, come potrei potare un albero decisionale usando scikit? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.