Scikit-learn è un modulo Python composto da uno strumento semplice ed efficiente per l'apprendimento automatico, il data mining e l'analisi dei dati. È basato su NumPy, SciPy e matplotlib. È distribuito sotto la licenza BSD a 3 clausole.
Di recente ho iniziato a imparare a lavorare con sklearne ho appena riscontrato questo risultato peculiare. Ho usato il digitsset di dati disponibile sklearnper provare diversi modelli e metodi di stima. Quando ho testato un modello di Support Vector Machine sui dati, ho scoperto che ci sono due diverse classi …
Sono alle prime armi con l'apprendimento automatico e le macchine fotografiche e ora sto lavorando a un problema di classificazione delle immagini multi-classe usando le macchine fotografiche. L'input è immagine taggata. Dopo alcune preelaborazioni, i dati di allenamento sono rappresentati nell'elenco Python come: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] "cane", "gatto" …
Vorrei ridurre la dimensionalità su quasi 1 milione di vettori ciascuno con 200 dimensioni ( doc2vec). Sto usando l' TSNEimplementazione dal sklearn.manifoldmodulo per questo e il problema principale è la complessità temporale. Anche con method = barnes_hut, la velocità di calcolo è ancora bassa. Qualche volta anche la memoria si …
Ho un problema nel raggruppare una grande quantità di frasi in gruppi in base al loro significato. Questo è simile a un problema quando hai molte frasi e vuoi raggrupparle in base al loro significato. Quali algoritmi sono suggeriti per fare questo? Non conosco il numero di cluster in anticipo …
Ho caratteristiche sparse che sono predittive, inoltre ho alcune caratteristiche dense che sono anche predittive. Devo combinare queste funzionalità insieme per migliorare le prestazioni complessive del classificatore. Ora, il problema è che quando provo a combinarli insieme, le funzioni dense tendono a dominare di più rispetto alle funzioni sparse, offrendo …
Sto creando un flusso di lavoro per la creazione di modelli di machine learning (nel mio caso, usando Python pandase sklearnpacchetti) da dati estratti da un database molto grande (qui, Vertica tramite SQL e pyodbc), e un passaggio fondamentale in questo processo prevede l'imputazione mancante valori dei predittori. Questo è …
Ho riscontrato un problema di classificazione e ho letto il codice e le esercitazioni di molte persone. Una cosa che ho notato è che molte persone prendono np.logo logdi variabili continue come loan_amounto applicant_incomeecc. Voglio solo capire il motivo dietro. Aiuta a migliorare la precisione della previsione del nostro modello. …
Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …
L'implementazione casuale della foresta in scikit-learn utilizza l'accuratezza media come metodo di calcolo del punteggio per stimare l'errore di generalizzazione con campioni out-of-bag? Questo non è menzionato nella documentazione, ma il metodo score () riporta l'accuratezza media. Ho un set di dati altamente sbilanciato e sto usando AUC di ROC …
Sto cercando di risolvere il seguente problema: ho un set di frasi come set di dati e voglio essere in grado di digitare una nuova frase e trovare la frase che la nuova è la più simile a quella nel set di dati. Un esempio potrebbe apparire come: Nuova frase: …
Sto cercando di eseguire xgboost in scikit learn. E io uso solo Panda per caricare i dati in dataframe. Come dovrei usare Panda Panda con xgboost. Sono confuso dalla routine DMatrix richiesta per eseguire xgboost algo.
Stavo cercando di usare le importazioni delle funzionalità dalle foreste casuali per eseguire alcune selezioni empiriche di funzionalità per un problema di regressione in cui tutte le funzionalità sono categoriche e molte hanno molti livelli (dell'ordine di 100-1000). Dato che la codifica one-hot crea una variabile fittizia per ogni livello, …
Ho un frame di dati Panda con tonnellate di colonne categoriche, che sto pianificando di utilizzare nell'albero decisionale con scikit-learn. Devo convertirli in valori numerici (non un vettore caldo). Posso farlo con LabelEncoder di scikit-learn. Il problema è che ce ne sono troppi e non voglio convertirli manualmente. Quale sarebbe …
Ho tracciato l'importanza delle funzionalità in foreste casuali con scikit-learn . Al fine di migliorare la previsione utilizzando foreste casuali, come posso utilizzare le informazioni sulla trama per rimuovere le funzionalità? Vale a dire come individuare se una funzione è inutile o, se non peggio, diminuisce le prestazioni delle foreste …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.