Scienza dei dati

1

Che cos'è un punteggio LB nell'apprendimento automatico?

Stavo leggendo un articolo sui blog di Kaggle. Ripetutamente, l'autore menziona "punteggio LB" e "adattamento LB" come metrica per l'efficacia dell'apprendimento automatico (insieme al punteggio di convalida incrociata (CV)). Con una ricerca sul significato di "LB" ho trascorso un bel po 'di tempo, mi sono reso conto che generalmente le …

16 machine-learning accuracy

3

Qual è il peso e la propensione all'apprendimento profondo?

Sto iniziando a imparare l'apprendimento automatico dal sito Web di Tensorflow. Ho sviluppato una comprensione molto rudimentale del flusso seguito da un programma di apprendimento profondo (questo metodo mi fa imparare velocemente invece di leggere libri e grandi articoli). Ci sono alcune cose confuse che mi sono imbattuto, 2 di …

16 machine-learning deep-learning tensorflow

5

Overfitting della rete neurale convoluzionale. Abbandono non aiuta

Sto giocando un po 'con le convnet. In particolare, sto usando il set di dati Kaggle Gatti contro cani che consiste in 25000 immagini etichettate come gatto o cane (12500 ciascuna). Sono riuscito a raggiungere un'accuratezza della classificazione dell'85% circa sul mio set di test, tuttavia ho fissato un obiettivo …

16 neural-network deep-learning convnet image-recognition dropout

2

PNL - Gazetteer è un imbroglione?

Nella PNL esiste il concetto Gazetteerche può essere molto utile per la creazione di annotazioni. Per quanto ho capito: Un dizionario geografico è costituito da una serie di elenchi contenenti nomi di entità come città, organizzazioni, giorni della settimana, ecc. Questi elenchi vengono utilizzati per trovare occorrenze di questi nomi …

16 nlp named-entity-recognition

3

Come autoapprendimento della scienza dei dati? [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 anni fa . Sono uno sviluppatore web autodidatta e sono interessato a insegnare a …

16 beginner self-study

2

Quali tipi di problemi di apprendimento sono adatti per Support Vector Machines?

Quali sono i tratti distintivi o le proprietà che indicano che un certo problema di apprendimento può essere affrontato utilizzando macchine vettoriali di supporto? In altre parole, cos'è che, quando vedi un problema di apprendimento, ti fa andare "oh dovrei assolutamente usare SVM per questo" 'piuttosto che reti neurali o …

16 machine-learning svm supervised-learning unsupervised-learning

6

Podcast di Data Science?

Quali sono alcuni podcast relativi alla scienza dei dati? Questa è una domanda simile alla domanda di riferimento su CrossValidated . Dettagli / regole: I podcast (il tema e gli episodi) dovrebbero essere correlati alla scienza dei dati. (Ad esempio: un podcast che riguarda un altro dominio, con un episodio …

16 reference-request

2

Estrai la maggior parte delle parti informative del testo dai documenti

Ci sono articoli o discussioni sull'estrazione di parte del testo che contiene la maggior parte delle informazioni sul documento corrente. Ad esempio, ho un ampio corpus di documenti dello stesso dominio. Ci sono parti di testo che contengono le informazioni chiave di cui parla un singolo documento. Voglio estrarre alcune …

16 nlp text-mining

2

Raccomandare film con funzionalità aggiuntive utilizzando il filtro collaborativo

Sto cercando di creare un sistema di raccomandazioni utilizzando il filtro collaborativo. Ho le solite [user, movie, rating]informazioni. Vorrei incorporare una funzionalità aggiuntiva come "lingua" o "durata del film". Non sono sicuro di quali tecniche potrei usare per un tale problema. Si prega di suggerire riferimenti o pacchetti in python …

16 python r recommender-system

4

Libreria Python per regressione segmentata (aka regressione a tratti)

Sto cercando una libreria Python in grado di eseguire la regressione segmentata (ovvero regressione a tratti) . Esempio :

16 python linear-regression library software-recommendation

3

Usi del database NoSQL nella scienza dei dati

Come si possono utilizzare database NoSQL come MongoDB per l'analisi dei dati? Quali sono le funzionalità che possono rendere l'analisi dei dati più veloce e potente?

16 bigdata nosql mongodb

2

Come scegliere le funzionalità per una rete neurale?

So che non esiste una risposta chiara a questa domanda, ma supponiamo che io abbia una grande rete neurale, con molti dati e che voglio aggiungere una nuova funzionalità in input. Il modo "migliore" sarebbe testare la rete con la nuova funzionalità e vedere i risultati, ma esiste un metodo …

16 machine-learning neural-network feature-selection feature-extraction

2

Come aumentare la precisione dei classificatori?

Sto usando l'esempio di OpenCV letter_recog.cpp per sperimentare su alberi casuali e altri classificatori. Questo esempio ha implementazioni di sei classificatori: alberi casuali, boosting, MLP, kNN, ingenui Bayes e SVM. Viene utilizzato il set di dati di riconoscimento lettere UCI con 20000 istanze e 16 funzionalità, che ho diviso a …

16 machine-learning classification svm accuracy random-forest

5

Scegli l'algoritmo di classificazione binaria

Ho un problema di classificazione binaria: Circa 1000 campioni in set di allenamento 10 attributi, inclusi binari, numerici e categorici Quale algoritmo è la scelta migliore per questo tipo di problema? Per impostazione predefinita, inizierò con SVM (preliminare con valori di attributi nominali convertiti in funzioni binarie), poiché è considerato …

16 classification binary svm random-forest logistic-regression

3

Classificazione discriminatoria di una classe con background negativo squilibrato, eterogeneo?

Sto lavorando per migliorare un classificatore supervisionato esistente, per classificare le sequenze di {proteine} come appartenenti a una classe specifica (precursori dell'ormone neuropeptide) o no. Esistono circa 1.150 "positivi" noti, su uno sfondo di circa 13 milioni di sequenze di proteine ("Sfondo sconosciuto / scarsamente annotato"), o circa 100.000 proteine …

16 machine-learning data-mining python classification