Statistiche e Big Data classification

3

Perché gli ingenui classificatori bayesiani si comportano così bene?

I classificatori Naive Bayes sono una scelta popolare per i problemi di classificazione. Ci sono molte ragioni per questo, tra cui: "Zeitgeist" - consapevolezza diffusa dopo il successo dei filtri antispam di circa dieci anni fa Facile da scrivere Il modello di classificatore è veloce da costruire Il modello può …

38 classification naive-bayes

2

ImageNet: qual è il tasso di errore top-1 e top-5?

Nei documenti di classificazione di ImageNet i tassi di errore top-1 e top-5 sono unità importanti per misurare il successo di alcune soluzioni, ma quali sono questi tassi di errore? Nella classificazione ImageNet con reti neurali profonde convoluzionali di Krizhevsky et al. ogni soluzione basata su una sola CNN (pagina …

38 classification neural-networks error measurement-error image-processing

3

Applica le incorporazioni di parole all'intero documento per ottenere un vettore di funzione

Come si usa l'incorporamento di parole per mappare un documento su un vettore di caratteristiche, adatto per l'uso con l'apprendimento supervisionato? Una parola che incorpora mappa ogni parola su un vettore , dove è un numero non troppo grande (ad esempio, 500). Gli incorporamenti di parole popolari includono word2vec e …

38 classification natural-language supervised-learning word2vec word-embeddings

6

Migliora la classificazione con molte variabili categoriali

Sto lavorando a un set di dati con oltre 200.000 campioni e circa 50 funzioni per campione: 10 variabili continue e le altre ~ 40 sono variabili categoriali (paesi, lingue, campi scientifici ecc.). Per queste variabili categoriche, hai ad esempio 150 paesi diversi, 50 lingue, 50 campi scientifici ecc ... …

37 machine-learning classification categorical-data random-forest many-categories

3

SVM, Overfitting, maledizione della dimensionalità

Il mio set di dati è piccolo (120 campioni), tuttavia il numero di funzionalità è grande varia da (1000-200.000). Anche se sto facendo la selezione delle funzionalità per scegliere un sottoinsieme di funzionalità, potrebbe comunque essere troppo adatto. La mia prima domanda è: in che modo SVM gestisce l'overfitting, se …

37 classification svm

2

Regressione logistica vs. LDA come classificatori a due classi

Sto cercando di avvolgere la mia testa attorno alla differenza statistica tra analisi discriminante lineare e regressione logistica . Ho capito bene che, per un problema di classificazione di due classi , LDA prevede due funzioni di densità normale (una per ogni classe) che crea un confine lineare in cui …

36 regression logistic classification discriminant-analysis

3

PCA e divisione treno / prova

Ho un set di dati per il quale ho più set di etichette binarie. Per ogni set di etichette, alleno un classificatore, valutandolo per convalida incrociata. Voglio ridurre la dimensionalità utilizzando l'analisi dei componenti principali (PCA). La mia domanda è: È possibile eseguire il PCA una volta per l'intero set …

35 machine-learning classification pca cross-validation

3

Come interpretare la matrice OOB e confusione per la foresta casuale?

Ho ricevuto uno script R da qualcuno per eseguire un modello di foresta casuale. L'ho modificato ed eseguito con alcuni dati dei dipendenti. Stiamo cercando di prevedere separazioni volontarie. Ecco alcune informazioni aggiuntive: questo è un modello di classificazione dove 0 = dipendente è rimasto, 1 = dipendente è terminato, …

35 r classification error random-forest

5

Set di dati gratuito per classificazione dimensionale molto elevata [chiuso]

Quali sono i set di dati disponibili gratuitamente per la classificazione con più di 1000 funzioni (o punti campione se contiene curve)? Esiste già una wiki della comunità sui set di dati gratuiti: individuazione di campioni di dati disponibili gratuitamente Ma qui, sarebbe bello avere un elenco più mirato che …

35 machine-learning classification dataset large-data

3

Perché t-SNE non viene utilizzato come tecnica di riduzione della dimensionalità per il clustering o la classificazione?

In un recente incarico, ci è stato detto di utilizzare PCA sulle cifre MNIST per ridurre le dimensioni da 64 (8 x 8 immagini) a 2. Abbiamo quindi dovuto raggruppare le cifre utilizzando un modello di miscela gaussiana. La PCA che utilizza solo 2 componenti principali non produce cluster distinti …

34 classification clustering pca dimensionality-reduction tsne

3

Come interpretare la riduzione media della precisione e la riduzione media GINI nei modelli a foresta casuale

Ho delle difficoltà a capire come interpretare l'output di importanza variabile dal pacchetto Random Forest. La riduzione media dell'accuratezza è generalmente descritta come "la riduzione dell'accuratezza del modello dal permutare i valori in ciascuna caratteristica". È un'affermazione sulla funzionalità nel suo insieme o su valori specifici all'interno della funzione? In …

34 r machine-learning classification random-forest

3

Perché c'è una differenza tra il calcolo manuale di un intervallo di confidenza della regressione logistica del 95% e l'uso della funzione confint () in R?

Carissimi, ho notato qualcosa di strano che non posso spiegare, vero? In sintesi: l'approccio manuale al calcolo di un intervallo di confidenza in un modello di regressione logistica e la funzione R confint()danno risultati diversi. Ho attraversato la regressione logistica applicata di Hosmer & Lemeshow (2a edizione). Nel terzo capitolo …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

3

Cosa si intende per "studente debole"?

Qualcuno può dirmi cosa si intende con la frase "studente debole"? Dovrebbe essere un'ipotesi debole? Sono confuso sulla relazione tra uno studente debole e un classificatore debole. Sono entrambi uguali o c'è qualche differenza? Nell'algoritmo AdaBoost, T=10. Cosa si intende con questo? Perché selezioniamo T=10?

34 classification svm terminology adaboost pac-learning

4

Implementazione di CRF in python

Esiste un'implementazione popolare di Conditional Random Fields in Python ? Non riesco a trovare nessuno che sia ampiamente usato e popolare!

32 machine-learning classification python conditional-random-field

6

Classificazione statistica del testo

Sono un programmatore senza background statistico e attualmente sto esaminando diversi metodi di classificazione per un gran numero di documenti diversi che voglio classificare in categorie predefinite. Ho letto di kNN, SVM e NN. Tuttavia, ho qualche problema ad iniziare. Quali risorse mi consigliate? Conosco abbastanza bene il calcolo a …

32 classification information-retrieval text-mining

Domande taggate «classification»