Statistiche e Big Data unsupervised-learning

1

Supervisione a distanza: supervisionato, semi-supervisionato o entrambi?

La "supervisione a distanza" è uno schema di apprendimento in cui viene appreso un classificatore in base a un set di formazione debolmente etichettato (i dati di training vengono etichettati automaticamente in base a euristiche / regole). Penso che sia l'apprendimento supervisionato sia l'apprendimento semi-supervisionato possano includere tale "supervisione a …

20 machine-learning data-mining dataset references unsupervised-learning

1

Come definire il numero di cluster nel clustering K-significa?

Esiste un modo per determinare il numero di cluster ottimale o devo semplicemente provare valori diversi e controllare i tassi di errore per decidere il valore migliore?

19 clustering unsupervised-learning

4

Come comprendere gli svantaggi del clustering gerarchico?

Qualcuno può spiegare i pro ei contro del Clustering Gerarchico? Il Clustering Gerarchico presenta gli stessi inconvenienti di K? Quali sono i vantaggi del clustering gerarchico su K? Quando dovremmo usare K significa su Clustering gerarchico e viceversa? Le risposte a questo post spiegano molto bene gli svantaggi di k. …

19 clustering k-means unsupervised-learning hierarchical-clustering

4

L'accuratezza della macchina con incremento gradiente diminuisce all'aumentare del numero di iterazioni

Sto sperimentando l'algoritmo della macchina per aumentare il gradiente tramite il caretpacchetto in R. Utilizzando un piccolo set di dati di ammissione al college, ho eseguito il seguente codice: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Esiste una "regressione senza supervisione"?

Se ho ragione, la "classificazione senza supervisione" è la stessa del clustering. Quindi c'è "regressione senza supervisione"? Grazie!

15 regression unsupervised-learning

3

Che cos'è la fusione di dati?

Questo termine appare frequentemente nei thread relativi al metodo . La fusione è un metodo specifico nel data mining e nell'apprendimento statistico? Non riesco a ottenere un risultato pertinente da Google. Sembra che la fusione stia mescolando i risultati di molti modelli e producendo un risultato migliore. C'è qualche risorsa …

15 machine-learning data-mining unsupervised-learning statistical-learning

4

Cos'è * una * rete neurale artificiale?

Mentre approfondiamo la letteratura sulle reti neurali , possiamo identificare altri metodi con topologie neuromorfe (architetture simili a "reti neurali"). E non sto parlando del teorema di approssimazione universale . Di seguito sono riportati degli esempi. Quindi, mi chiedo: qual è la definizione di una rete neurale artificiale? La sua …

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

3

Come scegliere un numero ottimale di fattori latenti nella fattorizzazione a matrice non negativa?

Data una matrice Vm×nVm×n\mathbf V^{m \times n} , la fattorizzazione a matrice non negativa (NMF) trova due matrici non negative Wm×kWm×k\mathbf W^{m \times k} e Hk×nHk×n\mathbf H^{k \times n} (cioè con tutti gli elementi ≥0≥0\ge 0 ) per rappresentare la matrice decomposta come: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf …

15 cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

4

Come misurare la forma del cluster?

So che questa domanda non è ben definita, ma alcuni cluster tendono ad essere ellittici o si trovano nello spazio dimensionale inferiore mentre altri hanno forme non lineari (in esempi 2D o 3D). C'è qualche misura di non linearità (o "forma") dei cluster? Si noti che nello spazio 2D e …

14 unsupervised-learning clustering

3

Scelta degli iperparametri usando T-SNE per la classificazione

Nel problema specifico con cui lavoro (una competizione) ho l'impostazione seguente: 21 caratteristiche (numeriche su [0,1]) e un'uscita binaria. Ho circa 100 K righe. L'ambientazione sembra essere molto rumorosa. Io e altri partecipanti applichiamo la generazione di funzionalità per un po 'e l'incorporamento stocastico distribuito a t distribuito si è …

13 machine-learning dimensionality-reduction unsupervised-learning tsne

4

Inizializzazione di centri K-media mediante sottocampioni casuali del set di dati?

Se ho un determinato set di dati, quanto sarebbe intelligente inizializzare i centri di cluster usando i campioni casuali di quel set di dati? Ad esempio, supponiamo che io voglia 5 clusters. Prendo 5 random samplesdi dire, size=20%del dataset originale. Potrei quindi prendere la media di ciascuno di questi 5 …

13 clustering k-means unsupervised-learning

1

C'è qualche differenza tra supervisione distante, auto-allenamento, apprendimento auto-supervisionato e supervisione debole?

Da quello che ho letto: Supervisione a distanza : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data …

12 machine-learning terminology unsupervised-learning semi-supervised

4

Riesci a confrontare diversi metodi di clustering su un set di dati senza verità di base mediante validazione incrociata?

Attualmente, sto cercando di analizzare un set di dati di documenti di testo che non ha fondamento. Mi è stato detto che puoi usare la validazione incrociata di k-fold per confrontare diversi metodi di clustering. Tuttavia, gli esempi che ho visto in passato usano una verità fondamentale. Esiste un modo …

12 machine-learning clustering cross-validation unsupervised-learning

2

Applicazione dell'apprendimento automatico per il filtro DDoS

Nel corso di Machine Learning di Stanford, Andrew Ng ha menzionato l'applicazione dell'ML in IT. Qualche tempo dopo, quando ho ottenuto DDoS di dimensioni moderate (circa 20k bot) sul nostro sito, ho deciso di lottare contro di esso usando un semplice classificatore di reti neurali. Ho scritto questo script Python …

12 classification neural-networks unsupervised-learning

5

Cluster SOM per variabili nominali / circolari

Mi chiedo solo se qualcuno ha familiarità con il clustering di input nominali. Ho considerato SOM come una soluzione, ma a quanto pare funziona solo con funzioni numeriche. Esistono estensioni per le caratteristiche categoriche? In particolare, mi chiedevo "Giorni della settimana" come possibili funzionalità. Naturalmente è possibile convertirlo in una …

11 clustering unsupervised-learning self-organizing-maps

Domande taggate «unsupervised-learning»