Individuazione di strutture nascoste (statistiche) in dati senza etichetta, incluso il clustering e l'estrazione delle funzionalità per la riduzione della dimensionalità.
La "supervisione a distanza" è uno schema di apprendimento in cui viene appreso un classificatore in base a un set di formazione debolmente etichettato (i dati di training vengono etichettati automaticamente in base a euristiche / regole). Penso che sia l'apprendimento supervisionato sia l'apprendimento semi-supervisionato possano includere tale "supervisione a …
Esiste un modo per determinare il numero di cluster ottimale o devo semplicemente provare valori diversi e controllare i tassi di errore per decidere il valore migliore?
Qualcuno può spiegare i pro ei contro del Clustering Gerarchico? Il Clustering Gerarchico presenta gli stessi inconvenienti di K? Quali sono i vantaggi del clustering gerarchico su K? Quando dovremmo usare K significa su Clustering gerarchico e viceversa? Le risposte a questo post spiegano molto bene gli svantaggi di k. …
Sto sperimentando l'algoritmo della macchina per aumentare il gradiente tramite il caretpacchetto in R. Utilizzando un piccolo set di dati di ammissione al college, ho eseguito il seguente codice: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …
Questo termine appare frequentemente nei thread relativi al metodo . La fusione è un metodo specifico nel data mining e nell'apprendimento statistico? Non riesco a ottenere un risultato pertinente da Google. Sembra che la fusione stia mescolando i risultati di molti modelli e producendo un risultato migliore. C'è qualche risorsa …
Mentre approfondiamo la letteratura sulle reti neurali , possiamo identificare altri metodi con topologie neuromorfe (architetture simili a "reti neurali"). E non sto parlando del teorema di approssimazione universale . Di seguito sono riportati degli esempi. Quindi, mi chiedo: qual è la definizione di una rete neurale artificiale? La sua …
Data una matrice Vm×nVm×n\mathbf V^{m \times n} , la fattorizzazione a matrice non negativa (NMF) trova due matrici non negative Wm×kWm×k\mathbf W^{m \times k} e Hk×nHk×n\mathbf H^{k \times n} (cioè con tutti gli elementi ≥0≥0\ge 0 ) per rappresentare la matrice decomposta come: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf …
So che questa domanda non è ben definita, ma alcuni cluster tendono ad essere ellittici o si trovano nello spazio dimensionale inferiore mentre altri hanno forme non lineari (in esempi 2D o 3D). C'è qualche misura di non linearità (o "forma") dei cluster? Si noti che nello spazio 2D e …
Nel problema specifico con cui lavoro (una competizione) ho l'impostazione seguente: 21 caratteristiche (numeriche su [0,1]) e un'uscita binaria. Ho circa 100 K righe. L'ambientazione sembra essere molto rumorosa. Io e altri partecipanti applichiamo la generazione di funzionalità per un po 'e l'incorporamento stocastico distribuito a t distribuito si è …
Se ho un determinato set di dati, quanto sarebbe intelligente inizializzare i centri di cluster usando i campioni casuali di quel set di dati? Ad esempio, supponiamo che io voglia 5 clusters. Prendo 5 random samplesdi dire, size=20%del dataset originale. Potrei quindi prendere la media di ciascuno di questi 5 …
Da quello che ho letto: Supervisione a distanza : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data …
Attualmente, sto cercando di analizzare un set di dati di documenti di testo che non ha fondamento. Mi è stato detto che puoi usare la validazione incrociata di k-fold per confrontare diversi metodi di clustering. Tuttavia, gli esempi che ho visto in passato usano una verità fondamentale. Esiste un modo …
Nel corso di Machine Learning di Stanford, Andrew Ng ha menzionato l'applicazione dell'ML in IT. Qualche tempo dopo, quando ho ottenuto DDoS di dimensioni moderate (circa 20k bot) sul nostro sito, ho deciso di lottare contro di esso usando un semplice classificatore di reti neurali. Ho scritto questo script Python …
Mi chiedo solo se qualcuno ha familiarità con il clustering di input nominali. Ho considerato SOM come una soluzione, ma a quanto pare funziona solo con funzioni numeriche. Esistono estensioni per le caratteristiche categoriche? In particolare, mi chiedevo "Giorni della settimana" come possibili funzionalità. Naturalmente è possibile convertirlo in una …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.