k-medie è un metodo per partizionare i dati in cluster trovando un numero specificato di medie, k, st quando i dati sono assegnati ai cluster con la media più vicina, la somma dei quadrati con i cluster è ridotta al minimo
Vorrei capire qual è la principale differenza di implementazione tra algoritmi di clustering k-medie standard e sferici. In ogni passaggio, k-mean calcola le distanze tra i vettori degli elementi e i centroidi del cluster e riassegna il documento a questo cluster, il cui centroide è il più vicino. Quindi, tutti …
Devo usare variabili binarie (valori 0 e 1) in k-medie. Ma k-mean funziona solo con variabili continue. So che alcune persone usano ancora queste variabili binarie in k-means ignorando il fatto che k-mean è progettato solo per variabili continue. Questo è inaccettabile per me. Domande: Quindi qual è il modo …
Ho alcuni punti in R p , e voglio raggruppare i punti in modo che:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Ciascun cluster contiene un numero uguale di elementi di . (Supponiamo che il numero di cluster divida .)XXXnnn Ogni cluster è "spazialmente coeso" in un certo senso, come i cluster di medie.kkk È facile pensare …
Ho una tabella di database di trasferimenti di dati tra nodi diversi. Questo è un enorme database (con quasi 40 milioni di trasferimenti). Uno degli attributi è il numero di trasferimenti di byte (nbyte) che vanno da 0 byte a 2 tera byte. Vorrei raggruppare gli nbyte in modo tale …
Voglio eseguire il clustering dei mezzi K sugli oggetti che ho, ma gli oggetti non sono descritti come punti nello spazio, cioè per objects x featuresset di dati. Tuttavia, sono in grado di calcolare la distanza tra due oggetti qualsiasi (si basa su una funzione di somiglianza). Quindi, dispongo della …
Sto leggendo Bishop sull'algoritmo EM per GMM e la relazione tra GMM e k-mean. In questo libro si dice che k-mean è una versione difficile di GMM. Mi chiedo questo implica che se i dati che sto cercando di raggruppare non sono gaussiani, non posso usare k-mean (o almeno non …
Ho una matrice di correlazione che indica come ogni articolo è correlato all'altro articolo. Quindi per un N articoli, ho già una matrice di correlazione N * N. Usando questa matrice di correlazione come posso raggruppare gli oggetti N nei bin M in modo da poter dire che gli oggetti …
Per un incarico mi è stato chiesto di fornire una prova che k-mean converge in un numero finito di passaggi. Questo è quello che ho scritto: CCCE( C) = ∑Xmini = 1K∥ x - cio∥2E(C)=ΣXminio=1K‖X-cio‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E( C)E(C)E(C) Il passaggio 2 si riferisce al passaggio che etichetta ciascun punto dati …
Qualcuno può spiegare i pro ei contro del Clustering Gerarchico? Il Clustering Gerarchico presenta gli stessi inconvenienti di K? Quali sono i vantaggi del clustering gerarchico su K? Quando dovremmo usare K significa su Clustering gerarchico e viceversa? Le risposte a questo post spiegano molto bene gli svantaggi di k. …
Esiste un modo per determinare quali caratteristiche / variabili del set di dati sono le più importanti / dominanti all'interno di una soluzione cluster k-mean?
Sto usando K-means per raggruppare i miei dati e stavo cercando un modo per suggerire un numero di cluster "ottimale". Le statistiche sui gap sembrano essere un modo comune per trovare un buon numero di cluster. Per qualche motivo restituisce 1 come numero di cluster ottimale, ma quando guardo i …
Ho un set di dati con 16 variabili e dopo aver raggruppato per kmean, desidero tracciare i due gruppi. Quali trame suggerisci di rappresentare visivamente i due cluster?
Ho letto che l'algoritmo k-mean converge solo in un minimo locale e non in un minimo globale. Perchè è questo? Posso logicamente pensare a come l'inizializzazione possa influenzare il clustering finale e c'è una possibilità di clustering non ottimale, ma non ho trovato nulla che lo dimostrasse matematicamente. Inoltre, perché …
Sto sperimentando l'algoritmo della macchina per aumentare il gradiente tramite il caretpacchetto in R. Utilizzando un piccolo set di dati di ammissione al college, ho eseguito il seguente codice: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …
I luoghi che ho letto sulla maledizione della dimensionalità lo spiegano congiuntamente a kNN e ai modelli lineari in generale. Vedo regolarmente i migliori ranghi di Kaggle usando migliaia di funzionalità nel set di dati che difficilmente ha 100.000 punti dati. Usano principalmente alberi potenziati e NN, tra gli altri. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.