k-medie è un metodo per partizionare i dati in cluster trovando un numero specificato di medie, k, st quando i dati sono assegnati ai cluster con la media più vicina, la somma dei quadrati con i cluster è ridotta al minimo
K-medie è un metodo ampiamente utilizzato nell'analisi dei cluster. Secondo la mia comprensione, questo metodo NON richiede NESSUNA ipotesi, ovvero forniscimi un set di dati e un numero predefinito di cluster, k, e applico solo questo algoritmo che minimizza la somma degli errori al quadrato (SSE), all'interno del cluster al …
So che k-mean non è supervisionato e viene utilizzato per il clustering ecc. E che k-NN è supervisionato. Ma volevo sapere differenze concrete tra i due?
Come faresti a sapere se i tuoi dati (ad alta dimensione) mostrano un clustering sufficiente in modo che i risultati provenienti da kmean o altri algoritmi di clustering siano effettivamente significativi? Per l'algoritmo k-mean in particolare, quanto dovrebbe essere significativa una riduzione della varianza all'interno del cluster affinché i risultati …
Ho un'applicazione in cui sarebbe utile raggruppare un set di dati rumorosi prima di cercare effetti di sottogruppo all'interno dei cluster. Ho esaminato PCA per la prima volta, ma sono necessari circa 30 componenti per arrivare al 90% della variabilità, quindi il clustering su un paio di PC genererà molte …
Sto usando R per fare il clustering di K-significa. Sto usando 14 variabili per eseguire K-medie Qual è un modo carino per tracciare i risultati di K-mean? Ci sono implementazioni esistenti? Avere 14 variabili complica la rappresentazione dei risultati? Ho trovato qualcosa chiamato GGcluster che sembra bello ma è ancora …
Esiste uno scopo specifico in termini di efficienza o funzionalità perché l'algoritmo k-mean non utilizza ad esempio la cosine (dis) somiglianza come metrica della distanza, ma può usare solo la norma euclidea? In generale, il metodo K-mean sarà conforme e sarà corretto quando verranno prese in considerazione o utilizzate distanze …
È pratica comune applicare PCA (analisi dei componenti principali) prima di un algoritmo di clustering (come k-medie). Si ritiene che in pratica migliori i risultati del clustering (riduzione del rumore). Tuttavia, sono interessato a uno studio comparativo e approfondito della relazione tra PCA e k-medie. Ad esempio, Chris Ding e …
Troviamo i centri del cluster e assegniamo punti a k diversi bin del cluster nel clustering k-mean che è un algoritmo molto noto e si trova quasi in ogni pacchetto di machine learning in rete. Ma la parte mancante e più importante secondo me è la scelta di un k …
Ho studiato algoritmi per il clustering dei dati (apprendimento non supervisionato): EM e k-medie. Continuo a leggere quanto segue: k-mean è una variante di EM, con le ipotesi che i cluster siano sferici. Qualcuno può spiegare la frase sopra? Non capisco cosa significhino sferica, e come siano correlati kmean ed …
Ho trovato questo tutorial , che suggerisce che è necessario eseguire la funzione di ridimensionamento sulle funzionalità prima del clustering (credo che converta i dati in z-score). Mi chiedo se sia necessario. Lo sto chiedendo principalmente perché c'è un bel punto a gomito quando non ridimensiono i dati, ma scompare …
Ho un set di dati X che ha 10 dimensioni, 4 delle quali sono valori discreti. In effetti, quelle 4 variabili discrete sono ordinali, ovvero un valore più alto implica un semantico più alto / migliore. 2 di queste variabili discrete sono categoriche nel senso che per ciascuna di queste …
Contesto : desidero classificare le aree residenziali di una città in gruppi in base alle loro caratteristiche socio-economiche, tra cui densità dell'unità abitativa, densità della popolazione, area verde, prezzo delle abitazioni, numero di scuole / centri sanitari / centri diurni, ecc. Voglio capire in quanti gruppi diversi possono essere suddivise …
Ho a portata di mano il seguente problema: ho un lungo elenco di parole, possibilmente nomi, cognomi, ecc. Devo raggruppare questo elenco di parole, in modo che parole simili, ad esempio parole con una simile modifica (Levenshtein) compaiano nella stesso cluster. Ad esempio "algoritmo" e "alogritmo" dovrebbero avere alte probabilità …
Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.