k-medie è un metodo per partizionare i dati in cluster trovando un numero specificato di medie, k, st quando i dati sono assegnati ai cluster con la media più vicina, la somma dei quadrati con i cluster è ridotta al minimo
Stavo usando le kmeansistruzioni di R per eseguire l'algoritmo k-mean sul set di dati dell'iride di Anderson. Ho una domanda su alcuni parametri che ho ottenuto. I risultati sono: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 In questo caso, cosa significa "Cluster significa"? È la media …
Questo è stato nella mia mente per almeno alcune ore. Stavo cercando di trovare un k ottimale per l'uscita dall'algoritmo k-mean (con una metrica di somiglianza del coseno ), quindi ho finito per tracciare la distorsione in funzione del numero di cluster. Il mio set di dati è una raccolta …
Sono interessato allo stato dell'arte attuale per la selezione dei semi iniziali (centri di cluster) per K-medie. Googling porta a due scelte popolari: selezione casuale di semi iniziali e, usando la tecnica di selezione KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: I vantaggi di una semina attenta Esistono altri …
Il mgcvpacchetto per Rha due funzioni per adattare le interazioni del prodotto tensore: te()e ti(). Comprendo la divisione di base del lavoro tra i due (adattamento di un'interazione non lineare rispetto alla scomposizione di questa interazione in effetti principali e un'interazione). Quello che non capisco è perché te(x1, x2)e ti(x1) …
Ho una grande matrice (650K righe * 62 colonne) di dati binari (solo voci 0-1). La matrice è prevalentemente sparsa: circa l'8% è riempito. Vorrei raggrupparlo in 5 gruppi - diciamo chiamato da 1 a 5. Ho provato il clustering gerarchico e non sono stato in grado di gestire le …
Problema di base Ecco il mio problema di base: sto cercando di raggruppare un set di dati contenente alcune variabili molto distorte con conteggi. Le variabili contengono molti zeri e pertanto non sono molto istruttive per la mia procedura di clustering, che è probabilmente un algoritmo k-mean. Bene, dici, trasforma …
Comprendo la differenza tra k medoid e k significa. Ma puoi darmi un esempio con un piccolo set di dati in cui l'output k medoid è diverso da k significa output.
Sto usando l'analisi semantica latente per rappresentare un corpus di documenti nello spazio dimensionale inferiore. Voglio raggruppare questi documenti in due gruppi usando k-mean. Diversi anni fa, l'ho fatto usando il gensim di Python e scrivendo il mio algoritmo k-mean. Ho determinato i centroidi del cluster usando la distanza euclidea, …
Ho una domanda basilare sul clustering. Dopo aver trovato k cluster con i loro centroidi, come posso fare per interpretare le classi dei punti dati che ho raggruppato (assegnando etichette di classe significative a ciascun cluster). Non sto parlando della convalida dei cluster trovati. Può essere fatto in base a …
Ho un GLMM del modulo: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), ottengo risultati diversi rispetto a quelli che utilizzo Anova(model, type="III")dal pacchetto auto o summary(model). Questi ultimi due danno le stesse risposte. Usando un mucchio di dati fabbricati, …
Non ho esperienza nel settore del data mining o dei big data, quindi mi piacerebbe sentirti condividere qualche esperienza. Le persone eseguono effettivamente k-mean, PAM, CLARA, ecc. Su un set di dati davvero grande? Oppure scelgono a caso un campione da esso? Se prendessero solo un campione del set di …
Ho un set di dati di 50 campioni. Ogni campione è composto da 11 funzioni booleane (possibilmente correlate). Vorrei un po 'come visualizzare questi campioni su un diagramma 2D ed esaminare se ci sono cluster / raggruppamenti tra i 50 campioni. Ho provato i seguenti due approcci: (a) Eseguire PCA …
Quindi, ottenere "un'idea" del numero ottimale di cluster in k-mean è ben documentato. Ho trovato un articolo su come farlo in miscele gaussiane, ma non sono sicuro di esserne convinto, non lo capisco molto bene. C'è un modo ... più delicato di farlo?
Sto prendendo un dato fittizio sulla temperatura rispetto alle vendite di gelati e lo ho classificato usando K Keans (n cluster = 2) per distinguere 2 categorie (totalmente fittizio). Ora sto facendo un'analisi dei componenti principali su questi dati e il mio obiettivo è capire cosa vedo. So che l'obiettivo …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.