Ho letto che "la distanza euclidea non è una buona distanza in dimensioni elevate". Immagino che questa affermazione abbia qualcosa a che fare con la maledizione della dimensionalità, ma cosa esattamente? Inoltre, che cosa sono le "alte dimensioni"? Ho applicato il clustering gerarchico usando la distanza euclidea con 100 funzioni. …
Quando si utilizza l'analisi dei cluster su un set di dati per raggruppare casi simili, è necessario scegliere tra un gran numero di metodi di clustering e misure di distanza. A volte, una scelta potrebbe influenzare l'altra, ma ci sono molte possibili combinazioni di metodi. Qualcuno ha qualche consiglio su …
Esiste uno scopo specifico in termini di efficienza o funzionalità perché l'algoritmo k-mean non utilizza ad esempio la cosine (dis) somiglianza come metrica della distanza, ma può usare solo la norma euclidea? In generale, il metodo K-mean sarà conforme e sarà corretto quando verranno prese in considerazione o utilizzate distanze …
Supponiamo che ti vengano dati due oggetti le cui posizioni esatte sono sconosciute, ma sono distribuiti secondo le normali distribuzioni con parametri noti (ad esempio e . Possiamo assumere questi sono entrambi normali bivariate, in modo tale che le posizioni sono descritti da una distribuzione su coordinate (cioè e sono …
Vedo che ci sono molte differenze formali tra le misure di distanza Kullback – Leibler vs Kolmogorov-Smirnov. Tuttavia, entrambi vengono utilizzati per misurare la distanza tra le distribuzioni. Esiste una situazione tipica in cui uno dovrebbe essere usato anziché l'altro? Qual è la logica per farlo?
Nel mio set di dati abbiamo variabili sia continue che naturalmente discrete. Voglio sapere se possiamo fare un cluster gerarchico usando entrambi i tipi di variabili. E se sì, quale misura di distanza è appropriata?
[Il titolo iniziale "Misurazione della somiglianza per gli alberi del cluster gerarchico" è stato successivamente modificato da @ttnphns per riflettere meglio l'argomento] Sto eseguendo una serie di analisi di gruppi gerarchici su un frame di dati dei record dei pazienti (ad esempio simile a http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Sto sperimentando misure di …
Sto cercando una buona terminologia per descrivere ciò che sto cercando di fare, per rendere più semplice la ricerca di risorse. Quindi, supponiamo di avere due gruppi di punti A e B, ciascuno associato a due valori, X e Y, e voglio misurare la "distanza" tra A e B, ovvero …
In un'impostazione in cui si osserva X1,…,XnX1,…,XnX_1,\ldots,X_n distribuito da una distribuzione con densità fff , mi chiedo se esiste uno stimatore imparziale (basato sulla XiXiX_i ) della distanza di Hellinger ad un'altra distribuzione con densità f0f0f_0 , vale a dire H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.
Ho una serie di dati in cui ogni dato è costituito da misure diverse. Per ogni misura, ho un valore di riferimento. Vorrei sapere quanto vicino ogni dato è al valore di riferimento.nnn Ho pensato di usare la distanza euclidea ponderata in questo modo: dx , b= ( ∑ni = …
Sto raggruppando le distribuzioni di probabilità utilizzando l' algoritmo Propination Affinity e intendo utilizzare la divergenza di Jensen-Shannon come metrica della distanza. È corretto utilizzare JSD stesso come distanza o JSD al quadrato? Perché? Quali differenze deriverebbero dalla scelta dell'uno o dell'altro?
Sto usando il clustering gerarchico per analizzare i dati delle serie temporali. Il mio codice è implementato usando la funzione MathematicaDirectAgglomerate[...] , che genera cluster gerarchici dati i seguenti input: una matrice di distanza D il nome del metodo utilizzato per determinare il collegamento tra cluster. Ho calcolato la matrice …
Qualcuno usa le metriche o per il clustering anziché ? Aggarwal et al., Sul comportamento sorprendente delle metriche della distanza nello spazio ad alta dimensione, ha detto (nel 2001) cheL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 è decisamente più preferibile della metrica di distanza euclidea per applicazioni di data mining ad alta dimensioneL2L2L_2 e ha …
Sto solo lavorando con il libro Collective Intelligence (di Toby Segaran) e mi sono imbattuto nel punteggio di distanza euclideo. Nel libro l'autore mostra come calcolare la somiglianza tra due array di raccomandazioni (cioè .persona × film ↦ punteggio )person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) Calcola la distanza euclidea di due …
Nota: questa domanda è una risposta, poiché la mia domanda precedente doveva essere cancellata per motivi legali. Confrontando PROC MIXED da SAS con la funzione lmedel nlmepacchetto in R, mi sono imbattuto in alcune differenze piuttosto confuse. Più specificamente, i gradi di libertà nei diversi test differiscono tra PROC MIXEDe …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.