Una metrica è una funzione che emette una distanza tra 2 elementi di un set e soddisfa determinati criteri rigorosi (alcune funzioni di "distanza" non sono metriche).
Ho letto che "la distanza euclidea non è una buona distanza in dimensioni elevate". Immagino che questa affermazione abbia qualcosa a che fare con la maledizione della dimensionalità, ma cosa esattamente? Inoltre, che cosa sono le "alte dimensioni"? Ho applicato il clustering gerarchico usando la distanza euclidea con 100 funzioni. …
Mi chiedevo, date due distribuzioni normali con eσ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ 2σ2, μ2\sigma_2, \ \mu_2 come posso calcolare la percentuale di regioni sovrapposte di due distribuzioni? Suppongo che questo problema abbia un nome specifico, sei a conoscenza di qualche nome particolare che descriva questo problema? Sei a conoscenza …
Ho letto alcune definizioni di richiamo e precisione, anche se è sempre nel contesto del recupero delle informazioni. Mi chiedevo se qualcuno potesse spiegarlo un po 'di più in un contesto di classificazione e forse illustrare alcuni esempi. Ad esempio, ho un classificatore binario che mi dà una precisione del …
Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …
Qual è la differenza pratica tra la metrica di Wasserstein e la divergenza di Kullback-Leibler ? La metrica di Wasserstein è anche indicata come distanza del movimento terra . Da Wikipedia: La metrica di Wasserstein (o Vaserstein) è una funzione di distanza definita tra le distribuzioni di probabilità su un …
È possibile controllare il costo dell'errata classificazione nel pacchetto R randomForest ? Nel mio lavoro, i falsi negativi (ad esempio, la mancanza di errori che una persona potrebbe avere una malattia) sono molto più costosi dei falsi positivi. Il pacchetto rpart consente all'utente di controllare i costi di classificazione errata …
Mi chiedevo se qualcuno avesse qualche intuizione o intuizione dietro la differenza tra la Variazione delle Informazioni e l' Indice Rand per il confronto dei cluster. Ho letto l'articolo " Comparing Clusterings - An Information Based Distance " di Marina Melia (Journal of Multivariate Analysis, 2007), ma, oltre a notare …
La divergenza di Kullback-Leibler è una metrica per confrontare due funzioni di densità di probabilità, ma quale metrica viene utilizzata per confrontare due GP di XXX e YYY ?
So che KL Divergence non è simmetrica e non può essere considerata rigorosamente come una metrica. In tal caso, perché viene utilizzato quando JS Divergence soddisfa le proprietà richieste per una metrica? Esistono scenari in cui è possibile utilizzare la divergenza KL ma non JS Divergence o viceversa?
Nello studio della distanza di Kullback-Leibler, ci sono due cose che impariamo molto rapidamente: non rispetta né la disuguaglianza del triangolo né la simmetria, proprietà richieste di una metrica. La mia domanda è se esiste una metrica delle funzioni di densità di probabilità che soddisfano tutti i vincoli di una …
Per il clustering gerarchico vedo spesso le seguenti due "metriche" (non stanno esattamente parlando) per misurare la distanza tra due variabili casuali e : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) & = 1- | \ Cor (X, Y) |, \\ D_2 (X, Y) …
Quali sono le metriche "migliori" per le matrici di covarianza e perché? È chiaro per me che Frobenius ecc. Non sono appropriati, e anche le parametrizzazioni angolari hanno i loro problemi. Intuitivamente si potrebbe desiderare un compromesso tra questi due, ma vorrei anche sapere se ci sono altri aspetti da …
Vorrei codificare un cluster di kmean in Python usando Panda e Scikit Learn. Per selezionare il buon k, vorrei codificare la statistica del gap da Tibshirani e al 2001 ( pdf ). Vorrei sapere se potevo usare il risultato di inerzia di scikit e adattare la formula statistica del gap …
Diciamo che definiamo una distanza, che non è una metrica , tra N elementi. Sulla base di questa distanza utilizziamo quindi un cluster gerarchico agglomerativo . È possibile utilizzare ciascuno degli algoritmi noti (collegamento singolo / massimo / avaerage, ecc.) Per ottenere risultati significativi? O in altre parole, qual è …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.