Sto studiando il riconoscimento dei modelli e le statistiche e quasi ogni libro che apro sull'argomento mi imbatto nel concetto di distanza di Mahalanobis . I libri forniscono una sorta di spiegazioni intuitive, ma ancora non abbastanza buone per me per capire davvero cosa sta succedendo. Se qualcuno mi chiedesse …
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
Ho imparato l'intuizione alla base della divergenza di KL in quanto una funzione di distribuzione del modello differisce dalla distribuzione teorica / reale dei dati. La fonte sto leggendo continua a dire che la comprensione intuitiva della 'distanza' tra queste due distribuzioni è utile, ma non dovrebbe essere preso alla …
Sto eseguendo il clustering gerarchico sui dati raccolti ed elaborati dal dump dei dati reddit su Google BigQuery. Il mio processo è il seguente: Ricevi gli ultimi 1000 post in / r / politica Raccogli tutti i commenti Elaborare i dati e calcolare una n x mmatrice di dati (n: …
Nell'algoritmo della foresta casuale, Breiman (autore) costruisce una matrice di somiglianza come segue: Invia tutti gli esempi di apprendimento giù per ogni albero nella foresta Se due esempi arrivano alla stessa foglia incrementano l'elemento corrispondente nella matrice di somiglianza di 1 Normalizza la matrice con il numero di alberi Lui …
Esiste una formula in forma chiusa per (o una sorta di limite) dell'EMD tra x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1) e x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2) ?
Il test di Mantel viene generalmente applicato a matrici simmetriche di distanza / differenza. Per quanto ho capito, un'ipotesi del test è che la misura utilizzata per definire le differenze deve essere almeno una semi-metrica (soddisfare i requisiti standard di una metrica ma non la disuguaglianza del triangolo). L'assunzione della …
Vorrei raggruppare gerarchicamente i miei dati, ma piuttosto che usare la distanza euclidea, vorrei usare la correlazione. Inoltre, poiché il coefficiente di correlazione varia da -1 a 1, con -1 e 1 che indicano "coregolamentazione" nel mio studio, sto trattando sia -1 che 1 come d = 0. Quindi il …
Voglio eseguire il clustering dei mezzi K sugli oggetti che ho, ma gli oggetti non sono descritti come punti nello spazio, cioè per objects x featuresset di dati. Tuttavia, sono in grado di calcolare la distanza tra due oggetti qualsiasi (si basa su una funzione di somiglianza). Quindi, dispongo della …
Ho due funzioni di densità di probabilità delle distribuzioni normali: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } e f2( x2|μ2, σ2) = 1σ22 π--√e- ( x - μ2)22 σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Sto cercando la …
La maggior parte degli algoritmi classici di riduzione del clustering e della dimensionalità (clustering gerarchico, analisi dei componenti principali, k-media, mappe autoorganizzanti ...) sono progettati specificamente per i dati numerici e i loro dati di input sono visti come punti in uno spazio euclideo. Questo è ovviamente un problema, dato …
Per favore, prova che se abbiamo due variabili (uguale dimensione del campione) e e la varianza in è maggiore rispetto a , allora anche la somma delle differenze al quadrato (cioè, distanze euclidee quadrate) tra i punti di dati all'interno di è maggiore di che entro .Y X Y X …
Devo calcolare la distanza di Mahalanobis del campione in R tra ogni coppia di osservazioni in una matrice di covariate. Ho bisogno di una soluzione efficiente, ovvero vengono calcolate solo distanze, e preferibilmente implementate in C / RCpp / Fortran ecc. Suppongo che , la matrice di covarianza della popolazione, …
Sto usando KL Divergence come misura di dissomiglianza tra 2 p.m.f.p.m.f.p.m.f. PPP e QQQ . =-∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Se allora possiamo facilmente calcolare che P ( X i ) l n ( Q ( X i ) ) = 0 …
Ho due set di dati (dati di origine e di destinazione) che seguono la diversa distribuzione. Sto usando MMD, ovvero una distribuzione di distanza non parametrica, per calcolare la distribuzione marginale tra i dati di origine e quelli di destinazione. dati di origine, Xs dati target, Xt adattamento Matrix A …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.