Statistiche e Big Data distance

3

Come misurare la "distanza" statistica tra due distribuzioni di frequenza?

Sto intraprendendo un progetto di analisi dei dati che prevede lo studio dei tempi di utilizzo del sito Web nel corso dell'anno. Quello che vorrei fare è confrontare quanto "coerenti" sono i modelli di utilizzo, diciamo, quanto sono vicini a un modello che comporta l'utilizzo per 1 ora una volta …

14 distributions distance frequency comparison

3

Qual è il valore massimo della divergenza di Kullback-Leibler (KL)

Userò la divergenza di KL nel mio codice Python e ho questo tutorial . In quel tutorial, implementare la divergenza di KL è abbastanza semplice. kl = (model * np.log(model/actual)).sum() A quanto ho capito, la distribuzione di probabilità di modele actualdovrebbe essere <= 1. La mia domanda è: qual è …

14 machine-learning distance kullback-leibler

1

Esiste una caratterizzazione intuitiva della correlazione a distanza?

Sto fissando la pagina di Wikipedia per la correlazione della distanza in cui sembra essere caratterizzato da come può essere calcolato. Mentre potrei fare i calcoli, faccio fatica a capire quali misure di correlazione della distanza e perché i calcoli sembrano come loro. Esiste una (o molte) caratterizzazioni più intuitive …

14 correlation distance intuition distance-covariance

5

Come posso convertire la distanza (euclidea) in punteggio di somiglianza

Sto usando kkk significa raggruppare per raggruppare le voci dei relatori. Quando confronto un'enunciazione con i dati degli altoparlanti raggruppati ottengo una distorsione media (basata sulla distanza euclidea). Questa distanza può essere nell'intervallo di [0,∞][0,∞][0,\infty] . Voglio convertire questa distanza in un punteggio di somiglianza [0,1][0,1][0,1] . Per favore guidami …

13 clustering k-means distance euclidean

4

Esiste una distanza di probabilità che preserva tutte le proprietà di una metrica?

Nello studio della distanza di Kullback-Leibler, ci sono due cose che impariamo molto rapidamente: non rispetta né la disuguaglianza del triangolo né la simmetria, proprietà richieste di una metrica. La mia domanda è se esiste una metrica delle funzioni di densità di probabilità che soddisfano tutti i vincoli di una …

13 distributions distance metric

4

La disuguaglianza del triangolo è rispettata per queste distanze basate sulla correlazione?

Per il clustering gerarchico vedo spesso le seguenti due "metriche" (non stanno esattamente parlando) per misurare la distanza tra due variabili casuali e : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) & = 1- | \ Cor (X, Y) |, \\ D_2 (X, Y) …

13 correlation clustering distance metric

2

In che modo la distanza di Gower calcola la differenza tra variabili binarie?

Ho 17 variabili numeriche e 5 binarie (0-1), con 73 campioni nel mio set di dati. Devo eseguire un'analisi del cluster. So che la distanza di Gower è una buona metrica per set di dati con variabili miste. Tuttavia, non riuscivo a capire come la distanza di Gower calcola la …

13 clustering distance mixed-type-data

1

Significato statistico della differenza tra le distanze

Ho oltre 3000 vettori su una griglia bidimensionale, con una distribuzione discreta approssimativamente uniforme. Alcune coppie di vettori soddisfano una certa condizione. Nota: la condizione è applicabile solo alle coppie di vettori, non ai singoli vettori. Ho un elenco di circa 1500 coppie del genere, chiamiamolo gruppo 1. Il gruppo …

12 statistical-significance t-test sample-size spatial distance

2

Qual è la distanza tra una miscela gaussiana finita e una gaussiana?

Supponiamo che io abbia una miscela di molti gaussiani finiti con pesi, mezzi e deviazioni standard noti. I mezzi non sono uguali. La deviazione media e standard della miscela può essere calcolata, ovviamente, poiché i momenti sono medie ponderate dei momenti dei componenti. La miscela non è una distribuzione normale, …

12 normal-distribution mixture distance

4

Qual è lo scopo della normalizzazione delle righe

Comprendo il ragionamento alla base della normalizzazione delle colonne, in quanto fa sì che le caratteristiche siano ponderate allo stesso modo, anche se non sono misurate sulla stessa scala - tuttavia, spesso nella letteratura del vicino più vicino, sia le colonne che le righe sono normalizzate. Qual è la normalizzazione …

12 normalization distance similarities k-nearest-neighbour

1

Qual è la funzione di distanza ottimale per gli individui quando gli attributi sono nominali?

Non so quale funzione di distanza tra individui utilizzare in caso di attributi nominali (non ordinati categorici). Stavo leggendo alcuni libri di testo e suggeriscono la funzione Abbinamento semplice , ma alcuni libri suggeriscono che dovrei cambiare gli attributi nominali in binari e usare Jaccard Coefficient. Tuttavia, cosa succede se …

12 distance-functions distance similarities association-measure categorical-data

2

Il teorema di Mercer funziona al contrario?

Un collega ha una funzione e per i nostri scopi è un black-box. La funzione misura la somiglianza di due oggetti.ssss(a,b)s(a,b)s(a,b) Sappiamo per certo che ha queste proprietà:sss I punteggi di somiglianza sono numeri reali compresi tra 0 e 1, inclusi. Solo gli oggetti identici a se stessi hanno punteggi …

11 kernel-trick distance similarities rbf-kernel

2

Quali sono le distanze tra le variabili che formano una matrice di covarianza?

Ho una matrice di covarianza e desidero dividere le variabili in cluster utilizzando un cluster gerarchico (ad esempio, per ordinare una matrice di covarianza).kn×nn×nn \times nkkk Esiste una tipica funzione di distanza tra le variabili (ovvero tra colonne / file della matrice quadrata di covarianza)? O se ce ne sono …

11 clustering covariance distance-functions distance

3

Quale distanza usare? ad esempio, manhattan, euclideo, Bray-Curtis, ecc

Non sono un ecologo della comunità, ma in questi giorni sto lavorando su dati di ecologia della comunità. Ciò che non riuscivo a capire, a parte la matematica di queste distanze, sono i criteri per ciascuna distanza da utilizzare e in quali situazioni può essere applicata. Ad esempio, cosa utilizzare …

11 distance euclidean

4

Warping dinamico per serie temporali irregolari

Ultimamente ho letto molto su Dynamic Time Warping (DTW). Sono molto sorpreso che non ci sia alcuna letteratura sull'applicazione del DTW a serie temporali irregolari, o almeno non sono riuscito a trovarlo. Qualcuno potrebbe darmi un riferimento a qualcosa legato a quel problema, o forse anche una sua attuazione?

10 time-series correlation distance unevenly-spaced-time-series

Domande taggate «distance»