Esiste una caratterizzazione intuitiva della correlazione a distanza?


14

Sto fissando la pagina di Wikipedia per la correlazione della distanza in cui sembra essere caratterizzato da come può essere calcolato. Mentre potrei fare i calcoli, faccio fatica a capire quali misure di correlazione della distanza e perché i calcoli sembrano come loro.

Esiste una (o molte) caratterizzazioni più intuitive della correlazione a distanza che potrebbero aiutarmi a capire cosa misura?

Mi rendo conto che chiedere l' intuizione è un po 'vago, ma se sapessi che tipo di intuizione stavo chiedendo probabilmente non avrei chiesto in primo luogo. Sarei anche felice dell'intuizione riguardo al caso della correlazione della distanza tra due variabili casuali (anche se la correlazione della distanza è definita tra due vettori casuali).

Risposte:


8

Questa mia risposta non risponde correttamente alla domanda. Si prega di leggere i commenti.

Confrontiamo la solita covarianza e la covarianza a distanza . La parte efficace di entrambi sono i loro numeratori. (I denominatori stanno semplicemente facendo la media.) Il numeratore della covarianza è il prodotto incrociato sommato (= prodotto scalare) delle deviazioni da un punto, la media: (con μ superscritto) come quel centroide). Per riscrivere l'espressione in questo stile: Σ d x i μ d y i μ , con dΣ(xiμx)(yiμy)μΣdiμxdiμydrappresenta la deviazione del punto dal centroide, ovvero la sua distanza (firmata) dal centroide. La covarianza è definita dalla somma dei prodotti delle due distanze su tutti i punti.i

Come vanno le cose con la covarianza a distanza ? Il numeratore è, come sai, . Non è molto simile a quello che abbiamo scritto sopra? E qual è la differenza? Qui, la distanza d è tra vari punti di dati , non tra un punto di dati e la media come sopra. La covarianza della distanza è definita dalla somma dei prodotti delle due distanze su tutte le coppie di punti.Σdijxdijyd

Prodotto scalare (tra due entità - nel nostro caso, le variabili ed y ) sulla base di co-distanza da un punto fisso è massimo quando i dati sono disposte lungo una linea retta . Il prodotto scalare basato sulla co-distanza da un punto var * i * è massimizzato quando i dati sono disposti localmente lungo una retta in modo saggio; in altre parole, quando i dati complessivi rappresentano una catena di qualsiasi forma , la dipendenza di qualsiasi forma.xy

E in effetti, la solita covarianza è maggiore quando la relazione è più vicina per essere lineare perfetta e le varianze sono maggiori. Se si standardizzano le varianze in un'unità fissa, la covarianza dipende solo dalla forza dell'associazione lineare e viene quindi chiamata correlazione di Pearson . E, come sappiamo - e abbiamo appena intuito il perché - la covarianza a distanza è maggiore quando la relazione è più vicina alla curva perfetta e la diffusione dei dati è maggiore. Se standardizzi gli spread su un'unità fissa, la covarianza dipende solo dalla forza di qualche associazione curvilinea, e viene quindi chiamata correlazione browniana (distanza) .


Il secondo paragrafo ha fatto clic per me. Non so perché non l'ho visto nella pagina di Wikipedia ... Grazie!
Rasmus Bååth

Mi chiedo, dove in en.wikipedia.org/wiki/Brownian_covariance#Distance_covariance è il numeratore del tuo esempio (o come passare dal tuo numeratore alla versione di Wikipedia)? Wikipedia descrive semplicemente come calcolare il quadrato della covarianza a distanza e sto avendo un po 'di problemi nel confrontare la tua descrizione con la descrizione lì ...
Rasmus Bååth

d

Sì, il doppio centraggio mi ha sconcertato. Sarebbe molto apprezzato se tu avessi il tempo di chiarirlo! :)
Rasmus Bååth

1
α=1
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.