Quando la covarianza a distanza è meno appropriata della covarianza lineare?


21

Sono appena stato introdotto (vagamente) alla brownian / distanza covarianza / correlazione . Sembra particolarmente utile in molte situazioni non lineari, quando si verifica la dipendenza. Ma non sembra essere usato molto spesso, anche se la covarianza / correlazione sono spesso usate per dati non lineari / caotici.

Questo mi fa pensare che potrebbero esserci degli svantaggi nella covarianza a distanza. Quindi cosa sono e perché non tutti usano sempre la covarianza a distanza?



Ho letto che stavi usando dcov per confrontare le serie temporali non lineari e combinarle con il peso ... Mi chiedevo se quello che hai fatto è stato usare una covarianza a distanza ponderata ... significa che hai dato pesi diversi ai tuoi dati usando un vettore di peso per calcolare la correlazione della distanza? Sto cercando di farlo, ma non sono sicuro che l'introduzione di un vettore di peso nelle formule di correlazione della distanza sia la strada giusta da percorrere.
user3757561

No, scusa @ user3757561, stavo solo provando la correlazione a distanza in sostituzione della correlazione e quindi creando pesi basati su quello. Ma non ho finito per usarlo comunque ...
nought101

Risposte:


18

Ho cercato di raccogliere alcune osservazioni sulla covarianza a distanza in base alle mie impressioni dalla lettura dei riferimenti elencati di seguito. Tuttavia, non mi considero un esperto su questo argomento. Commenti, correzioni, suggerimenti, ecc. Sono i benvenuti.

Le osservazioni sono (fortemente) distorte verso potenziali inconvenienti, come richiesto nella domanda iniziale .

A mio avviso, i potenziali svantaggi sono i seguenti:

  1. La metodologia è nuova . La mia ipotesi è che questo sia il singolo fattore più grande per quanto riguarda la mancanza di popolarità in questo momento. I documenti che descrivono la covarianza a distanza iniziano a metà degli anni 2000 e proseguono fino ai giorni nostri. Il documento sopra citato è quello che ha ricevuto più attenzione (clamore?) Ed ha meno di tre anni. Al contrario, la teoria e i risultati sulla correlazione e le misure simili alla correlazione hanno già alle spalle oltre un secolo di lavoro.
  2. I concetti di base sono più impegnativi . La correlazione del momento-prodotto di Pearson, a livello operativo, può essere spiegata alla matricola del college senza uno sfondo di calcolo abbastanza prontamente. È possibile definire un semplice punto di vista "algoritmico" e l'intuizione geometrica è facile da descrivere. Al contrario, nel caso della covarianza a distanza, anche la nozione di somme di prodotti di distanze euclidee a coppie è un po 'più difficile e la nozione di covarianza rispetto a un processo stocastico va ben oltre ciò che potrebbe ragionevolmente essere spiegato a tale pubblico .
  3. È computazionalmente più esigente . L'algoritmo di base per calcolare la statistica test è nella dimensione del campione rispetto a per le metriche di correlazione standard. Per campioni di piccole dimensioni questo non è un grosso problema, ma per quelli più grandi diventa più importante.O ( n )O(n2)O(n)
  4. La statistica del test non è esente da distribuzione, nemmeno asintoticamente . Si potrebbe sperare che per una statistica test che sia coerente con tutte le alternative, che la distribuzione - almeno asintoticamente - possa essere indipendente dalle distribuzioni sottostanti di e sotto l'ipotesi nulla. Questo non è il caso della covarianza a distanza poiché la distribuzione sotto il nullo dipende dalla distribuzione sottostante di e anche se la dimensione del campione tende all'infinito. Si è vero che le distribuzioni sono uniformemente delimitate da un distribuzione, che consente il calcolo di un conservatore valore critico.Y X Y χ 2 1XYXYχ12
  5. |ρ|
  6. Proprietà di potenza sconosciute . Essere coerenti con tutte le alternative garantisce essenzialmente che la covarianza a distanza debba avere un potere molto basso rispetto ad alcune alternative. In molti casi, si è disposti a rinunciare alla generalità per ottenere ulteriore potere contro particolari alternative di interesse. Gli articoli originali mostrano alcuni esempi in cui rivendicano un alto potere rispetto alle metriche di correlazione standard, ma credo che, tornando al punto (1.) sopra, il suo comportamento rispetto alle alternative non sia ancora ben compreso.

Per ribadire, questa risposta probabilmente appare piuttosto negativa. Ma questo non è l'intento. Ci sono alcune idee molto belle e interessanti legate alla covarianza a distanza e la relativa novità apre anche percorsi di ricerca per comprenderlo più pienamente.

Riferimenti :

  1. GJ Szekely e ML Rizzo (2009), covarianza a distanza browniana , Ann. Appl. Statist. , vol. 3, n. 4, 1236-1265.
  2. GJ Szekely, ML Rizzo e NK Bakirov (2007), Misurare e testare l'indipendenza mediante correlazione delle distanze , Ann. Statist. , vol. 35, 2769–2794.
  3. R. Lyons (2012), Covarianza a distanza negli spazi metrici , Ann. Probab. (apparire).

Ottima risposta, grazie. In parte è un po 'sopra la mia testa, ma penso che sarò in grado di rimediare a me stesso :)
naught101

1
Vedi anche Sintesi e discussione di: “Brownian Distance Covariance” Statistics Journal Club, 36-825 Benjamin Cowley e Giuseppe Vinci 27 ottobre 2014 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
Felipe G. Nievinski

2
O(nlogn)

3

Potrei anche mancare qualcosa, ma il solo fatto di avere una quantificazione della dipendenza non lineare tra due variabili non sembra avere un grande vantaggio. Non ti dirà la forma della relazione. Non ti darà alcun mezzo per prevedere una variabile dall'altra. Per analogia, quando si esegue l'analisi dei dati esplorativi a volte si utilizza una curva di loess (diagramma di dispersione ponderato localmente più liscio) come primo passo per vedere se i dati sono modellati al meglio con una linea retta, un quadratico, un cubo, ecc. Ma il loess in e di per sé non è uno strumento predittivo molto utile. È solo una prima approssimazione sulla strada per trovare un'equazione praticabile per descrivere una forma bivariata. Tale equazione, a differenza del loess (o del risultato della covarianza a distanza), può costituire la base di un modello di conferma.


Per i miei scopi, ha un profitto. Non sto usando dcov () per prevedere qualcosa, piuttosto, confrontando più serie temporali non lineari in un insieme e combinandole con pesi basati sulla loro dipendenza. In questa situazione, dcov () ha potenzialmente grandi vantaggi.
nulla101

@ naught101 Puoi inserire alcune informazioni sul minerale.- Quando dici "combina"? Mi sembra interessante in termini di ponderazione basata sulla dipendenza non lineare. Intendi classificare le serie temporali in gruppi? Inoltre, cosa sottolineano i pesi alti e bassi in questo scenario?
ascoltate il

2
@PraneethVepakomma: controlla la mia risposta su stats.stackexchange.com/questions/562/…
nought101

1
Inoltre, se conosci la forma generale di dipendenza (ad esempio, equazione polinomiale), puoi quantificare la forza della dipendenza usando il coefficiente di determinazione, vedi, ad esempio, Computing Adjusted R2 per regressioni polinomiali
Felipe G. Nievinski
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.