Come testare che due variabili continue sono indipendenti?


48

Supponiamo di avere un campione dalla distribuzione congiunta di X e Y . Come testare l'ipotesi che X e Y siano indipendenti ?(Xn,Yn),n=1..NXYXY

Non viene fatta alcuna ipotesi sulle leggi di distribuzione congiunte o marginali di e Y (almeno di tutta la normalità congiunta, poiché in tal caso l'indipendenza è identica alla correlazione essendo 0 ).XY0

Non si ipotizza la natura di una possibile relazione tra e Y ; può essere non lineare, quindi le variabili sono non correlate ( r = 0 ) ma altamente co-dipendenti ( I = H ).XYr=0I=H

Vedo due approcci:

  1. Raccogli entrambe le variabili e usa il test esatto o il test G di Fisher .

    • Pro: utilizzare test statistici consolidati
    • Contro: dipende dal binning
  2. Stimare la dipendenza di e Y : I ( X ; Y )XYI(X;Y)H(X,Y) (questo èperXeYindipendentie1quando si determinano completamente a vicenda).0XY1

    • Pro: produce un numero con un chiaro significato teorico
    • Contro: dipende dal calcolo approssimativo dell'entropia (cioè, binning di nuovo)

Questi approcci hanno senso?

Quali altri metodi usano le persone?




2
I(X;Y)/H(X;Y)HXY

@fonini: ovviamente stavo parlando di variabili binnate. Grazie per il tuo commento però.
sd l'

Risposte:


27

Questo è un problema molto difficile in generale, anche se apparentemente le tue variabili sono solo 1d, il che aiuta. Naturalmente, il primo passo (quando possibile) dovrebbe essere quello di tracciare i dati e vedere se qualcosa ti viene fuori; sei in 2d quindi dovrebbe essere facile.

Rn


Puoi menzionare brevemente come questi approcci si confrontano con la correlazione a distanza ? Sto usando DC per setacciare set di dati di grandi dimensioni (bene, grande per me), quindi sono interessato a tutti i commenti che potresti avere. Grazie!
pteetor,

1
@pteetor È interessante, non avevo mai incontrato la correlazione a distanza prima. Computazionalmente, sembra più costoso dell'approccio di stima entropica per campioni di grandi dimensioni perché sono necessarie le matrici a distanza completa (dove per gli stimatori entropici è possibile utilizzare gli indici per ottenere solo i primi kvicini). Non ho idea di come si paragona in termini di potere statistico / ecc.
Dougal,

4
Per i lettori successivi: il saggio del 2013 Equivalenza delle statistiche basate sulla distanza e basate su RKHS nei test di ipotesi di Sejdinovic et al. mostra che la correlazione della distanza e altre distanze energetiche sono casi particolari di MMD, la misura sottostante alla base di HSIC, e discute la relazione in termini di potenza di prova e così via.
Dougal,

19

H0:H(x,y)=F(x)G(y)Hmischoeffd


6

Che ne dici di questo documento:

http://arxiv.org/pdf/0803.4101.pdf

"Misurazione e verifica della dipendenza mediante correlazione delle distanze". Székely e Bakirov hanno sempre cose interessanti.

Esiste un codice matlab per l'implementazione:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Se trovi qualche altro test (semplice da implementare) per l'indipendenza, faccelo sapere.


2
Benvenuto nel sito, @JLp. Speriamo di creare un archivio permanente di informazioni statistiche di alta qualità sotto forma di domande e risposte. Come tale, una cosa di cui ci preoccupiamo è LinkRot. Con questo in mente, ti dispiacerebbe dare un riassunto di ciò che è in quel documento / come risponde alle domande, nel caso in cui il link dovesse andare a male. Aiuterà anche i futuri lettori di questo thread a decidere se vogliono investire il tempo di leggere il documento.
gung - Ripristina Monica

@gung: questo è lo stesso di energy
sds

5

Il collegamento tra Covarianza a distanza e test del kernel (basato sul criterio di indipendenza di Hilbert-Schmidt) è riportato nel documento:

Sejdinovic, D., Sriperumbudur, B., Gretton, A. e Fukumizu, K., Equivalenza di statistiche basate sulla distanza e basate su RKHS nei test di ipotesi, Annals of Statistics, 41 (5), pp.2263-2702, 2013

È dimostrato che la covarianza a distanza è un caso speciale della statistica del kernel, per una particolare famiglia di kernel.

Se si intende utilizzare le informazioni reciproche, un test basato su una stima dettagliata dell'MI è:

Gretton, A. e Gyorfi, L., Test di indipendenza non parametrici coerenti, Journal of Machine Learning Research, 11, pp.1391-1423, 2010.

Se sei interessato ad ottenere la migliore potenza di prova, stai meglio usando i test del kernel, piuttosto che binning e informazioni reciproche.

Detto questo, dato che le tue variabili sono univariate, i test di indipendenza non parametrici classici come quelli di Hoeffding stanno probabilmente bene.


4

Raramente (mai?) Nelle statistiche puoi dimostrare che la tua statistica campione = un valore in punti. È possibile verificare i valori dei punti e escluderli o non escluderli. Ma la natura delle statistiche è che si tratta di esaminare dati variabili. Poiché c'è sempre una varianza, non ci sarà necessariamente modo di sapere che qualcosa non è esattamente correlato, normale, gaussiano, ecc. Puoi solo conoscere un intervallo di valori per esso. È possibile sapere se un valore è escluso dall'intervallo di valori plausibili. Ad esempio, è facile escludere nessuna relazione e fornire un intervallo di valori per quanto è grande la relazione.

Pertanto, cercando di non dimostrare alcuna relazione, essenzialmente il valore punto di relationship = 0non avrà successo. Se hai una serie di misure di relazione che sono accettabili come circa 0. Quindi sarebbe possibile escogitare un test.

Supponendo che tu possa accettare questa limitazione, sarebbe utile per le persone che cercano di aiutarti a fornire un diagramma a dispersione con una curva di basso livello. Dato che stai cercando soluzioni R, prova:

scatter.smooth(x, y)

Sulla base delle informazioni limitate fornite finora, penso che un modello di additivo generalizzato possa essere la cosa migliore per testare la non indipendenza. Se lo pianifichi con elementi della configurazione attorno ai valori previsti, potresti essere in grado di fare dichiarazioni su una convinzione di indipendenza. gamDai un'occhiata nel pacchetto mgcv. L'aiuto è abbastanza buono e qui c'è assistenza riguardo all'IC .


2

Potrebbe essere interessante ...

Garcia, JE; Gonzalez-Lopez, VA (2014) Test di indipendenza per variabili casuali continue basate sulla sottosequenza crescente più lunga. Journal of Multivariate Analysis, v. 127 p. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335


2
Questo post trarrebbe beneficio da maggiori dettagli su ciò che è nell'articolo, soprattutto perché è dietro un paywall.
Erik,


-1

Se usi R, la cor.testfunzione nel pacchetto stats (impostazione predefinita in R) può farlo:

Test per associazione / correlazione tra campioni accoppiati. Test per l'associazione tra campioni accoppiati, utilizzando uno dei coefficienti di correlazione del momento del prodotto di Pearson, la tau di Kendall o la rho di Spearman.

cor.test(x, y,method="spearman")

1
Ciò manca delle relazioni non lineari che sono esplicitamente l'argomento della domanda.
SSD
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.