Misurazione della dipendenza non lineare


11

La covarianza tra due variabili casuali definisce una misura di quanto siano linearmente correlate tra loro. Ma cosa succede se la distribuzione articolare è circolare? Sicuramente c'è una struttura nella distribuzione. Come viene estratta questa struttura?

Risposte:


8

Per "circolare" capisco che la distribuzione è concentrata su una regione circolare, come in questo diagramma di contorno di un pdf.

Trama di contorno di una distribuzione circolare

Se una tale struttura esiste, anche parzialmente, un modo naturale per identificarla e misurarla è fare una media circolare della distribuzione attorno al suo centro . (Intuitivamente, ciò significa che per ogni possibile raggio dovremmo diffondere la probabilità di essere alla distanza dal centro equamente intorno in tutte le direzioni.) Indicando le variabili come , il centro deve essere situato nel punto di primi momenti . Per fare la media è conveniente definire la funzione di distribuzione radialer ( X , Y ) ( μ X , μ Y )rr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

Questo cattura la probabilità totale di trovarsi tra la distanza e del centro. Per stenderlo in tutte le direzioni, lascia sia una variabile casuale con cdf e essere una variabile casuale uniforme su indipendente . La variabile casuale bivariata è la media circolare di . (Questo fa il lavoro che la nostra intuizione richiede di una "media circolare" perché (a) ha la corretta distribuzione radiale, cioè , per costruzione, e (b) tutte le direzioni dal centro (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) sono ugualmente probabili.)

A questo punto hai molte scelte: non resta che confrontare la distribuzione di con quella di . Le possibilità includono una distanza e la divergenza di Kullback-Leibler (insieme a una miriade di misure relative alla distanza: divergenza simmetrizzata, distanza di Hellinger, informazioni reciproche, ecc .). Il confronto suggerisce che può avere una struttura circolare quando è "vicino" a . In questo caso la struttura può essere "estratta" dalle proprietà di . Ad esempio, una misura della posizione centrale di , come la sua media o mediana, identifica il "raggio" della distribuzione di(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) e la deviazione standard (o altra misura di scala) di esprime come "dispiegamento" si trovi nelle direzioni radiali della loro posizione centrale .F(X,Y)(μX,μY)

Quando si campiona da una distribuzione, con i dati , un ragionevole test di circolarità è di stimare la posizione centrale come al solito (con medie o mediane) e quindi convertire ogni valore in coordinate polari relative al centro stimato. Confronta la deviazione standard (o IQR) dei raggi con la loro media (o mediana). Per le distribuzioni non circolari il rapporto sarà grande; per le distribuzioni circolari dovrebbe essere relativamente piccolo. (Se si ha in mente un modello specifico per la distribuzione sottostante, è possibile elaborare la distribuzione campionaria della statistica radiale e costruire un test di significatività con esso.) Separatamente, testare le coordinate angolari per l'uniformità nell'intervallo(xi,yi),1in(xi,yi)(ri,θi)[0,2π) . Sarà approssimativamente uniforme per le distribuzioni circolari (e anche per alcune altre distribuzioni); la non uniformità indica una deviazione dalla circolarità.


1
Grazie! Sebbene non sia del tutto chiaro, questo mi dà un'idea. Potresti per favore consigliare qualche lettura su come affrontare questo tipo di distribuzioni? Sono stato esposto solo ai gaussiani e alle altre distribuzioni standard. Un'altra domanda, ha qualcosa a che fare con le funzioni di distribuzione radiale degli atomi, ecc.?
Infinito

1
@Infinity Fammi sapere quale parte non è chiara in modo da poter provare a risolverlo. Non so dove siano discusse tali distribuzioni, ma la relativa analisi può essere trovata nella letteratura sulle "distribuzioni circolari". Le idee matematiche sottostanti sono effettivamente in qualche modo tenuemente correlate alla teoria dell'orbitale atomico. I concetti rilevanti includono la separabilità dell'equazione di Schrodinger in coordinate sferiche, la costruzione della misura di Haar di un gruppo di Lie compatto mediante la media e il confronto degli orbitali mediante integrali di sovrapposizione.
whuber

Grazie. Sono molto nuovo con probabilità e statistiche, quindi probabilmente è stato per questo. Non capisco davvero cosa intendi per "media della distribuzione circolare attorno al suo centro", penso che significhi media di tutti i cerchi in modo che un solo cerchio con il centro in e raggio un po 'come una linea di regressione lineare. È corretto? (μX,μY)ρ
Infinito

L'altro dubbio che ho è che la funzione di distribuzione sembra descrivere un disco ma la figura (e quello che avevo in mente) è un anello. La variabile casuale descrive il cerchio medio in forma polare. Mi dispiace, non capisco chiaramente cosa succederà dopo. Capisco che confrontiamo le due distribuzioni usando una certa metrica di distanza, ma perché è lo speciale e come aiuta a non riuscire a ragionare. Mi dispiace se le domande sembrano troppo stupide. F(ρ)(Ξ,H)(Ξ,H)
Infinito

1
@Infinito Ho aggiunto alcune osservazioni chiarificatrici. Non fai la media delle cerchie; piuttosto, fai una media (o "sbavatura") di tutte le probabilità attraverso ogni cerchio in modo che, indipendentemente da ciò che hai iniziato, finisca per sembrare la mia immagine (con contorni circolari). Se la distribuzione originale era veramente circolare, questa media non la modifica. Pertanto, confrontando la distribuzione con la sua versione media si dice quanto sia lontana dall'essere circolare in primo luogo.
whuber

5

Le informazioni reciproche hanno proprietà in qualche modo analoghe alla covarianza. La covarianza è un numero che è 0 per variabili indipendenti e diverso da zero per variabili che sono linearmente dipendenti. In particolare, se due variabili sono uguali, la covarianza è uguale alla varianza (che di solito è un numero positivo). Un problema con la covarianza è che potrebbe essere zero anche se due variabili non sono indipendenti, a condizione che la dipendenza non sia lineare.

Le informazioni reciproche (MI) sono un numero non negativo. È zero se e solo se le due variabili sono statisticamente indipendenti. Questa proprietà è più generale di quella della covarianza e copre tutte le dipendenze, comprese quelle non lineari.

Se le due variabili sono uguali, MI è uguale all'entropia della variabile (di nuovo, di solito un numero positivo). Se le variabili sono diverse e non deterministicamente correlate, allora l'MI è più piccola dell'entropia. In questo senso, l'MI di due variabili va tra 0 e H (l'entropia), con 0 solo se indipendente e H solo se deterministicamente dipendente.

Una differenza dalla covarianza è che il "segno" della dipendenza viene ignorato. Ad esempio , ma .Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
Potresti ampliare il modo in cui questo concetto fornisce una risposta alla domanda?
onestop,

3

Si prega di dare un'occhiata al seguente articolo di scienza - affronta esattamente il tuo punto:

Rilevamento di nuove associazioni in grandi set di dati di David N. Reshef et al.

Dall'abstract:

L'identificazione di relazioni interessanti tra coppie di variabili in insiemi di dati di grandi dimensioni è sempre più importante. Qui, presentiamo una misura di dipendenza per relazioni a due variabili: il coefficiente di informazione massima (MIC). MIC acquisisce una vasta gamma di associazioni sia funzionali che non, e per le relazioni funzionali fornisce un punteggio che equivale approssimativamente al coefficiente di determinazione (R ^ 2) dei dati relativi alla funzione di regressione. La MIC appartiene a una classe più ampia di statistiche di esplorazione non parametrica (MINE) basate sull'informazione massima per identificare e classificare le relazioni. Applichiamo MIC e MINE a set di dati relativi alla salute globale, all'espressione genica, al baseball della lega principale e al microbiota intestinale umano e identifichiamo relazioni note e nuove.

Puoi trovare materiale supplementare qui: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Gli autori forniscono anche uno strumento gratuito che incorpora il nuovo metodo che può essere utilizzato con R e Python: http://www.exploredata.net/

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.