Risposte:
Per "circolare" capisco che la distribuzione è concentrata su una regione circolare, come in questo diagramma di contorno di un pdf.

Se una tale struttura esiste, anche parzialmente, un modo naturale per identificarla e misurarla è fare una media circolare della distribuzione attorno al suo centro . (Intuitivamente, ciò significa che per ogni possibile raggio dovremmo diffondere la probabilità di essere alla distanza dal centro equamente intorno in tutte le direzioni.) Indicando le variabili come , il centro deve essere situato nel punto di primi momenti . Per fare la media è conveniente definire la funzione di distribuzione radialer ( X , Y ) ( μ X , μ Y )
Questo cattura la probabilità totale di trovarsi tra la distanza e del centro. Per stenderlo in tutte le direzioni, lascia sia una variabile casuale con cdf e essere una variabile casuale uniforme su indipendente . La variabile casuale bivariata è la media circolare di . (Questo fa il lavoro che la nostra intuizione richiede di una "media circolare" perché (a) ha la corretta distribuzione radiale, cioè , per costruzione, e (b) tutte le direzioni dal centro () sono ugualmente probabili.)
A questo punto hai molte scelte: non resta che confrontare la distribuzione di con quella di . Le possibilità includono una distanza e la divergenza di Kullback-Leibler (insieme a una miriade di misure relative alla distanza: divergenza simmetrizzata, distanza di Hellinger, informazioni reciproche, ecc .). Il confronto suggerisce che può avere una struttura circolare quando è "vicino" a . In questo caso la struttura può essere "estratta" dalle proprietà di . Ad esempio, una misura della posizione centrale di , come la sua media o mediana, identifica il "raggio" della distribuzione di e la deviazione standard (o altra misura di scala) di esprime come "dispiegamento" si trovi nelle direzioni radiali della loro posizione centrale .
Quando si campiona da una distribuzione, con i dati , un ragionevole test di circolarità è di stimare la posizione centrale come al solito (con medie o mediane) e quindi convertire ogni valore in coordinate polari relative al centro stimato. Confronta la deviazione standard (o IQR) dei raggi con la loro media (o mediana). Per le distribuzioni non circolari il rapporto sarà grande; per le distribuzioni circolari dovrebbe essere relativamente piccolo. (Se si ha in mente un modello specifico per la distribuzione sottostante, è possibile elaborare la distribuzione campionaria della statistica radiale e costruire un test di significatività con esso.) Separatamente, testare le coordinate angolari per l'uniformità nell'intervallo . Sarà approssimativamente uniforme per le distribuzioni circolari (e anche per alcune altre distribuzioni); la non uniformità indica una deviazione dalla circolarità.
Le informazioni reciproche hanno proprietà in qualche modo analoghe alla covarianza. La covarianza è un numero che è 0 per variabili indipendenti e diverso da zero per variabili che sono linearmente dipendenti. In particolare, se due variabili sono uguali, la covarianza è uguale alla varianza (che di solito è un numero positivo). Un problema con la covarianza è che potrebbe essere zero anche se due variabili non sono indipendenti, a condizione che la dipendenza non sia lineare.
Le informazioni reciproche (MI) sono un numero non negativo. È zero se e solo se le due variabili sono statisticamente indipendenti. Questa proprietà è più generale di quella della covarianza e copre tutte le dipendenze, comprese quelle non lineari.
Se le due variabili sono uguali, MI è uguale all'entropia della variabile (di nuovo, di solito un numero positivo). Se le variabili sono diverse e non deterministicamente correlate, allora l'MI è più piccola dell'entropia. In questo senso, l'MI di due variabili va tra 0 e H (l'entropia), con 0 solo se indipendente e H solo se deterministicamente dipendente.
Una differenza dalla covarianza è che il "segno" della dipendenza viene ignorato. Ad esempio , ma .
Si prega di dare un'occhiata al seguente articolo di scienza - affronta esattamente il tuo punto:
Rilevamento di nuove associazioni in grandi set di dati di David N. Reshef et al.
Dall'abstract:
L'identificazione di relazioni interessanti tra coppie di variabili in insiemi di dati di grandi dimensioni è sempre più importante. Qui, presentiamo una misura di dipendenza per relazioni a due variabili: il coefficiente di informazione massima (MIC). MIC acquisisce una vasta gamma di associazioni sia funzionali che non, e per le relazioni funzionali fornisce un punteggio che equivale approssimativamente al coefficiente di determinazione (R ^ 2) dei dati relativi alla funzione di regressione. La MIC appartiene a una classe più ampia di statistiche di esplorazione non parametrica (MINE) basate sull'informazione massima per identificare e classificare le relazioni. Applichiamo MIC e MINE a set di dati relativi alla salute globale, all'espressione genica, al baseball della lega principale e al microbiota intestinale umano e identifichiamo relazioni note e nuove.
Puoi trovare materiale supplementare qui: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Gli autori forniscono anche uno strumento gratuito che incorpora il nuovo metodo che può essere utilizzato con R e Python: http://www.exploredata.net/