L'algoritmo MIC per rilevare correlazioni non lineari può essere spiegato in modo intuitivo?


20

Più recentemente, ho letto due articoli. Il primo riguarda la storia della correlazione e il secondo riguarda il nuovo metodo chiamato Maximal Information Coefficient (MIC). Ho bisogno del tuo aiuto per capire il metodo MIC per stimare le correlazioni non lineari tra le variabili.

Inoltre, le istruzioni per l'uso in R sono disponibili sul sito Web dell'autore (sotto Download ):

Spero che questa sia una buona piattaforma per discutere e comprendere questo metodo. Il mio interesse a discutere un'intuizione dietro questo metodo e come può essere esteso come ha detto l'autore.

" ... abbiamo bisogno di estensioni di MIC (X, Y) a MIC (X, Y | Z). Vogliamo sapere quanti dati sono necessari per ottenere stime stabili di MIC, quanto sono sensibili agli outlier, quali tre - o relazioni di dimensione superiore che mancherà, e altro ancora. MIC è un grande passo avanti, ma ci sono molti altri passi da compiere. "


La domanda è interessante, ma penso che non sia responsabile. Puoi per favore renderlo più specifico?
mpiktas,

3
La discussione sarà ostacolata dal fatto che l'articolo su Science non è un accesso aperto.
Itamar,

7
Ecco una copia del documento liberato da uno degli autori.

10
In breve, MIC è uno scavo della vecchia idea di "plot-all-scatterplots-and-peak-quelli-with-large-white-area", quindi produce principalmente falsi positivi, ha una complessità irreale di (che gli autori nascondono dietro euristiche test-only-random-selezionate-coppie selezionate) e per design manca tutte e tre le interazioni più e più variabili. O(M2)

4
Per i dettagli tecnici sul MIC, il materiale di supporto online è più informativo dell'articolo stesso.
res

Risposte:


22

Non sta dicendo che questo è stato pubblicato in una rivista non statistica di cui non siamo sicuri della revisione statistica tra pari? Questo problema è stato risolto da Hoeffding nel 1948 (Annals of Mathematical Statistics 19: 546) che ha sviluppato un algoritmo semplice che non richiede binning né passaggi multipli. Il lavoro di Hoeffding non era nemmeno menzionato nell'articolo di Science. Questo è stato nella hoeffdfunzione R nel Hmiscpacchetto per molti anni. Ecco un esempio (digita example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdutilizza un'implementazione Fortran abbastanza efficiente del metodo di Hoeffding. L'idea di base del suo test è quella di considerare la differenza tra i ranghi congiunti di X e Y e il prodotto del rango marginale di X e il rango marginale di Y, opportunamente ridimensionato.

Aggiornare

D

HmiscD|F(x,y)G(x)H(y)|D


6
(+1) Il documento di Hoeffding è disponibile online.
ris

1
Bella scoperta. Potrebbe valere una breve nota per la scienza, confrontando le prestazioni di Hoeffding con le loro. È un peccato che molti buoni studi (in molti campi) degli anni '50 siano stati dimenticati nel corso degli anni.
Itamar,

6

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

L' idea principale degli autori è quella di discretizzare i dati su molte diverse griglie bidimensionali e calcolare punteggi normalizzati che rappresentano l'informazione reciproca delle due variabili su ciascuna griglia. I punteggi sono normalizzati per garantire un confronto equo tra diverse griglie e variare tra 0 (non correlato) e 1 (correlazioni elevate).

R2


3

Ho trovato due buoni articoli che spiegano più chiaramente l'idea del MIC in particolare questo ; qui il secondo .

Come ho capito da queste letture è che è possibile ingrandire diverse complessità e scale di relazioni tra due variabili esplorando diverse combinazioni di griglie; queste griglie vengono utilizzate per dividere lo spazio bidimensionale in celle. Scegliendo la griglia che contiene la maggior parte delle informazioni su come le celle partizionano lo spazio che si sta scegliendo il MIC.

Vorrei chiedere a @mbq se fosse in grado di espandere quello che chiamava "plot-all-scatterplots-and-peak-quelli-con-più grande-area-bianca" e complessità irreale di O (M2).


4
Mi preoccupo di qualsiasi metodo statistico che utilizza il binning.
Frank Harrell,

@FrankHarrell Puoi fornire riferimenti o alcune intuizioni che descrivono in dettaglio perché il binning è sbagliato? Intuitivamente, posso vedere che stai essenzialmente gettando via informazioni a causa del binning, ma ci devono essere più motivi per cui?
Kiran K.,

Ci sono troppi riferimenti per sapere da dove cominciare. Alla fine non sopravvive alcun metodo statistico basato sul binning. L'arbitrarietà è uno dei tanti problemi.
Frank Harrell,

@FrankHarrell Apprezzo il commento. Il motivo per cui ho chiesto referenze è che sono uno studente di dottorato di ricerca e sto studiando concetti di dipendenza e dipendenza multivariata in questo momento, e mi piacerebbe leggere questi documenti e citarli nelle mie opere in futuro. Se potessi menzionarne uno o due importanti, sono sicuro di poter trovare quelli rimanenti che stai citando. Farò anche qualche ricerca e invio di riferimenti qui se ne trovo di buoni.
Kiran K.,

Inizia con citeulike.org/user/harrelfe/article/13265458, quindi vedi altre informazioni sulla dicotomizzazione su biostat.mc.vanderbilt.edu/CatContinuous . Per una misura di dipendenza generale che non richiede alcun binning, non perdere citeulike.org/user/harrelfe/article/13264312
Frank Harrell
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.