Perché gli statistici non usano le informazioni reciproche come misura di associazione?


10

Ho visto un paio di discorsi di non statistici in cui sembrano reinventare le misure di correlazione usando le informazioni reciproche anziché la regressione (o test statistici equivalenti / strettamente correlati).

Presumo che ci sia una buona ragione per cui gli statistici non adottano questo approccio. La comprensione del mio profano è che gli stimatori di entropia / informazione reciproca tendono ad essere problematici e instabili. Presumo che il potere sia anche problematico di conseguenza: cercano di aggirare questo affermando che non stanno usando un framework di test parametrico. Di solito questo tipo di lavoro non si preoccupa dei calcoli di potenza, né degli intervalli di confidenza / credibilità.

Ma per assumere la posizione di avvocato del diavolo, la lenta convergenza è un grosso problema quando i set di dati sono estremamente grandi? Inoltre, a volte questi metodi sembrano "funzionare" nel senso che le associazioni sono validate da studi di follow-up. Qual è la migliore critica contro l'uso di informazioni reciproche come misura di associazione e perché non viene ampiamente utilizzato nella pratica statistica?

modifica: Inoltre, ci sono buoni documenti che trattano questi problemi?


3
L'MI è una misura dell'associazione tra due variabili discrete. Non è un'impostazione così comune nelle statistiche generali (potrebbe essere in alcuni sottocampi specializzati). Ma all'interno di quell'impostazione, vedo che viene usato abbastanza frequentemente. Certamente, quando incontro persone applicate usando la correlazione di Pearson su set di dati discreti bivariati, faccio notare loro l'MI.
user603

1
Vedi anche stats.stackexchange.com/questions/1052/… Tuttavia, la discussione qui è già, a mio avviso, buona o migliore, quindi la solita domanda sui duplicati è discutibile.
Nick Cox,

Anche per riferimenti vedere stats.stackexchange.com/q/20011/1036
Andy W

2
Un ulteriore riferimento generale è Matthew Reimherr e Dan L. Nicolae. 2013. Sulla quantificazione della dipendenza: un quadro per lo sviluppo di misure interpretabili. Statistical Science 28: 116-130.
Nick Cox,

Risposte:


4

Penso che dovresti distinguere tra dati categorici (discreti) e dati continui.

Per i dati continui, la correlazione di Pearson misura una relazione lineare (monotonica), la correlazione tra gradi una relazione monotonica.

MI d'altra parte "rileva" qualsiasi relazione. Questo di solito non è ciò che ti interessa e / o è probabile che sia rumore. In particolare, è necessario stimare la densità della distribuzione. Ma poiché è continuo, dovresti prima creare un istogramma [bin discreti], quindi calcolare l'IM. Ma poiché l'MI consente qualsiasi relazione, l'MI cambierà man mano che si utilizzano contenitori più piccoli (cioè, quindi si consentono più oscillazioni). Quindi puoi vedere che la stima dell'IM sarà molto instabile, non permettendoti di mettere intervalli di confidenza sulla stima ecc. [Lo stesso vale se fai una stima della densità continua.] Fondamentalmente ci sono troppe cose da stimare prima di calcolare effettivamente l'MI.

I dati categorici invece si adattano abbastanza bene al framework MI (vedi G-test), e non c'è molto da scegliere tra G-test e chi-quadrato.


Mi riferisco principalmente a casi di associazione discreta (per regressione, avevo in mente GLM, non solo OLS). In realtà, molti scienziati che studiano fenomeni complessi (ad esempio la genetica) potrebbero dire di essere più interessati a ciò che stai descrivendo (rilevare qualsiasi relazione). Il richiamo di sfuggire all'ovvia critica comune di "cosa succede se la forma funzionale della correlazione è sbagliata? Certo che voglio rilevare qualsiasi relazione!" è forte. Tuttavia, penso che qui ci sia un errore senza pranzo libero, ma sarebbe da trascurare il fatto che sto cercando di articolare / capire meglio.
user4733

1
... Non ero a conoscenza della relazione tra i test LR e l'MI, è molto interessante!
user4733
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.