Sto cercando di applicare l'idea di informazioni reciproche per la selezione delle funzioni, come descritto in queste note di lezione (a pagina 5).
La mia piattaforma è Matlab. Un problema che riscontro nel calcolo delle informazioni reciproche da dati empirici è che il numero è sempre distorto verso l'alto. Ho trovato circa 3 ~ 4 file diversi per calcolare l'MI su Matlab Central e tutti danno grandi numeri (come> 0,4) quando inserisco variabili casuali indipendenti.
Non sono un esperto, ma il problema sembra essere che se si utilizzano semplicemente densità congiunte e marginali per calcolare l'IM, la distorsione viene introdotta nel processo perché l'IM è per definizione positiva. Qualcuno ha consigli pratici su come stimare accuratamente le informazioni reciproche?
Una domanda correlata è, in pratica, come le persone usano effettivamente l'MI per selezionare le funzionalità? Non è ovvio per me come trovare un valore soglia poiché l'MI è in teoria illimitato. O le persone classificano semplicemente le funzionalità in base a MI e prendono le prime k caratteristiche?