Come quantificare la ridondanza delle funzionalità?

Ho tre funzionalità che utilizzo per risolvere un problema di classificazione. Inizialmente, queste caratteristiche producevano valori booleani, quindi ho potuto valutare la loro ridondanza osservando quanto si sovrappongono gli insiemi di classificazioni positive e negative. Ora ho invece esteso le funzionalità per produrre valori reali (punteggi), e vorrei analizzarne nuovamente la ridondanza, ma sono completamente a corto di come farlo. Qualcuno può fornirmi un puntatore o un'idea su come procedere?

So che questa domanda è molto vaga, cioè perché non ho una conoscenza molto forte delle statistiche. Quindi, se non hai una risposta per me, forse hai alcune domande che possono aiutarmi a capire meglio me stesso.

Modifica: Attualmente sto navigando su Wikipedia sull'argomento, ho la sensazione che quello che voglio sia un coefficiente di correlazione, ma non sono ancora sicuro se questo sia l'approccio giusto e quale dei molti coefficienti disponibili sia appropriato.

Modifica 2: Nel caso booleano, ho prima creato per ogni funzione il set di campioni per cui era vero. Quindi, la correlazione tra due caratteristiche era la dimensione dell'intersezione di questi insiemi rispetto alla dimensione dell'unione di questi insiemi. Se questo valore è 1, sono completamente ridondanti, perché sempre gli stessi. Se è 0, non sono mai gli stessi.

correlation feature-selection

— Björn Pollex
fonte

sarebbe utile se fornissi un esempio di come definire la ridondanza nel caso booleano e che tipo di risultati ti aspetteresti in caso continuo

— mpiktas,

@mpiktas: modifica la mia domanda in risposta al tuo commento.

— Björn Pollex,

Questo suona come un problema di selezione delle funzionalità, se questo è il caso, penso che tu voglia calcolare le informazioni reciproche tra tutti i sottoinsiemi di funzionalità e l'output della classificazione. Il sottoinsieme con le informazioni reciproche più elevate sarà l'insieme di funzionalità che contiene il maggior numero di "informazioni" sulla classificazione risultante del record.

Se hai solo 3 funzionalità, puoi calcolare tutti i possibili sottoinsiemi in un ragionevole lasso di tempo, se il tuo set di funzionalità diventa più grande, dovrai approssimarlo (in genere usando un approccio avido: prendi funzionalità con il MI più alto ad ogni passo ).

— tacca
fonte

(+1) per informazioni reciproche. Nota aggiuntiva: a) Suggerisco di ottenere informazioni come caso speciale di informazione reciproca. b) La selezione automatica delle caratteristiche non solo rimuoverà il ridondante, ma anche tutte le caratteristiche che hanno un impatto negativo sulla discriminazione di classe.

— Steffen,

Grazie! Sembra molto promettente, lo esaminerò.

— Björn Pollex,