Coefficienti di somiglianza per i dati binari: perché scegliere Jaccard su Russell e Rao?


20

Da Encyclopedia of Statistical Sciences ho capito che dati gli attributi (dicotomici (binari: 1 = presenti; 0 = assenti) (variabili), possiamo formare una tabella di contingenza per due oggetti i e j di un campione:p

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Possiamo calcolare da questi valori i coefficienti di somiglianza tra qualsiasi coppia di oggetti, in particolare il coefficiente di Jaccard e il coefficiente di Russell e Rao

un'un'+B+c
un'un'+B+c+d=un'p.

Quando calcolati, questi coefficienti daranno valori diversi, ma non riesco a trovare alcuna risorsa che spieghi perché dovrei scegliere l'uno rispetto all'altro. È solo perché per alcuni set di dati, l'assenza simultanea di entrambi gli attributi ( ) non trasmette alcuna informazione?d

Risposte:


14

Esistono molti di questi coefficienti (la maggior parte sono espressi qui ). Prova a meditare su quali sono le conseguenze delle differenze nelle formule, specialmente quando calcoli una matrice di coefficienti.

Immagina, ad esempio, che gli oggetti 1 e 2 siano simili, come gli oggetti 3 e 4. Ma 1 e 2 hanno molti degli attributi nell'elenco mentre 3 e 4 hanno solo pochi attributi. In questo caso, Russell-Rao (percentuale di co-attributi rispetto al numero totale di attributi in esame) sarà alta per la coppia 1-2 e bassa per la coppia 3-4. Ma Jaccard (proporzione di co-attributi al numero combinato di attributi che entrambi gli oggetti hanno = probabilità che se uno degli oggetti ha un attributo lo hanno entrambi) sarà alto per entrambe le coppie 1-2 e 3-4.

(un'un'+B+un'un'+c)/2

un'un'+Bun'un'+c
Bc

PS

È solo perché per alcuni set di dati, l'assenza simultanea di entrambi gli attributi (d) non trasmette alcuna informazione?

d

Si noti inoltre che se si desidera calcolare la somiglianza tra oggetti sulla base di 1+ attributi nominali (dicotomici o politomici), ricodificare ciascuna di tali variabili nel set di variabili binarie fittizie. Quindi la misura di somiglianza raccomandata da calcolare sarà Dice ( che , quando calcolato per 1+ set di variabili fittizie, equivale a Ochiai e Kulczynski-2).


2
Vari termini sono stati suggeriti dalla presunta analogia con "dicotomico" per classificazioni con più di due categorie. "Polytomous" è preferibilmente linguisticamente "polychotomous", che si basa su un'ipotesi errata che "dicotomous" analizza due radici greche, "di" e "chotomous". Composti "multichotomici" che sbagliano con l'uso di una radice latina. Sebbene le parole con radici latine e greche separate siano sopravvissute al disprezzo dei linguisti (ad esempio "televisione"), qui consiglio l'uso di "politomico".
Nick Cox,

Grazie per avermelo ricordato. In realtà sapevo di cosa stai dicendo e cerco di essere purista anche io ... quando non ho fretta. Lo modificherò.
ttnphns,

3

L'utilità del coefficiente Tanimoto sull'accuratezza tradizionale (cioè Russell-Rao) è evidente nell'analisi delle immagini, quando si confronta una segmentazione con un gold standard. Considera queste due immagini:

inserisci qui la descrizione dell'immagine

In ciascuna di queste immagini che sono "maschere" binarie, abbiamo due oggetti della stessa dimensione ma posizionati in posizioni leggermente diverse e vogliamo valutare in che misura questi oggetti sono identici nella forma e nella posizione valutandone la sovrapposizione. Di solito uno (ad esempio la maschera viola) è una segmentazione (prodotta da un algoritmo informatico), ad esempio questo potrebbe essere un tentativo di localizzare il cuore da un'immagine medica. L'altro, (ad esempio il verde) è il gold standard (cioè il cuore, come identificato da un medico esperto). Dove c'è il colore bianco, le due forme si sovrappongono. I pixel neri sono di sfondo.

Le due immagini sono identiche (ovvero il risultato dell'algoritmo di segmentazione, così come il gold standard, sono le stesse in entrambe le immagini), ad eccezione di un sacco di "riempimento" di sfondo nella seconda immagine (ad esempio, ciò potrebbe rappresentare due esperimenti con due diverse macchine a raggi X, in cui la seconda macchina aveva un raggio più ampio che copriva più area del corpo, ma per il resto la dimensione del cuore è la stessa in entrambi i set di immagini).

Chiaramente, poiché la segmentazione e il gold standard in entrambe le immagini sono identici, se valutiamo l'accuratezza della segmentazione rispetto al gold standard, vorremmo che la nostra metrica fornisse lo stesso risultato di "accuratezza" in entrambi gli esperimenti.

Tuttavia, se proviamo a valutare la qualità della segmentazione usando l'approccio Russel-Rao, otterremmo un'accuratezza fuorviante per l'immagine giusta (vicino al 100%), perché "i pixel di sfondo identificati correttamente come pixel di sfondo" contribuiscono al l'accuratezza complessiva dei set e i pixel di sfondo sono rappresentati in modo sproporzionato nel secondo set. Gli oggetti di cui vogliamo valutare la sovrapposizione nella segmentazione medica sono spesso minuscoli punti in uno sfondo massiccio, quindi questo non ci è molto utile. Inoltre, ciò provocherebbe problemi se stessimo provando a confrontare la precisione di un algoritmo di segmentazione con un altro e i due fossero valutati su immagini di dimensioni diverse! (o, equivalentemente, a scale diverse).Il ridimensionamento / dimensione dell'immagine di incorporamento non dovrebbe fare la differenza nella valutazione di una segmentazione rispetto a un gold standard! .

Al contrario, il coefficiente tanimoto non si preoccupa dei pixel di sfondo, rendendolo invariante alla "scala". Per quanto riguarda il coefficiente tanimoto, la somiglianza di entrambi questi insiemi sarà identica, rendendoci una metrica di somiglianza molto più utile da usare per valutare la qualità di un algoritmo di segmentazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.