Il coefficiente di dadi è uguale alla precisione?

Mi imbatto nel coefficiente Dice per la somiglianza del volume ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) e la precisione ( https://en.wikipedia.org/wiki/Accuracy_and_precision ).

Mi sembra che queste due misure siano uguali. qualche idea?

— RockTheStar
fonte

Questo fornisce tutte le informazioni stats.stackexchange.com/questions/195006/…

— rank1

@ rank1 Grazie. Voglio chiarire: non è questo il link alla mia domanda :)

— RockTheStar,

ooops, questo: ncbi.nlm.nih.gov/pmc/articles/PMC4533825

— rank1

Risposte:

Non sono la stessa cosa e vengono spesso utilizzati in contesti diversi. Il punteggio dei dadi viene spesso utilizzato per quantificare le prestazioni dei metodi di segmentazione delle immagini . Lì annoti qualche regione di verità di base nella tua immagine e poi crei un algoritmo automatizzato per farlo. Convalidi l'algoritmo calcolando il punteggio dei dadi, che è una misura di quanto siano simili gli oggetti. Quindi è la dimensione della sovrapposizione delle due segmentazioni divisa per la dimensione totale dei due oggetti. Usando gli stessi termini della descrizione dell'accuratezza, il punteggio dei dadi è:

Dice score = \frac{2 \cdot number of true positives}{2 \cdot number of true positives + number of false positives + number of false negatives}

$\text{Dice score} = \frac{2\cdot \text{number of true positives}}{2 \cdot \text{number of true positives + number of false positives + number of false negatives}}$ Quindi il numero di veri positivi, è il numero che trova il tuo metodo, il numero di positivi è il numero totale di positivi che possono essere trovati e il numero di falsi positivi è il numero di punti negativi che il tuo metodo classifica come positivi.

Il punteggio dei dadi non è solo una misura di quanti positivi trovi, ma penalizza anche i falsi positivi trovati dal metodo, simili alla precisione. quindi è più simile alla precisione che alla precisione. L'unica differenza è il denominatore, in cui è presente il numero totale di positivi anziché solo i positivi rilevati dal metodo. Quindi il punteggio dei dadi penalizza anche i positivi che il tuo algoritmo / metodo non è riuscito a trovare.

Modifica: nel caso della segmentazione delle immagini, supponiamo che tu abbia una maschera con verità di fondo, chiamiamo la maschera come suggerisci. Quindi la maschera ha valori 1 nei pixel in cui c'è qualcosa che stai cercando di trovare e altrimenti zero. Ora hai un algoritmo per generare un'immagine / maschera , che deve anche essere un'immagine binaria, ovvero creare una maschera per la tua segmentazione. Quindi abbiamo il seguente: $A$ $B$

Numero di positivi è il numero totale di pixel con intensità 1 nell'immagine $A$
Numero di veri positivi è il numero totale di pixel che hanno il valore 1 in entrambi e . Così è l'intersezione delle regioni di quelle di e . È lo stesso che utilizza l'operatore su e . $A$ $B$ $A$ $B$ $A$ $B$
Numero di falsi positivi è il numero di pixel che appaiono come 1 in ma zero . $B$ $A$

Se lo stai facendo per una pubblicazione, scrivi Dice con la D maiuscola, perché prende il nome da un ragazzo di nome Dice.

EDIT: per quanto riguarda il commento su una correzione: non uso la formula tradizionale per calcolare il coefficiente Dice, ma se lo traduco nella notazione nell'altra risposta diventa:

Dice score = \frac{2 \cdot | A \cap B |}{2 \cdot | A \cap B | + | B ∖ A | + | A ∖ B |}

$\text{Dice score} = \frac{2\cdot|A\cap B|}{2\cdot|A\cap B| + |B\backslash A| + |A\backslash B|}$

Che equivale alla definizione tradizionale. È più conveniente scriverlo nel modo in cui l'ho scritto originariamente per indicare la formula in termini di falsi positivi. La barra rovesciata è il set meno.

— Gumeo
fonte

Grazie per la risposta. Esattamente per il confronto della segmentazione delle immagini. Quindi, questo punteggio dei dadi viene usato, diciamo, dai l'immagine A e l'immagine B. L'immagine A è il terreno vero (0 o 1) e l'immagine B è la mia segmentazione. Quindi, qual è il numero totale di positivi (1), è che il numero di 1 in A + il numero di 1 in B ?? Sono un po 'confuso qui. Stesso falso positivo

— RockTheStar

@RockTheStar Modificherò la mia risposta per tenere conto della segmentazione delle immagini.

— Gumeo,

Ottimo, grazie mille per la tua spiegazione. Un'altra domanda di follow-up. E la gamma di D? È compreso tra 0 e 1?

— RockTheStar,

Grazie mille! Lo implementerò e guarderò il risultato

— RockTheStar,

@Gumeo potresti voler correggere o almeno spiegare la tua risposta, per favore vedi la mia nuova risposta per i dettagli

— DVB

Il coefficiente di dadi (noto anche come indice di somiglianza dei dadi) è uguale al punteggio F1 , ma non è uguale alla precisione. La differenza principale potrebbe essere il fatto che l'accuratezza tiene conto dei veri negativi mentre il coefficiente dei dadi e molte altre misure gestiscono solo i veri negativi come valori predefiniti poco interessanti (vedere Le basi della valutazione del classificatore, Parte 1 ).

Per quanto ne so, il coefficiente dei dadi non è calcolato come descritto da una risposta precedente , che in realtà contiene la formula per l' indice di Jaccard (noto anche come "intersezione sull'unione" nella visione artificiale).

\begin{aligned} D i c e (A, B) & = \frac{2 | A \cdot B |}{| A | + | B |} \\ F 1 (A, B) & = \frac{2}{| A | / | A \cdot B | + | B | / | A \cdot B |} \\ J a c c a r d (A, B) & = \frac{| A \cdot B |}{| m a x (A, B) |} = \frac{| A \cdot B |}{| A | + | B | - | A \cdot B |} \\ A c c u r a c y (A, B) & = \frac{| A \cdot B | + | \bar{A} \cdot \bar{B} |}{| A l l |} \end{aligned}

$\begin{align*} Dice(A,B) &= \frac{2|A\cdot B|}{ |A| + |B| } \\ F1(A,B) &= \frac{2}{|A|/|A \cdot B| + |B|/|A\cdot B|} \\ Jaccard(A,B) &= \frac{|A\cdot B|}{|max(A,B)|} = \frac{|A\cdot B|}{|A|+|B|-|A\cdot B|}\\ Accuracy(A,B) &= \frac{|A\cdot B|+|\overline{A} \cdot \overline{B}|}{|All|} \\ \end{align*}$

Dove vettori binari (con valori di 1 per gli elementi all'interno di un gruppo e 0 altrimenti), uno indica la verità di base e l'altro indica il risultato della classificazione, e è solo tutti gli elementi considerati (un vettore binario di 1 dello stesso lunghezza). Ad esempio,(prodotto interno di e ) è il numero di veri positivi,(prodotto interno del complemento di e del complemento di ) è il numero di veri negativi. $A,B$ $All$ $|A \cdot B|$ $A$ $B$ $|\overline{A} \cdot \overline{B}|$ $A$ $B$

Il coefficiente di dadi e l'indice di Jaccard sono monotonicamente correlati e l'indice di Tversky li generalizza entrambi, per leggere di più su di esso vedere i punteggi F, i dadi e Jaccard impostare la somiglianza .

Il coefficiente Dice è anche la media armonica di Sensibilità e Precisione, per capire perché ha senso, leggi Perché la misura F è una media armonica e non una media aritmetica delle misure di precisione e richiamo? .

Per saperne di più su molti dei termini di questa risposta e le loro relazioni, vedere Valutazione dei classificatori binari .

— dvb
fonte