Qual è la differenza tra rilevamento di oggetti, segmentazione semantica e localizzazione?


23

Ho letto quelle parole in parecchie pubblicazioni e vorrei avere delle belle definizioni per quei termini che chiariscono qual è la differenza tra il rilevamento di oggetti e la segmentazione semantica rispetto alla localizzazione. Sarebbe bello se potessi fornire fonti per le tue definizioni.


Risposte:


18

Ho letto molti articoli su, Rilevazione di oggetti, Riconoscimento di oggetti, Segmentazione di oggetti, Segmentazione di immagini e Segmentazione di immagini semantiche ed ecco le mie conclusioni che potrebbero non essere vere:

Riconoscimento oggetti: in una data immagine devi rilevare tutti gli oggetti (una classe ristretta di oggetti dipende dal tuo set di dati), localizzarli con un rettangolo di selezione ed etichettare quel rettangolo di selezione con un'etichetta. Nell'immagine seguente vedrai un semplice output di un riconoscimento di oggetti all'avanguardia.

riconoscimento degli oggetti

Rilevamento di oggetti: è come il riconoscimento di oggetti ma in questa attività hai solo due classi di classificazione degli oggetti che significa scatole di delimitazione di oggetti e scatole di delimitazione di non oggetti. Ad esempio Rilevamento auto: devi rilevare tutte le auto in una determinata immagine con i loro riquadri di selezione.

Rilevamento oggetti

Segmentazione degli oggetti: come il riconoscimento degli oggetti, riconoscerai tutti gli oggetti in un'immagine ma il tuo output dovrebbe mostrare questo oggetto che classifica i pixel dell'immagine.

segmentazione degli oggetti

Segmentazione dell'immagine: nella segmentazione dell'immagine segmenterai le regioni dell'immagine. l'output non etichetterà i segmenti e l'area di un'immagine che devono essere coerenti tra loro nello stesso segmento. L'estrazione di super pixel da un'immagine è un esempio di questa attività o segmentazione in primo piano.

segmentazione dell'immagine

Segmentazione semantica: nella segmentazione semantica devi etichettare ogni pixel con una classe di oggetti (Macchina, Persona, Cane, ...) e non oggetti (Acqua, Cielo, Strada, ...). Altre parole in Segmentazione semantica etichetterai ogni regione dell'immagine.

segmenazione semantica


bella risposta. Noterò che cs231n.stanford.edu/slides/winter1516_lecture8.pdf la diapositiva 8 utilizza una diversa definizione di rilevamento degli oggetti che rileva più classi e più istanze all'interno della stessa classe (non so se esiste una definizione accettata o meno, quindi questo potrebbe essere dovuto solo all'ambiguità).
Keith,

1
segmentazione dell'istanza, come la segmentazione semantica ma si devono etichettare le mucche come separate
titus

2
Le diapositive del primo commento sono qui ora: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu

5

Poiché questo problema non è ancora del tutto chiaro anche ora nel 2019 e potrebbe aiutare i nuovi studenti ML a scegliere, ecco un'immagine molto buona che mostra le differenze:

(la localizzazione è il riquadro attorno alla classe "pecora", dopo che è stata fatta una classificazione dell'immagine) fonte: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea fonte: Towardsdatascience.com


3

Credo che solo "localizzazione" significhi "classificazione di un singolo oggetto + localizzazione mediante un riquadro di delimitazione 2D o 3D".

"Rilevamento oggetti" sta localizzando + classificando tutte le istanze di classi di oggetti conosciute in questione.

La segmentazione semantica è sostanzialmente una classificazione per pixel.

Ha anche scritto metriche coinvolte (fonte: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

La precisione è il rapporto tra gli oggetti identificati con precisione e il numero totale di oggetti previsti (rapporto tra veri positivi e veri positivi più falsi positivi).

Il richiamo è il rapporto tra gli oggetti identificati con precisione e il numero totale di oggetti reali nelle immagini (rapporto tra veri positivi e veri positivi più veri negativi).

mAP: punteggio medio di precisione media semplificato basato sul prodotto della precisione e richiamo per DetectNet. È una buona misura combinata per quanto la rete sia sensibile agli oggetti di interesse e quanto bene eviti i falsi allarmi.


2

Il termine localizzazione non è chiaro. Discuterò quindi i termini rilevamento degli oggetti e segmentazione semantica.

Nel rilevamento degli oggetti, ogni pixel dell'immagine viene classificato indipendentemente dal fatto che appartenga o meno a una classe particolare (ad es. Volto). In pratica, ciò è semplificato raggruppando i pixel per formare i riquadri di delimitazione, riducendo così il problema nel decidere se il riquadro di delimitazione si adatta perfettamente all'oggetto. Poiché i pixel possono appartenere a più oggetti (ad es. Viso, occhio), possono contenere più etichette contemporaneamente.

D'altra parte, la segmentazione semantica implica l'assegnazione di etichette di classe a ciascun pixel dell'immagine. Sebbene consentano una migliore precisione di localizzazione in quanto non incorporano la semplificazione del riquadro di delimitazione, applicano rigorosamente una singola etichetta per pixel.


-2

Segmentazione semantica: è il compito di raggruppare insieme parti di immagini che appartengono alla stessa classe di oggetti. ad es .: rilevamento di segnali stradali


2
Ma rilevare i segnali stradali è il rilevamento di oggetti. Puoi spiegare la differenza?
reinierpost,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.