Le risposte precedenti sono davvero ottime, vorrei segnalare qualche aggiunta in più:
Segmentazione degli oggetti
uno dei motivi per cui questo è caduto in disgrazia nella comunità dei ricercatori è perché è problematicamente vago. La segmentazione degli oggetti significava semplicemente trovare un singolo o un piccolo numero di oggetti in un'immagine e tracciare un confine attorno ad essi, e per la maggior parte degli scopi puoi ancora presumere che significhi questo. Tuttavia, iniziò anche ad essere usato per indicare la segmentazione di blob che potrebbero essere oggetti, segmentazione di oggetti dallo sfondo (più comunemente ora chiamata sottrazione dello sfondo o segmentazione dello sfondo o rilevamento del primo piano), e anche in alcuni casi usato in modo intercambiabile con il riconoscimento degli oggetti usando i riquadri di delimitazione (questo si è rapidamente interrotto con l'avvento degli approcci della rete neurale profonda al riconoscimento degli oggetti, ma il riconoscimento degli oggetti in anticipo potrebbe anche significa semplicemente etichettare un'intera immagine con l'oggetto al suo interno).
Cosa rende la "segmentazione" "semantica"?
Simpy, ogni segmento, o nel caso di metodi profondi ogni pixel, riceve un'etichetta di classe basata su una categoria. La segmentazione in generale è solo la divisione dell'immagine secondo una regola. La segmentazione del Meanshift , ad esempio, da un livello molto alto divide i dati in base ai cambiamenti nell'energia dell'immagine. Taglio graficola segmentazione basata non è similmente appresa ma direttamente derivata dalle proprietà di ogni immagine separata dal resto. I metodi più recenti (basati sulla rete neurale) utilizzano pixel etichettati per imparare a identificare le caratteristiche locali associate a classi specifiche, quindi classificare ogni pixel in base a quale classe ha la massima confidenza per quel pixel. In questo modo, "etichettatura dei pixel" è in realtà un nome più onesto per l'attività e il componente "segmentazione" è emergente.
Segmentazione delle istanze
Probabilmente il significato più difficile, pertinente e originale di segmentazione degli oggetti, "segmentazione delle istanze" indica la segmentazione dei singoli oggetti all'interno di una scena, indipendentemente dal fatto che siano dello stesso tipo. Tuttavia, uno dei motivi per cui questo è così difficile è perché da una prospettiva di visione (e per certi versi filosofica) ciò che rende un'istanza "oggetto" non è del tutto chiaro. Le parti del corpo sono oggetti? Tali "oggetti parziali" dovrebbero essere segmentati da un algoritmo di segmentazione delle istanze? Dovrebbero essere segmentati solo se sono visti separati dal tutto? Che dire degli oggetti composti dovrebbero due cose chiaramente adiacenti ma separabili essere un oggetto o due (una roccia è incollata alla cima di un bastone un'ascia, un martello, o solo un bastone e una roccia se non adeguatamente fatti?). Inoltre, non è t chiaro come distinguere le istanze. Un testamento è un'istanza separata dagli altri muri a cui è attaccato? In quale ordine devono essere conteggiate le istanze? Come appaiono? Vicinanza al punto di vista? Nonostante queste difficoltà, la segmentazione degli oggetti è ancora un grosso problema perché come esseri umani interagiamo con gli oggetti tutto il tempo indipendentemente dalla loro "etichetta di classe" (usando oggetti casuali intorno a te come fermacarte, seduti su cose che non sono sedie), e quindi alcuni set di dati tentano di risolvere questo problema, ma il motivo principale per cui non viene ancora prestata molta attenzione al problema è perché non è sufficientemente definito.
Scene Parsing / Scene labeling
L'analisi delle scene è l'approccio di segmentazione rigorosa all'etichettatura delle scene, che presenta anche alcuni problemi di vaghezza. Storicamente, l'etichettatura delle scene significava dividere l'intera "scena" (immagine) in segmenti e dare a tutti un'etichetta di classe. Tuttavia, era anche usato per indicare l'assegnazione di etichette di classe ad aree dell'immagine senza segmentarle esplicitamente. Rispetto alla segmentazione, la "segmentazione semantica" non implica la divisione dell'intera scena. Per la segmentazione semantica, l'algoritmo ha lo scopo di segmentare solo gli oggetti che conosce e sarà penalizzato dalla sua funzione di perdita per l'etichettatura dei pixel che non hanno alcuna etichetta. Ad esempio, il set di dati MS-COCO è un set di dati per la segmentazione semantica in cui vengono segmentati solo alcuni oggetti.