Elenco di possibili funzioni di immagine per il recupero di immagini in base al contenuto


15

Sto cercando di trovare un elenco di possibili caratteristiche dell'immagine come colore, bordi orientati e così via per misurare la loro usabilità in caso di ricerca di oggetti simili / simili nelle immagini. Qualcuno conosce un tale elenco o almeno alcune funzionalità?


Questo è fuori tema, ma CBIR è in grado di estrarre funzionalità dal set di dati Open Image? È possibile estrarre funzionalità di un'immagine anche se l'immagine non viene salvata sul disco locale?
Quix0te,

Risposte:


25

Il campo stesso è troppo vasto. Quindi dubito che tu possa avere un elenco completamente esaustivo qui. Tuttavia, MPEG 7 è uno degli sforzi primari nella standardizzazione di quest'area. Quindi, ciò che è incluso qui non è universale, ma almeno il più primario.

Ecco alcuni set di funzionalità chiave che sono identificate in MPEG7 (posso davvero parlare solo di descrittori visivo non altri vedono questo per la piena portata).

Esistono 4 categorie di descrittori visivi:

1. Descrittori di colore che includono:
Colore dominante,
Layout dei colori (essenzialmente Colore primario su base blocco per blocco)
Colore scalabile (essenzialmente Istogramma colore),
Struttura dei colori (Istogramma colore essenzialmente locale)
e Spazi colore per rendere le cose interoperabili.

2. Descrittori di trame (vedi anche questo ) che include:
Descrittore di sfogliatura delle trame - che definisce granularità / ruvidezza, regolarità e direzione. Descrittore di trama omogeneo - basato sul banco di filtri Gabor. e
istogramma Edge

3. Descrittori di forma che includono: I
descrittori basati su regione sono attributi scalari della forma in esame - come area, ecentricità ecc. Basati su un
contorno che acquisisce le caratteristiche della forma caratteristica reale e
i descrittori 3D

4. Descrittori di movimento per il
movimento della videocamera (parametri di movimento della videocamera 3D)
Traiettoria di movimento (di oggetti nella scena) [ad esempio estratto da algoritmi di tracciamento] Movimento parametrico (ad esempio vettori di movimento, che consente la descrizione del movimento della scena. Ma può essere modelli più complessi su vari oggetti).
Attività che è più un descrittore semantico.


MPEG 7 non definisce "Come vengono estratti": definisce solo cosa significano e come rappresentarli / archiviarli. Quindi esiste una ricerca su come estrarli e usarli.

Ecco un altro buon documento che fornisce approfondimenti su questo argomento.

Ma sì, molte di queste funzionalità sono piuttosto basilari e potrebbe essere più ricerca creerà set di funzionalità più sofisticate (e complesse).



6

C'è anche un libro che raggruppa una serie di articoli relativi a questo argomento. Si chiama Principles of Visual information Retrieval .


Google sui libri non rivela molte recensioni positive. Più lamentele che aspetti positivi in ​​realtà. Pensi ancora che sia un buon riferimento e, in tal caso, forse potresti dirci quando ti è stato utile? :)
penelope,

Il motivo principale per metterlo qui non è che l'ho usato molto, ma il mio insegnante lo ha raccomandato (e apprezzo la sua opinione). Googleing su di esso mostra che è davvero un fascio di carte e non un vero libro. Mostra anche il suo piuttosto vecchio, ma ancora uno dei pochi libri sull'argomento. Pertanto, penso che la mia risposta sia ancora appropriata.
Geerten,

3

@Dipan Mehta ha coperto i descrittori di funzionalità che è possibile utilizzare. Vorrei ora provare a coprire l'altro lato della medaglia menzionando alcuni metodi di rilevamento delle caratteristiche che estraggono le funzioni utili per CBIR .

Il mio riferimento per la mia ricerca CBIR erano gli articoli di Sivic, Zisserman e Nister, Stewenius . Ci sono più articoli attuali di questi autori, ma questi presentano tutte le idee pertinenti.

Sostengono che per implementare metodi CBIR efficienti , si dovrebbero usare le caratteristiche delle proprietà complementari :

  • Forma Regioni adattate : tendono ad essere centrate suelementi simili ad angoli

    esempi: angoli di Harris, Harris multi-scala, DoG (Differenza di gaussiani - ma risponde anche ai bordi!)

  • Al massimo stabili regioni - tendono ad essere centrata a blob-like caratteristiche

    esempi: MSER (regioni staminali massimamente stabili), DoG

Sorprendentemente, Wikipedia offre anche una buona classificazione dei tipi di funzionalità (rivelatore), indicando il tipo di regioni di interesse che rilevano per la maggior parte delle funzionalità attualmente utilizzate ampiamente:

  • rilevatori di bordi
  • rilevatori d'angolo
  • rilevatori di blob
  • rilevatori di cresta

La maggior parte degli articoli che ho letto giuro che i descrittori SIFT (trasformazione invariante di scala) descrivono e sono sufficientemente robusti da essere usati in combinazione con i rilevatori di caratteristiche scelti. I riferimenti includono:

  • collegamenti già forniti
  • Mikolajczyk, Schmid si occupa del confronto dei descrittori locali
  • Dahl valuta le combinazioni rivelatore-descrittore

Nota! che questi articoli non trattano rigorosamente con CBIR ma sono usati come riferimenti nelle opere relative al CBIR .

Infine, è da ricordare che i metodi CBIR efficaci non dipendono solo dai rilevatori di funzionalità e dai descrittori utilizzati, ma anche:

  • una struttura di ricerca efficiente (quantizzazione delle caratteristiche visive)
  • modo per costruire descrittori di immagini - sia in base alle caratteristiche visive comuni (descrittori locali), sia confrontando i descrittori di immagini globali (questa è un'idea molto nuova, quindi nessun riferimento al momento)
  • misura della distanza tra descrittori di immagini

Inoltre, ho già risposto ad alcune domande riguardanti CBIR su DSP e stackoverflow , entrambi sono accompagnati da riferimenti e spiegazioni e penso che potrebbero essere rilevanti, quindi potresti dare un'occhiata:

  • DSP: 1
  • stackoverflow: 1 , 2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.