Buone caratteristiche / algoritmi per il riconoscimento di modelli di auto nelle immagini

Ho una domanda sul riconoscimento degli oggetti, in particolare sul riconoscimento dei modelli di auto! Sono all'inizio di un lavoro sull'identificazione dello stesso modello di auto in immagini diverse. Al momento penso che uno dei migliori algoritmi per il riconoscimento di oggetti 3D sia SIFT ma dopo aver giocato un po 'con un'implementazione demo ho la strana sensazione che questo algoritmo abbia alcuni problemi con oggetti metallici lucidi come le auto, specialmente se hanno colori diversi.

Qualcuno sa qualche lavoro su quest'area in generale un algoritmo adatto per il compito di trovare lo stesso modello di auto in immagini diverse?

Grazie in anticipo per il vostro aiuto!

computer-vision local-features object-recognition

— jstr
fonte

Puoi pubblicare alcune immagini di esempio?

— endolito il

Sicuro. Le immagini per la creazione di un modello di modelli di auto ;-) potrebbero essere come: s5 coupé training 1 o come s5 coupe training 2 ma anche immagini "normali". Le immagini di query potrebbero essere come query coupé s5 1 speranza che aiuta!

— jstr

Quali rilevatori di funzionalità alternativi come SIFT, GLOH o SURF esistono per identificare i punti chiave adeguati sulle auto?

— jstr

@jstr se alla fine hai implementato lo schema descritto di seguito, come ha funzionato?

— solvingPuzzles

Vorrei dare un'occhiata al cosiddetto approccio "sacco di parole" o "parole visive". Viene sempre più utilizzato per la categorizzazione e l'identificazione delle immagini. Questo algoritmo di solito inizia rilevando punti robusti, come punti SIFT, in un'immagine. Viene utilizzata l'area intorno a questi punti trovati (il descrittore SIFT a 128 bit nel tuo caso).

Nella forma più semplice, si possono raccogliere tutti i dati da tutti i descrittori da tutte le immagini e raggrupparli, ad esempio usando k-mean. Ogni immagine originale ha quindi descrittori che contribuiscono a un numero di cluster. I centroidi di questi cluster, ovvero le parole visive, possono essere usati come nuovo descrittore per l'immagine. Fondamentalmente speri che i cluster a cui contribuiscono i descrittori di un'immagine siano indicativi della categoria di immagini.

Ancora una volta, nel caso più semplice, hai un elenco di cluster e, per immagine, conti quale di questi cluster conteneva descrittori di quell'immagine e quanti. Questo è simile al metodo Frequenza di frequenza / Frequenza inversa dei documenti (TD / IFD) utilizzato nel recupero del testo. Guarda questo script Matlab veloce e sporco .

Questo approccio è attivamente studiato e ci sono molti algoritmi molto più avanzati in circolazione.

Il sito Web VLfeat contiene una demo più avanzata di questo approccio, che classifica il set di dati caltech 101. Notevoli anche i risultati e il software della stessa Caltech .

— Maurits
fonte

Ehi Maurits, grazie per la tua risposta. Ci penserò! Ma una domanda. Se ho le "parole visive" come misuro la distanza tra loro? Penso che vorrei usare i descrittori SIFT è corretto? - Lowe ha un articolo in cui descrive un metodo per riconoscere oggetti 3D costruendo modelli di descrittori SIFT. Qualcuno conosce altri buoni articoli su questo argomento (riconoscimento di oggetti 3D con altre funzionalità)?

— jstr

In questo caso, solo la distanza euclidea, mentre si raggruppano vettori interi. Non penso che tu debba misurare la distanza tra i centroidi del cluster di per sé, ma piuttosto, quando presentato con un'immagine di query (e quindi descrittori di query) misuri a quali centroidi questi descrittori sono i più vicini.

— Maurits,

Ok usando una misura di distanza è chiaro ;-) ma su quali dati? Sui descrittori SIFT per parola visiva?

— jstr

Tre volte, infatti, come metrica per il clustering iniziale, per accertare a quale centroide / visualword un descrittore di query è il più vicino, e infine, per confrontare il vettore di query td / idf con quelli nel database.

— Maurits,

Ok ho capito ;-) ma su quali dati funziona la misura della distanza? Sui descrittori SIFT?

— giovedì