Esistono algoritmi di visione artificiale specifici per immagini di profondità?


9

Ho esaminato gli algoritmi di rilevamento dei marker da utilizzare con un'applicazione basata su Kinect e la maggior parte del lavoro che sono riuscito a trovare si concentra ovviamente sul rilevamento delle caratteristiche nelle immagini "normali".

Tuttavia, l'hardware Kinect fornisce (essenzialmente, una volta regolato) un valore di profondità di 11 bit per pixel.

Questa immagine di profondità contiene anche vari artefatti visivi dalle ombre proiettate attorno ai bordi degli oggetti (vedi ad esempio il forte bordo nero in questo video http://www.youtube.com/watch?v=-q8rRk8Iqww&feature=related ).

Mentre alcune tecniche tradizionali di visione artificiale (ad es. Rilevamento dei bordi) funzionano bene con questo, altre no, e sembra che ci siano poche informazioni in rete che ne discutono.

Come semplice esempio, l'uso del valore di profondità rende banale il rilevamento dell'orientamento di un blocco marker una volta individuato.

Quindi, qualcuno ha visto discussioni / documenti / ecc. Che coprono l'elaborazione di un'immagine di profondità per il rilevamento di funzionalità?

Qualcuno può raccomandare un buon algoritmo per il rilevamento di marcatori "di profondità" (efficacemente blocchi origami invece di marcatori b / n stampati)?

Quello che ho fatto finora è stata la sperimentazione ad hoc usando opencv per elaborare le immagini, ma non è abbastanza stabile o veloce.

Se si collega a un prodotto commerciale di visione artificiale senza alcun tipo di prova, si prega di indicare nella risposta il motivo per cui si ritiene che sia appropriato.


Ci sono tonnellate di documenti e programmi per questo. Spiacenti, non posso rispondere in modo più dettagliato, con larghezza di banda ridotta. Vedi l'app RGBDemo, include un riconoscitore di oggetti. Inoltre, PointCloud Library (PCL), ROS, OpenCV, per il software e presumibilmente Google Scholar per i documenti. Dici che OpenCV non è soddisfacente per te, ma PCL e RGBDemo potrebbero esserlo.

Non sto cercando un'implementazione di una demo che mostri il kinect, o alcune demo per PC che mostrino come generare un modello 3d da un kinect o un toolkit di elaborazione delle immagini (es. Opencv). Sto cercando algoritmi per il riconoscimento di funzionalità basati su immagini di profondità.

RGBDemo implementa quegli algoritmi. Leggi il codice o i riferimenti per il codice.

Risposte:


8

Il mio descrittore di funzionalità 2.5D / 3D preferito per la registrazione e il riconoscimento è l' immagine di spin (documento originale + maggiori dettagli nella tesi di dottorato e software disponibili dalla CMU).

Altri progressi recenti (tutti ricercabili on-line per algoritmi adeguati) includono: 3D-Sift, istogramma della funzione Fast Point, funzioni radiali allineate normali (NARF), descrittori del kernel di profondità. I metodi precedenti utilizzavano semplicemente le proprietà della superficie come la curvatura e i bordi per identificare le patch di regione.

Qual è la migliore? Dipende da cosa vuoi trovare, invarianza del punto di vista, disordine aggiuntivo, ecc.


7

Hai capito bene tutte le parole chiave, sono sorpreso che non hai trovato nessun articolo correlato mentre cercavi materiale.

Fortunatamente, ho accesso alla biblioteca digitale IEEE Xplore. Non ho bisogno di nessuno di questi algoritmi particolari prima, ma sembra molto interessante, quindi ecco alcuni risultati di una rapida ricerca che penso possano essere rilevanti (non giudicarli dai loro titoli, guarda i loro abstract):

Sfortunatamente, non penso che tu possa accedere a nessuno di questi documenti gratuitamente, almeno non tramite la libreria IEEE Xplore. Se non hai accesso, puoi probabilmente cavartela con Google scholar e ci sono alcuni database cartacei gratuiti là fuori (ho usato il database Mendeley quando non avevo ancora accesso IEEE). Inoltre, solo le parti su Google delle parti astratte o casuali del documento a volte producono alcuni risultati (potresti inciampare in una versione pre-pubblicata dell'articolo quasi finita).

Le query di ricerca che ho usato per trovare i documenti citati erano: immagine 3D , immagine di profondità , Kinect . Potresti anche voler avviare l' elaborazione quando cerchi le prime due query.

Spero che questo aiuti alcuni! Mi dispiace di non poter più approfondire l'argomento, sembra davvero interessante.



@mankoff solo dall'abstract, vedo solo che il lavoro si concentra sul tracciamento e sembra che si concentri sull'uso delle informazioni dirette con un rilevamento delle funzionalità insufficiente. Ma poi, ho appena letto l'abstract, quindi non ne sono sicuro.

Cercare su Google i titoli dei documenti è sufficiente per trovare PDF per molti di questi documenti. Un'altra buona fonte è CiteSeer: citeseerx.ist.psu.edu/index Grazie per l'elenco dei documenti!
Rethunk,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.