Qual è la storia dietro la storia del descrittore SIFT?


9

Quello che segue è tratto da Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Un approccio ovvio sarebbe quello di campionare le intensità dell'immagine locale attorno al punto chiave alla scala appropriata e di abbinarle usando una misura di correlazione normalizzata. Tuttavia, la semplice correlazione delle patch di immagine è altamente sensibile ai cambiamenti che causano un'errata registrazione dei campioni, come un cambiamento del punto di vista finale o 3D o deformazioni non rigide. Un approccio migliore è stato dimostrato da Edelman, Intrator e Poggio (1997). La loro rappresentazione proposta era basata su un modello di visione biologica, in particolare dei neuroni complessi nella corteccia visiva primaria.Questi neuroni complessi rispondono a un gradiente con un particolare orientamento e frequenza spaziale, ma la posizione del gradiente sulla retina può spostarsi su un piccolo campo ricettivo piuttosto che essere localizzato con precisione. Edelman et al. ipotizzato che la funzione di questi neuroni complessi fosse quella di consentire la corrispondenza e il riconoscimento di oggetti 3D da una serie di punti di vista.

Sto cercando di capire il descrittore SIFT. Capisco la fase precedente (rilevatore di punti chiave).

Non so perché sia ​​implementato in questo modo. Voglio conoscere la storia dietro la storia.

Risposte:


1

Il descrittore ottenuto da a 64×64 punto di vicinato di interesse alla scala ottenuta.

Dividerà questo 64×64 regione a 16×16 patch che portano a 16 patch.

Per ogni patch calcoliamo i gradienti e quindi troviamo la direzione dominante dei gradienti (che ha alcuni dettagli), quindi prendendo la direzione dominante come direzione di riferimento divideremo i 360 gradi in 8 regioni angolari ognuna ha 45 gradi, quindi sommiamo il magnitudine di ciascun gradiente che si trova in ciascuna regione angolare.

Potremmo considerarlo come distribuzione o istogramma a 8 bin della direzione del gradiente (considerando i gradienti forti ha più informazioni che dobbiamo usare con un peso maggiore nel calcolo della distribuzione, quindi usiamo la loro grandezza come il loro peso che porta a sommare sulla loro grandezza). Quindi normalizzeremo questi istogrammi.

Alla fine di ogni patch abbiamo un istogramma di 8 bin e abbiamo 16 patch che portano a un descrittore di 128 numeri.

Trovando la direzione dominante, anche il nostro descrittore diventa invariante alla rotazione. Usando i gradienti il ​​nostro descrittore diventa invariante rispetto all'illuminazione di base e normalizzando gli istogrammi ottenuti il ​​nostro descrittore diventa invariante rispetto al contrasto dell'immagine.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.