Quello che segue è tratto da Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Un approccio ovvio sarebbe quello di campionare le intensità dell'immagine locale attorno al punto chiave alla scala appropriata e di abbinarle usando una misura di correlazione normalizzata. Tuttavia, la semplice correlazione delle patch di immagine è altamente sensibile ai cambiamenti che causano un'errata registrazione dei campioni, come un cambiamento del punto di vista finale o 3D o deformazioni non rigide. Un approccio migliore è stato dimostrato da Edelman, Intrator e Poggio (1997). La loro rappresentazione proposta era basata su un modello di visione biologica, in particolare dei neuroni complessi nella corteccia visiva primaria.Questi neuroni complessi rispondono a un gradiente con un particolare orientamento e frequenza spaziale, ma la posizione del gradiente sulla retina può spostarsi su un piccolo campo ricettivo piuttosto che essere localizzato con precisione. Edelman et al. ipotizzato che la funzione di questi neuroni complessi fosse quella di consentire la corrispondenza e il riconoscimento di oggetti 3D da una serie di punti di vista.
Sto cercando di capire il descrittore SIFT. Capisco la fase precedente (rilevatore di punti chiave).
Non so perché sia implementato in questo modo. Voglio conoscere la storia dietro la storia.