Il termine "invariante di scala" significa quanto segue qui. Supponiamo che tu abbia l'immagine I e che hai rilevato una funzione (nota anche come punto di interesse) f in una posizione (x, y) e in alcuni livelli di scala s . Ora supponiamo che tu abbia un'immagine I ' , che è una versione ridimensionata di I (downsampled, per esempio). Quindi, se il rilevatore di funzionalità è invariante per la scala, dovresti essere in grado di rilevare la funzione corrispondente f ' in I' nella posizione corrispondente (x ', y') e la scala s corrispondente , dove (x, y, s) e (x ', y', s ') sono correlati dalla trasformazione di ridimensionamento appropriata.
In altre parole, se il rilevatore invariante della scala ha rilevato un punto caratteristica corrispondente al volto di qualcuno e quindi si ingrandisce o si riduce con la fotocamera sulla stessa scena, è comunque necessario rilevare un punto caratteristica su quel volto.
Naturalmente, vorrai anche un "descrittore di funzionalità" che ti consenta di abbinare le due funzionalità, che è esattamente ciò che ti offre SIFT.
Quindi, a rischio di confondervi ulteriormente, ci sono due cose che sono invarianti di scala qui. Uno è il rilevatore di punti di interesse DoG, che è invariante per la scala, perché rileva un particolare tipo di caratteristiche dell'immagine (BLOB) indipendentemente dalla loro scala. In altre parole, il rilevatore DoG rileva macchie di qualsiasi dimensione. L'altra cosa invariante alla scala è il descrittore di caratteristiche, che è un istogramma dell'orientamento del gradiente, che rimane più o meno simile per la stessa caratteristica dell'immagine nonostante un cambiamento di scala.
A proposito, la differenza di gaussiani è usata qui come approssimazione al filtro laplaciano di gaussiani.