Il significato di quella formula è davvero abbastanza semplice. Immagina di prendere due piccole aree della stessa dimensione di un'immagine, quella blu e quella rossa:
La funzione finestra è uguale a 0 all'esterno del rettangolo rosso (per semplicità, possiamo supporre che la finestra sia semplicemente costante all'interno del rettangolo rosso). Quindi la funzione finestra seleziona i pixel che si desidera guardare e assegna pesi relativi a ciascun pixel. (La più comune è la finestra gaussiana, perché è simmetrica in senso rotazionale, efficiente per calcolare ed enfatizzare i pixel vicino al centro della finestra.) Il rettangolo blu viene spostato di (u, v).
Successivamente si calcola la somma della differenza quadrata tra le parti dell'immagine contrassegnate in rosso e blu, ovvero si sottraggono pixel per pixel, si quadrano le differenze e si somma il risultato (assumendo, per semplicità, che la finestra = 1 nell'area che stiamo osservando a). Questo ti dà un numero per ogni possibile (u, v) -> E (u, v).
Vediamo cosa succede se lo calcoliamo per valori diversi di u / v:
Per prima cosa mantieni v = 0:
Ciò non dovrebbe sorprendere: la differenza tra le parti dell'immagine è minima quando l'offset (u, v) tra loro è 0. Man mano che si aumenta la distanza tra le due patch, aumenta anche la somma delle differenze al quadrato.
Mantenere u = 0:
La trama è simile, ma la somma delle differenze al quadrato tra le due parti dell'immagine è molto più piccola quando si sposta il rettangolo blu nella direzione del bordo.
Un grafico completo di E (u, v) è simile al seguente:
La trama sembra un po 'un "canyon": c'è solo una piccola differenza se si sposta l'immagine nella direzione del canyon. Questo perché questa patch di immagine ha un orientamento dominante (verticale).
Possiamo fare lo stesso per una diversa patch di immagine:
Qui, la trama di E (u, v) sembra diversa:
Non importa in che modo si sposta la patch, sembra sempre diversa.
Quindi la forma della funzione E (u, v) ci dice qualcosa sulla patch dell'immagine
- se E (u, v) è vicino a 0 ovunque, non c'è trama nella patch dell'immagine che stai guardando
- se E (u, v) è "a forma di canyon", la patch ha un orientamento dominante (questo potrebbe essere un bordo o una trama)
- se E (u, v) è "a forma di cono", la patch ha trama, ma nessun orientamento dominante. Questo è il tipo di patch che un rilevatore d'angolo sta cercando.
Molti riferimenti dicono che è la grandezza con cui la finestra 'w' si è spostata ... quindi di quanto è spostata la finestra? Un pixel ... Due pixel?
Normalmente, non si calcola affatto E (u, v). Sei interessato solo alla sua forma in prossimità di (u, v) = (0,0). Quindi vuoi solo l'espansione di Taylor di E (u, v) vicino a (0,0), che ne descrive completamente la "forma".
La somma delle posizioni dei pixel è coperta dalla finestra?
Matematicamente parlando, è più elegante lasciare che la somma si estenda su tutti i pixel. In pratica, non ha senso sommare i pixel in cui la finestra è 0.