Sei sulla strada giusta.
Invarianza significa che puoi riconoscere un oggetto come oggetto, anche quando il suo aspetto varia in qualche modo. Questa è generalmente una buona cosa, perché preserva l'identità, la categoria (ecc.) Dell'oggetto attraverso i cambiamenti nelle specifiche dell'input visivo, come le posizioni relative dello spettatore / telecamera e l'oggetto.
L'immagine in basso contiene molte viste della stessa statua. Tu (e reti neurali ben addestrate) puoi riconoscere che lo stesso oggetto appare in ogni immagine, anche se i valori dei pixel effettivi sono piuttosto diversi.
Si noti che la traduzione qui ha un significato specifico nella visione, mutuato dalla geometria. Non si riferisce a nessun tipo di conversione, a differenza di una traduzione dal francese all'inglese o tra formati di file. Invece, significa che ogni punto / pixel nell'immagine è stato spostato della stessa quantità nella stessa direzione. In alternativa, puoi pensare all'origine come se fosse stata spostata di una quantità uguale nella direzione opposta. Ad esempio, possiamo generare la seconda e la terza immagine nella prima riga dalla prima spostando ciascun pixel di 50 o 100 pixel a destra.
Si può dimostrare che l'operatore di convoluzione si sposta rispetto alla traduzione. Se contrai
f con
g , non importa se traduci l'output contorto
f∗ g , o se traduci prima
f o
g , quindi contrai. Wikipedia ha un
po 'di più .
Un approccio al riconoscimento dell'oggetto invariante alla traduzione è quello di prendere un "modello" dell'oggetto e di contorcerlo con ogni possibile posizione dell'oggetto nell'immagine. Se si ottiene una risposta di grandi dimensioni in una posizione, viene suggerito che un oggetto simile al modello si trova in quella posizione. Questo approccio viene spesso chiamato corrispondenza dei modelli .
Invarianza vs. Equivarianza
La risposta di Santanu_Pattanayak ( qui ) sottolinea che esiste una differenza tra l' invarianza della traduzione e l' equivalenza della traduzione . L'invarianza della traduzione significa che il sistema produce esattamente la stessa risposta, indipendentemente da come viene spostato il suo input. Ad esempio, un rilevatore di volti potrebbe riportare "FACE FOUND" per tutte e tre le immagini nella riga superiore. Equivarianza significa che il sistema funziona ugualmente bene in tutte le posizioni, ma la sua risposta cambia con la posizione del bersaglio. Ad esempio, una mappa di calore di "face-iness" avrebbe dossi simili a sinistra, al centro e a destra quando elabora la prima fila di immagini.
Questa è talvolta una distinzione importante, ma molte persone chiamano entrambi i fenomeni "invarianza", soprattutto perché è solitamente banale convertire una risposta equivariante in una invariante - ignorare tutte le informazioni sulla posizione).