Risposte:
Funzionalità come il sole, le nuvole e altre cose molto distanti avrebbero una stima della distanza di inf. Ciò può causare molti problemi. Per aggirarlo, si stima l'inverso della distanza. Tutti gli inf diventano zeri che tendono a causare meno problemi.
La parametrizzazione della profondità inversa rappresenta la distanza di un punto di riferimento, d, dalla telecamera esattamente come si dice, proporzionale a 1 / d all'interno dell'algoritmo di stima. Il razionale alla base dell'approccio è che, filtrando approcci come il filtro Kalman esteso (EKF) si suppone che l'errore associato alle funzionalità sia gaussiano.
In un'impostazione dell'odometria visiva, la profondità di un punto di riferimento viene stimata monitorando le caratteristiche associate su alcune serie di frame e quindi utilizzando la parallasse indotta. Tuttavia, per le funzioni distanti (relative allo spostamento della telecamera) la parallasse risultante sarà piccola, e soprattutto la distribuzione dell'errore associata alla profondità è fortemente raggiunta vicino alla profondità minima con una coda lunga (cioè non è ben modellata tramite un Distribuzione gaussiana). Per vedere un esempio, fare riferimento alla Fig. 7 nel documento di Civera et al. (Menzionato da @freakpatrol) o alla Fig. 4 di Fallon et al. ICRA 2012 .
Rappresentando la profondità inversa (cioè 1 / d) questo errore diventa gaussiano. Inoltre consente di rappresentare punti molto distanti, ad esempio punti all'infinito.
Il documento di Davison che introduce il metodo è abbastanza facile da capire:
Parametrizzazione inversa della profondità per SLAM monoculare di Javier Civera, Andrew J. Davison e JM Martınez Montiel DOI: 10.1109 / TRO.2008.2003276
Oltre alle ragioni menzionate in altre risposte sul condizionamento numerico della profondità inversa, una delle ragioni principali per cui questo termine appare nella letteratura sull'odometria visivamente specifica è il modo in cui le profondità sono calcolate dalla visione stereo: dopo la rettifica, le informazioni 3D sono dedotte da la distanza in X tra il punto in cui appare un punto nelle immagini delle due telecamere.