Ottime risposte già, vorrei solo aggiungere alcune altre cose che dovresti prendere in considerazione. Come già menzionato hardlib e Goufalite, il modo per farlo è trigonometrico. Ho disegnato una rappresentazione 2-d della videocamera e dell'oggetto IoT:
Come puoi vedere, il campo visivo della telecamera sarà più grande dell'oggetto - se non a distanza ravvicinata, quando l'oggetto si sposta più lontano.
Ora, si potrebbe desiderare la fotocamera sempre centrato sull'oggetto. In tal caso, puoi semplicemente prendere i calcoli a cui fa riferimento hardlib:
ϴ = arctan(y/x)
... che sarà l'angolo in senso antiorario dall'asse x, per convenzione. Avrai anche bisogno dell'angolo lontano dal livello:
α = arctan(z / ((y^2+x^2)^1/2))
Ovviamente, dovrai calcolare in base alla posizione della telecamera all'origine in tutti e tre gli assi.
D'altro canto, potresti preferire non far muovere la videocamera più del necessario, ovvero far muovere la videocamera solo quando l'oggetto sembra stia per uscire dalla cornice. In tal caso, probabilmente vorrai una variabile di "pressione" che aumenti la probabilità che la videocamera cambi l'angolazione in base alla vicinanza dell'oggetto al bordo dell'inquadratura.
Se segui quel percorso, dovrai conoscere l'angolo del campo visivo della videocamera in entrambi i campi visivi, in modo da poter determinare dove l'oggetto viene confrontato con il campo visivo della videocamera.