Per fare in modo che un computer rilevi e fornisca il rettangolo di selezione o il cerchio attorno a un'area di attenzione visiva in un'immagine, è necessario determinare le basi dell'attenzione. Quindi è possibile selezionare il metodo per fare in modo che il sistema informatico faccia le scelte in base a tale base. Cominciando dall'inizio.
È un personaggio volto o corpo o gioco che deve essere l'oggetto di interesse? Sarà l'oggetto più dinamico nel frame in termini di movimento? Se è una persona, è sempre la stessa persona? In entrambi i casi, il loro viso sarà esposto all'angolazione della telecamera? Ci sono solo scatti fissi o le immagini saranno cornici in un film?
Una volta che sai come distingueresti l'oggetto che richiede attenzione da altri oggetti e sfondo, puoi iniziare a vedere come un computer potrebbe simulare quel riconoscimento. Durante l'addestramento di una rete profonda che coinvolge kernel di convoluzione (chiamato CNN o rete neurale convoluzionale) e possibilmente celle di memoria a lungo termine (LSTM), ci sono fasi per il riconoscimento.
Di solito i bordi delle cose vengono rilevati per primi. Nei filmati, il movimento dei bordi viene monitorato come caratteristiche dell'immagine. Gli elementi nell'immagine che identificano che tipo di oggetto sono gli oggetti è il secondo. Ad esempio, un giocattolo potrebbe essere rilevato dal modo in cui la plastica riflette la luce e dai tipi e forme di colore comuni ai giocattoli. Un viso potrebbe essere prima riconosciuto identificando occhi, naso, bocca, mento e orecchie.
Dopo aver identificato le parti, è possibile identificare interi oggetti attraverso un'altra fase dell'estrazione delle feature. I sistemi di visione seguono gli stessi principi base di riconoscimento utilizzati dal nostro sistema visivo umano.
Esistono molti framework e librerie per aiutare con questi compiti, ma per usarli è importante avere un quadro generale del processo e chiarire che cosa distingue gli oggetti importanti da altri oggetti che possono essere simili o completamente diverso in modo che l'attenzione possa essere focalizzata nel modo desiderato.
Una volta che hai (hm i n,vm i n) ; (hm a x,vm a x), le coordinate dei due angoli dell'operazione di ritaglio, che sarebbe l'obiettivo della formazione di rete, quindi qualsiasi libreria di manipolazione delle immagini potrebbe gestire il ritaglio.
Questo è lo stato dell'arte. Non esiste un SDK di alto livello che consenta di comandare al computer di trovare l'elemento più importante nel frame senza alcun chiarimento di cosa si intenda e operazioni di formazione per insegnare al software a trovare ciò su cui hai deciso di essere importante in base alcuni criteri. Non ancora.