Sto cercando di trovare un metodo per rilevare le persone che usano solo una telecamera a 3 metri dal suolo. Questa è una cornice restituita dalla fotocamera:
AGGIORNAMENTO: test video -> http://dl.dropbox.com/u/5576334/top_head_shadow.avi
Per fare ciò, per prima cosa capisco che devo eseguire una segmentazione in primo piano. Questa è la parte facile.
Con la maschera in primo piano, sono in grado di eseguire semplici operazioni come Hough per trasformare i cerchi, ma in questo modo rileva solo il 60% delle teste, inclusi molti falsi positivi.
Potrei usare altre semplici tecniche come la segmentazione del colore, ma ho scoperto che le teste delle persone sono molto diverse viste dall'alto a causa della loro acconciatura, colore, quantità di capelli, ...
Un'altra opzione che ho a riguardo è la possibilità di utilizzare descrittori HOG o funzionalità simili a Haar, ma avrei bisogno di un ampio database di persone viste dall'alto per addestrare i modelli. Non ho trovato niente del genere.
Ho pensato che questo sarebbe stato un problema molto ricorrente, ma non riesco a trovarlo molto in letteratura o in Internet. Qualsiasi aiuto per risolvere questo compito sarà apprezzato :-)
AGGIORNAMENTO: per ulteriori informazioni, l'obiettivo è implementare alcuni metodi generici per effettuare il monitoraggio del flusso pedonale. Il primo prototipo sarà testato in un centro commerciale.