Usa AI o Neural Network per il rilevamento del logo


10

Sto cercando di rilevare il logo di un canale TV all'interno di un file video, quindi semplicemente dato un .mp4video di input , rilevare se ha quel logo presente in un frame specifico, dire il primo frame o no.

Abbiamo quel logo in anticipo (anche se potrebbe non essere la stessa dimensione% 100) e la posizione è sempre fissa.

Ho già un approccio basato sul pattern matching. Ma ciò richiede che il modello sia% 100 della stessa dimensione. Vorrei utilizzare Deep Learning e Neural Network per raggiungere questo obiettivo. Come lo posso fare? Credo che la CNN possa avere una maggiore efficienza?


1
Benvenuto in AI! Ottimo soggetto
DukeZhou

1
@DukeZhou Tnx! Spero di ottenere risposte adeguate con i puntatori ad alcuni codici di esempio.
Tina J,

Risposte:


5

Per eseguire il riconoscimento delle immagini devi trovare un modo per rappresentare un'immagine con determinate caratteristiche.

Una delle caratteristiche distintive di un buon algoritmo di riconoscimento delle immagini è la sua capacità di rilevare regioni salienti, ovvero regioni che contengono il maggior numero di informazioni

Al momento c'è molta attenzione sull'apprendimento profondo per la classificazione delle immagini basata sui contenuti. Puoi ottenere risultati decenti implementando il deep learning con tre o più livelli di CNN in cui ogni livello è responsabile dell'estrazione di una o più funzionalità dell'immagine.


Grazie. Io non sono un ragazzo della CNN. Ma c'è qualche puntatore a un codice sorgente che ha dato un'immagine logo, in grado di rilevare se esiste o no?
Tina J,

3
Ehi, dai un'occhiata a DeepLogo su Github di Satoj Kovic. È scritto su Python e utilizza CNN per riconoscere il logo del marchio. Ho pubblicato il link qui sotto. Saluti. github.com/satojkovic/DeepLogo
Seth Simba il

3

Poiché si tratta di input video e i loghi sono in genere fissi perché sovrapposti ai frame live o registrati da hardware o software, l'attività non è difficile. I loghi di solito hanno anche tavolozze di colori limitate e bordi nitidi. Le caratteristiche dei loro caratteri, quando scrivono parole o acronimi, sono generalmente coerenti. Queste sono generalità che possono essere sfruttate nell'apprendimento profondo.

Come con l'altra domanda simile posta da questo autore, una combinazione di livelli LSTM e CNN può essere addestrata per trovare e isolare il logo. Con alcuni trucchi per l'immagine, l'immagine dietro il logo può anche essere ricostruita con una ragionevole accuratezza e affidabilità dai pixel intorno al logo attraverso un insieme simile di tecniche di apprendimento.

Questi sono alcuni punti di partenza per lo sviluppo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.