Quanto sarebbe possibile classificare la trama di un'immagine usando le caratteristiche di una discreta trasformazione del coseno? La "classificazione delle trame dct" su Google trova solo un articolo accademico su questo argomento, usando una rete neurale.
Per la mia applicazione, ho un vasto corpus di immagini etichettate, in cui l'intera immagine ha una consistenza coerente (ad esempio scatti ravvicinati di una coperta, corteccia di un albero, un campo erboso, ecc.).
Ispirato da una risposta a una domanda precedente , stavo considerando il seguente approccio:
- dividere ogni immagine in blocchi NxN di pixel
- prendere il DCT di ciascun blocco
- appiattire ciascun DCT in un array 1xM e inviarlo a un algoritmo di clustering K-Means e ottenere l'etichetta del cluster per ciascun DCT
- calcola un istogramma di etichette di raggruppamento per ogni immagine contando ciascuna etichetta per immagine da # 3
- addestrare un classificatore SVM alimentandolo con un set di [(istogramma, etichetta immagine)]
Quanto funzionerebbe bene? Ho implementato un sistema simile, utilizzando le funzionalità estratte tramite gli algoritmi SIFT / SURF, ma sono stato in grado di ottenere solo una precisione del 60% circa.
In quali altri modi posso usare il DCT per classificare le trame?