Ho oltre 10000 immagini che circa 2000 sono duplicate in altri formati (come in JPEG, PNG, GIF). Entrambi questi numeri aumentano ogni giorno. Devo eliminare quei duplicati e per questo devo sapere prima come trovarli.
Il mio primo pensiero è stato quello di controllare i pixel delle immagini e trovare altre immagini che abbiano gli stessi pixel colorati nelle stesse coordinate. Ma questa opzione non funziona sempre. Diciamo che cerco un duplicato. Per quanto riguarda l'oggetto ricercabile, scelgo un file PNG a 8 bit. Troverà tutti i duplicati di quell'immagine, ma solo il PNG a 8 bit, a volte GIF a 8 bit e raramente JPEG (a causa delle immagini algoritmiche suppongo?).
Il mio secondo pensiero è stato quello di duplicare tutte quelle immagini e ricolorarle in una rigorosa tavolozza di due colori (diciamo bianco e nero) e fare la stessa scansione di cui sopra. Ancora una volta l'immagine JPEG non è simile al 100% al formato PNG o GIF (lo stesso motivo di cui sopra?).
Il terzo pensiero era di ridurre la percentuale di quanto l'immagine deve avere familiarità e aumentare la quantità di colori che possono variare, con conseguente rimozione indesiderata dell'immagine ...
qualche idea?