Il formato dell'immagine (png, jpg, gif) influenza il modo in cui viene addestrata una rete neurale di riconoscimento delle immagini?


23

Sono consapevole che ci sono stati molti progressi riguardo al riconoscimento delle immagini, alla classificazione delle immagini, ecc. Con reti neurali profonde e convoluzionali.

Ma se alleno una rete su, per esempio, immagini PNG, funzionerà solo con immagini così codificate? Quali altre proprietà dell'immagine influiscono su questo? (canale alfa, interlacciamento, risoluzione, ecc.)


2
Non ho abbastanza esperienza con le statistiche delle immagini per dare una risposta sicura, ma mi aspetto che modelli diversi utilizzino schemi completamente diversi per codificare le immagini in funzionalità, alcune delle quali saranno influenzate da perdita di compressione JPEG, canali alfa, ecc. . e alcuni dei quali no, con i dettagli specifici del modello. So che esistono entrambi i modelli che trattano ogni pixel come una funzionalità e modelli che incidono le immagini in regioni e utilizzano le proprietà della regione come funzionalità.
Kodiologo il

Risposte:


20

La risposta breve è NO .

Il formato in cui l'immagine è codificata ha a che fare con la sua qualità. Le reti neurali sono essenzialmente modelli matematici che eseguono molte e molte operazioni (moltiplicazioni di matrici, aggiunte di elementi e funzioni di mappatura). Una rete neurale vede un Tensore come suo input (cioè un array multidimensionale). La sua forma di solito è 4-D (numero di immagini per lotto, altezza dell'immagine, larghezza dell'immagine, numero di canali).

Diversi formati di immagine (specialmente quelli con perdita di dati) possono produrre matrici di input diverse ma le reti neurali in senso stretto vedono le matrici nei loro input e NON le immagini.


4

Mentre la risposta di Djib2011 è corretta, capisco la tua domanda come più focalizzata su come la qualità / proprietà dell'immagine influenza l'apprendimento della rete neurale in generale. C'è solo poca ricerca su questo argomento (afaik), ma in futuro potrebbero esserci ulteriori ricerche su questo argomento. Ho trovato solo questo articolo su di esso. Il problema al momento è che questo è più un problema che appare nelle applicazioni pratiche e meno in un campo di ricerca accademica. Ricordo un podcast attuale in cui i ricercatori hanno osservato che anche la fotocamera utilizzata per scattare una foto potrebbe avere un grande effetto.


Potresti indicarmi il podcast, per favore?
David Ernst,

È un episodio di un'ora di "macchine parlanti", in cui discutono con un ricercatore che pratica l'apprendimento automatico in Africa (ca. metà-fine) Link iTunes: itunes.apple.com/de/podcast/talking-machines/…
Bobipuegi,

2

Questo è un riff sulla prima risposta di Djib2011. La risposta breve deve essere no. Più lungo: in primo luogo le foto vengono sempre codificate come tensore come segue. Un'immagine è un numero di pixel. Se si ritiene che la foto abbia m righe e n colonne, ciascun pixel viene specificato dalla posizione della riga e della colonna, ovvero dalla coppia (m, n). In particolare ci sono m * n pixel che è molto grande anche per foto "piccole". Ogni pixel della foto è codificato da un numero compreso tra zero e uno (intensità del nero) se la foto è in bianco e nero. È codificato da tre numeri (intensità RGB) se la foto è a colori. Quindi si finisce con un tensore che è o 1xmxn o 3xmxn. Il riconoscimento delle immagini avviene tramite CNN che, sfruttando il fatto che le foto non cambiano molto da pixel a pixel, si comprimei dati tramite filtri e pooling. Quindi il punto è che il lavoro della CNN comprime il numero incredibilmente grande di punti dati (o caratteristiche) di una foto in un numero inferiore di valori. Quindi, qualunque sia il formato con cui inizi, la CNN inizia comprimendo ulteriormente i dati della foto. Da qui l'indipendenza di per sé dalla dimensione della rappresentazione della foto.
Tuttavia, una CNN richiederà che tutte le immagini che la attraversano abbiano tutte le stesse dimensioni. Quindi c'è quella dipendenza che cambierà a seconda di come viene salvata l'immagine. Inoltre, nella misura in cui formati di file diversi della stessa dimensione producono valori diversi per i loro tensori, non è possibile utilizzare lo stesso modello CNN per identificare le foto memorizzate con metodi diversi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.