Una rete neurale convoluzionale può prendere come immagini di input di dimensioni diverse?

Sto lavorando su una rete di convoluzione per il riconoscimento delle immagini e mi chiedevo se potevo inserire immagini di dimensioni diverse (non enormemente diverse).

Su questo progetto: https://github.com/harvardnlp/im2markup

Dicono:

and group images of similar sizes to facilitate batching

Quindi, anche dopo la preelaborazione, le immagini sono ancora di dimensioni diverse, il che ha senso poiché non ritagliano una parte della formula.

Ci sono problemi nell'uso di dimensioni diverse? In caso affermativo, come dovrei affrontare questo problema (poiché le formule non si adattano tutte alla stessa dimensione dell'immagine)?

Qualsiasi input sarà molto apprezzato

neural-networks conv-neural-network computer-vision

— Graham Slick
fonte

Risposte:

Ci sono problemi nell'uso di dimensioni diverse? In caso affermativo, come dovrei affrontare questo problema (poiché le formule non si adattano tutte alla stessa dimensione dell'immagine)?

Dipende dall'architettura della rete neurale. Alcune architetture presuppongono che tutte le immagini abbiano la stessa dimensione, altre (come im2markup) non assumono tale presupposto. Il fatto che im2markup consenta immagini di diverse larghezze non comporta alcun problema, dal momento che utilizzano un RNN che esegue la scansione dell'output del livello di convoluzione.

raggruppare immagini di dimensioni simili per facilitare il raggruppamento

Questo è in genere per accelerare le cose evitando di aggiungere troppa imbottitura.

— Franck Dernoncourt
fonte

Hai considerato semplicemente il ridimensionamento delle immagini nella fase di preelaborazione? Intuitivamente, un essere umano di fronte a un'immagine in scala sarà ancora in grado di riconoscere le stesse caratteristiche e gli stessi oggetti, e non vi è alcuna ragione ovvia per cui una CNN non sia in grado di fare la stessa cosa su un'immagine in scala.

Penso che ridimensionare le immagini per avere le stesse dimensioni potrebbe essere più facile che provare a fare una rete convoluzionale per gestire immagini di dimensioni diverse, che penso sarebbero lassù nella terra della "ricerca originale". Puoi certamente fare in modo che gli strati conv di un convnet gestiscano immagini di qualsiasi dimensione, senza riqualificarli. Tuttavia, l'output di una convnet sarà in genere una sorta di classificatore, e probabilmente funzionerà meno bene, se si alimentano input di dimensioni diverse, immagino.

Un altro approccio sarebbe quello di riempire le immagini con zeri. Ma immagina intuitivamente che stai guardando una piccola foto, imbottita con bordi neri, oppure puoi ingrandire, in modo che sottenda un arco ragionevole nel tuo campo visivo. Quale faresti? Quale è più facile da vedere?

— Hugh Perkins
fonte

il ridimensionamento non riduce la qualità dell'immagine introducendo errori e deformando le funzioni, se già l'immagine ha una bassa risoluzione, il ridimensionamento ridurrà la qualità dell'immagine fino a un punto in cui persino gli umani non possono riconoscerlo facilmente ma l'immagine non graduata potrebbe essere riconoscibile.

— Vikram Bhat,

hai un esempio di un'immagine che è riconoscibile per l'uomo, a meno che non applichi il ridimensionamento e poi diventi irriconoscibile?

— Hugh Perkins,

Mi chiedo anche questo. Quando provo ad usare un modello addestrato esistente di keras, sto pensando che potrei ingrandire l'immagine per adattarla all'interfaccia di InceptionV3 (299x299 da 32x32 -> CIFAR10). Penso che il ridimensionamento perda qualità. Ma penso che il modo appropriato di farlo sarebbe quello di escludere l'output FC e specificare la forma di input su 32x32. Penso che ciò richiederebbe una riqualificazione, poiché i pesi del livello di input sarebbero casuali.

— Joey Carson,

Il ridimensionamento riduce la qualità ma aiuta la generalizzazione: ci sono molti documenti che hanno notato un notevole guadagno nel riconoscimento quando è stata applicata la sfocatura di Gauss prima dell'allenamento. Intuitivamente hai campioni di input più diversi che assomigliano a una singola immagine "sfocata", rendendo quindi la classificazione più solida.

— Matthieu,