Motivo per le immagini quadrate nell'apprendimento profondo

La maggior parte dei modelli avanzati di deep learning come VGG, ResNet, ecc. Richiedono immagini quadrate come input, di solito con dimensioni pixel di $224x224$ .

C'è un motivo per cui l'input deve avere la stessa forma, oppure posso costruire un modello di convnet con dire anche $100x200$ (se voglio fare un riconoscimento facciale per esempio e ho immagini di ritratto)?

C'è un vantaggio maggiore con dimensioni dei pixel maggiori, diciamo $512x512$ ?

deep-learning image-classification image-recognition

— spore234
fonte

Non è necessario che le dimensioni specifiche dei pixel per le reti neurali convoluzionali funzionino normalmente. È probabile che i valori siano stati scelti per ragioni pragmatiche, ad esempio un compromesso tra l'utilizzo dei dettagli dell'immagine rispetto al numero di parametri e le dimensioni del set di allenamento richieste.

Inoltre, se i dati di origine hanno una gamma di diverse proporzioni, alcuni ritratti, alcuni paesaggi, con l'oggetto di destinazione generalmente al centro, prendere un ritaglio quadrato dal centro potrebbe essere un ragionevole compromesso.

Quando si aumentano le dimensioni dell'immagine in ingresso, si aumenterà anche la quantità di rumore e varianza che la rete dovrà gestire per elaborare quell'input. Ciò potrebbe significare più livelli, sia convoluzionali che in pool. Potrebbe anche significare che hai bisogno di più esempi di allenamento, e ovviamente ogni esempio di allenamento sarà più grande. Insieme, aumentano le risorse di calcolo necessarie per completare la formazione. Tuttavia, se riesci a superare questo requisito, è possibile che tu finisca con un modello più accurato, per qualsiasi attività in cui i pixel extra potrebbero fare la differenza.

Una possibile regola empirica per stabilire se si desidera una risoluzione più elevata è se, per l'obiettivo della propria rete, un esperto umano potesse utilizzare la risoluzione aggiuntiva e svolgere meglio l'attività. Questo potrebbe essere il caso dei sistemi di regressione, in cui la rete sta ricavando alcune quantità numeriche dall'immagine, ad esempio per il riconoscimento facciale che estrae la biometria come la distanza tra le caratteristiche facciali. Potrebbe anche essere desiderabile per le attività di elaborazione delle immagini come il mascheramento automatico - i risultati più recenti per queste attività potrebbero comunque avere una risoluzione inferiore rispetto alle immagini commerciali in cui vorremmo applicarle nella pratica.

— Neil Slater
fonte