La maggior parte dei modelli avanzati di deep learning come VGG, ResNet, ecc. Richiedono immagini quadrate come input, di solito con dimensioni pixel di .
C'è un motivo per cui l'input deve avere la stessa forma, oppure posso costruire un modello di convnet con dire anche (se voglio fare un riconoscimento facciale per esempio e ho immagini di ritratto)?
C'è un vantaggio maggiore con dimensioni dei pixel maggiori, diciamo ?