Definiamo un'architettura a collo di bottiglia come il tipo trovato nel documento ResNet in cui [due strati conv. 3x3] sono sostituiti da [un conv. 1x1, un conv. 3x3 e un altro livello conv. 1x1].
Capisco che gli strati conv di 1x1 sono usati come una forma di riduzione dimensionale (e restauro), che è spiegata in un altro post . Tuttavia, non sono chiaro il motivo per cui questa struttura sia efficace quanto il layout originale.
Alcune buone spiegazioni potrebbero includere: quale lunghezza del passo viene utilizzata e a quali livelli? Quali sono le dimensioni di input e output di esempio di ciascun modulo? Come sono rappresentate le mappe delle caratteristiche 56x56 nel diagramma sopra? Il 64-d fa riferimento al numero di filtri, perché differisce dai filtri 256-d? Quanti pesi o FLOP vengono utilizzati per ogni strato?
Ogni discussione è molto apprezzata!