Qual è la differenza tra Inception v2 e Inception v3?


18

L'articolo che approfondisce le convoluzioni descrive GoogleNet che contiene i moduli di inizio originali:

inserisci qui la descrizione dell'immagine

La modifica a Inception v2 è stata che hanno sostituito le convoluzioni 5x5 con due successive convoluzioni 3x3 e applicato il pool:

inserisci qui la descrizione dell'immagine

Qual è la differenza tra Inception v2 e Inception v3?


È semplicemente normalizzazione batch? O Inception v2 ha già la normalizzazione batch?
Martin Thoma,

github.com/SKKSaikia/CNN-GoogLeNet Questo repository contiene tutte le versioni di GoogLeNet e la loro differenza. Provaci.
Amartya Ranjan Saikia,

Risposte:


22

Nell'articolo Batch Normalization , Sergey et al, 2015. ha proposto l' architettura Inception-v1 che è una variante di GoogleNet nel documento Andando più in profondità con le convoluzioni , e nel frattempo hanno introdotto la normalizzazione batch a Inception (BN-Inception).

La principale differenza rispetto alla rete descritta in (Szegedy et al., 2014) è che gli strati convoluzionali 5x5 sono sostituiti da due strati consecutivi di convoluzioni 3x3 con un massimo di 128 filtri.

E nell'articolo Rethinking the Inception Architecture for Computer Vision , gli autori hanno proposto Inception-v2 e Inception-v3.

In Inception-v2 , hanno introdotto la fattorizzazione (fattorizzano le convoluzioni in convoluzioni più piccole) e alcuni piccoli cambiamenti in Inception-v1.

Si noti che abbiamo scomposto la tradizionale convoluzione 7x7 in tre convoluzioni 3x3

Per quanto riguarda Inception-v3 , è una variante di Inception-v2 che aggiunge BN-ausiliario.

BN ausiliario si riferisce alla versione in cui anche lo strato completamente collegato del classificatore ausiliario è normalizzato, non solo convoluzioni. Ci riferiamo al modello [Inception-v2 + BN ausiliare] come Inception-v3.


3

oltre a quello che è stato citato da daoliker

inception v2 utilizzava la convoluzione separabile come primo strato di profondità 64

citazione dalla carta

Il nostro modello ha impiegato la convoluzione separabile con il moltiplicatore di profondità 8 sul primo strato convoluzionale. Ciò riduce il costo computazionale aumentando il consumo di memoria durante l'allenamento.

perché questo è importante? perché è stato abbandonato in v3 e v4 e inception resnet, ma reintrodotto e utilizzato pesantemente in mobilenet in seguito.


1

La risposta può essere trovata nel documento Andare più in profondità con le evoluzioni: https://arxiv.org/pdf/1512.00567v3.pdf

Controlla la tabella 3. Inception v2 è l'architettura descritta nel documento Andare più in profondità con le convoluzioni. Inception v3 è la stessa architettura (modifiche minori) con algoritmo di allenamento diverso (RMSprop, regolarizzatore di levigatura etichette, aggiunta di una testa ausiliaria con norma batch per migliorare l'allenamento, ecc.).


1

In realtà, le risposte sopra sembrano essere sbagliate. In effetti, è stato un gran casino con la denominazione. Tuttavia, sembra che sia stato risolto nel documento che introduce Inception-v4 (vedi: "Inception-v4, Inception-ResNet e l'impatto delle connessioni residue sull'apprendimento"):

L'architettura convoluzionale profonda di Inception è stata introdotta come GoogLeNet in (Szegedy et al. 2015a), qui chiamata Inception-v1. Successivamente l'architettura di Inception è stata perfezionata in vari modi, prima con l'introduzione della normalizzazione batch (Ioffe e Szegedy 2015) (Inception-v2). In seguito con ulteriori idee sulla fattorizzazione nella terza iterazione (Szegedy et al. 2015b), che in questo rapporto verrà indicato come Inception-v3.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.