Supponiamo che io abbia uno strato conv che genera un tensore a forma di dove:(N,F,H,W)
- N è la dimensione del lotto
- F è il numero di filtri convoluzionali
- H,W sono le dimensioni spaziali
Supponiamo che questo output sia inserito in un layer conv con filtri 1x1, zero padding e falcata 1. Quindi l'output di questo layer conv 1x1 avrà forma .F1(N,F1,H,W)
Quindi i filtri conv 1x1 possono essere usati per cambiare la dimensionalità nello spazio del filtro. Se allora stiamo aumentando la dimensionalità, se stiamo diminuendo la dimensionalità, nella dimensione del filtro.F1>FF1<F
Infatti, nell'articolo di Google Inception Going Deeper with Convolutions , affermano (il grassetto è mio, non di autori originali):
Un grosso problema con i moduli di cui sopra, almeno in questa forma ingenua, è che anche un numero modesto di convoluzioni 5x5 può essere proibitivamente costoso su uno strato convoluzionale con un gran numero di filtri.
Questo porta alla seconda idea dell'architettura proposta: applicare con giudizio riduzioni e proiezioni dimensionali ovunque i requisiti computazionali aumenterebbero troppo altrimenti. Questo si basa sul successo degli incorporamenti: anche gli incorporamenti a bassa dimensione potrebbero contenere molte informazioni su una patch di immagine relativamente grande ... Le convoluzioni 1x1 vengono utilizzate per calcolare le riduzioni prima delle costose convoluzioni 3x3 e 5x5. Oltre ad essere utilizzati come riduzioni, includono anche l'uso dell'attivazione lineare rettificata che li rende a duplice scopo.
Quindi, nell'architettura di Inception, utilizziamo i filtri convoluzionali 1x1 per ridurre la dimensionalità nella dimensione del filtro. Come ho spiegato sopra, questi strati conv di 1x1 possono essere usati in generale per cambiare la dimensionalità dello spazio del filtro (aumentare o diminuire) e nell'architettura Inception vediamo quanto questi filtri 1x1 possano essere efficaci per la riduzione della dimensionalità, esplicitamente nello spazio della dimensione del filtro , non lo spazio dimensionale spaziale.
Forse ci sono altre interpretazioni dei filtri conv di 1x1, ma preferisco questa spiegazione, specialmente nel contesto dell'architettura di Google Inception.