Qual è la differenza tra un campo ricettivo e una mappa caratteristica?

10

In una CNN, il campo ricettivo è la porzione dell'immagine utilizzata per calcolare l'output del filtro. Ma l'output di un filtro (che è anche chiamato "feature map") è l'input del filtro successivo.

convolutional-neural-networks terminology comparison

— Monica Heddneck
fonte

4

Campo Ricettivo

Il campo ricettivo , nel contesto della meccanica della CNN, è l'intervallo discreto di input selezionato come input per il kernel di convoluzione di un layer specifico. L'intervallo di un campo ricettivo è una funzione di posizione e dimensione. L'intervallo si applica a una o più dimensioni. ¹

Orizzontale
Verticale
Indice del telaio
Incremento del tempo
Indice di livello pixel
Altre dimensioni

La posizione del campo ricettivo viene variata sistematicamente per selezionare un sottoinsieme dell'intervallo di indici in ciascuna dimensione per coprire l'intero intervallo. ² La dimensione è abbinata all'input del kernel che opera su di esso e quindi normalmente costante. ³

Queste sono le tre caratteristiche che definiscono i campi ricettivi nelle CNN.

Specifica l'intervallo di indici selezionati per l'input nel kernel di convoluzione in termini di posizione e dimensioni dell'indice
La dimensione dell'intervallo di indice in ciascuna dimensione (di solito dispari e inferiore a 20) corrisponde alle caratteristiche della dimensione di input del kernel
La posizione dell'intervallo di indice in ciascuna dimensione, varia sistematicamente per coprire l'intera gamma di informazioni in tutte le dimensioni, generalmente variata con incrementi fissi

Si noti che il termine Campo ricettivo ha origine dai limiti della rappresentazione del segnale del campo visivo catturato nei sistemi biologici. In questo contesto, il termine Campo Ricettivo si riferisce alla gamma geometrica acquisita attraverso dispositivi o organi di imaging. Proprio come un occhio può scansionare un paesaggio, la selezione di una posizione all'interno del campo totale delle informazioni avviene nel progetto della CNN.

La comunanza tra biologico e artificiale è l'uso del variare dell'attenzione sull'intero spazio sensoriale.

Mappa delle funzioni come rappresentazione delle funzioni estratte

Il termine Mappa delle caratteristiche in questo contesto è una mappa che rappresenta le caratteristiche estratte attraverso uno o più livelli di convoluzione. Il termine può essere usato in modo impreciso per l'output intermedio dei kernel, ma si noti che l'output di layer intermedi prima di layer raggruppati non rappresenta ancora direttamente le caratteristiche. In quelle fasi, l'estrazione è incompleta, quindi non esiste una relazione diretta tra valori e caratteristiche.

Il termine mappa caratteristica viene usato in modo più accurato quando si descrive l'output dell'ultimo livello di raggruppamento in una sezione dei livelli CNN. Questa sezione può trovarsi all'interno di una sequenza di sezioni della CNN o può essere altrimenti componente di un'architettura di sistema più ampia.

Esempi di mapping delle funzionalità includono questi.

bordi
Aspetto o scomparsa (dominio temporale)
Elementi oggetto
Traiettoria di movimento
Ingrandisci
Oggetti
Azioni

In questo uso del termine, la mappatura delle caratteristiche è relativa alle dimensioni delle informazioni, allo spazio posizionale su cui è stato applicato il kernel.

Mappa delle funzioni come rappresentazione di una trasformazione nello spazio discreto di Hilbert

Quando il termine Mappa caratteristica viene applicato alla mappatura eseguita da uno o un insieme di livelli CNN, le caratteristiche in uscita vengono mappate sull'input, non sulle posizioni. In questo contesto, la mappatura è la trasformazione tensoriale in Hilbert Space. Si noti che la mappa non è una rappresentazione del segnale ma la rappresentazione della trasformazione, del kernel e dei suoi parametri appresi nel loro stato attuale.

Per chiarire questo contesto dal precedente, può essere utile utilizzare il termine Mapping delle caratteristiche per indicare una trasformazione tensoriale piuttosto che l'output di tale trasformazione.

Sovrapposizione dei Termini

Quando l'output di una sezione di convoluzione contiene una mappa di funzionalità e viene inserito in un altro livello o sezione di convoluzione, la mappa di funzionalità di una sezione diventa lo spazio completo su cui il campo ricettivo seleziona il sottoinsieme di informazioni da inserire nel kernel successivo come ingresso.

Si noti che una mappa caratteristica è un segnale completo che rappresenta tutti i dati nella sua sezione della rete, dove un campo ricettivo è spesso un sottoinsieme del segnale completo applicato più volte per coprire la larghezza del segnale completo in più dimensioni.

I due termini non sono sinonimi in nessun contesto, ma sono semplicemente collegati da teoria e pratica.

Le note

[1] Sia la posizione che la dimensione sono specificate in ciascuno di $n$ dimensioni in $\mathbb{I}^n$ , dove $n \ge 1$ .

[2] La selezione di intervalli all'interno di ciascuna dimensione può essere effettuata tramite loop in algoritmi o soluzioni hardware che eseguono operazioni di windowing con circuiti DSP o GPU, possibilmente effettuate tramite operazioni RISC parallele controllate da hardware o firmware.

[3] Gli indici di esempio e di epoca possono essere delimitati in modo simile in alcuni progetti della CNN, ma tali indici non sono, nel senso usuale del termine, considerati parte dei campi ricettivi. Sono solo le dimensioni all'interno di ciascun esempio. Inoltre, gli indici del flusso di input, come l'identificatore della telecamera, di solito non sono inclusi come dimensione all'interno di un campo ricettivo.

— Douglas Daseeco
fonte

3

Spero che questa illustrazione ti possa aiutare:

Campo / i recettivo / i : è una piccola porzione dell'input per produrre un solo nodo in una mappa caratteristica .

Feature map (s) : è un output di processo convoluzionale, una map feature può essere definita come una rappresentazione di funzionalità dell'input del filtro. Una mappa di funzionalità è composta da molti output di filtro (da diversi campi ricettivi) da un kernel. Il numero di mappe caratteristiche dipende dal numero del kernel.

Quindi anche le mappe delle caratteristiche sono l'input del filtro successivo, ma i campi recettivi successivi non sono una mappa delle caratteristiche. Il prossimo campo ricettivo è costituito da un piccolo nodo porzione da diverse mappe caratteristiche (non solo una mappa caratteristica).

Inoltre, possiamo vedere dall'illustrazione sopra, una mappa delle caratteristiche ha dimensioni bidimensionali $(46 \times 46)$ , quindi una dimensione del campo ricettivo sarà sempre tridimensionale $(5 \times 5 \times \text{Number Of Feature Maps})$ .

— Malioboro
fonte