Ho scoperto che Imagenet e altri grandi CNN fanno uso di livelli di normalizzazione della risposta locale. Tuttavia, non riesco a trovare così tante informazioni su di loro. Quanto sono importanti e quando dovrebbero essere usati?
Da http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers :
"Lo strato di normalizzazione della risposta locale esegue una sorta di" inibizione laterale "normalizzando le regioni di input locali. Nella modalità ACROSS_CHANNELS, le regioni locali si estendono attraverso i canali vicini, ma non hanno estensione spaziale (cioè hanno forma local_size x 1 x 1) Nella modalità WITHIN_CHANNEL, le regioni locali si estendono spazialmente, ma si trovano in canali separati (ovvero hanno forma 1 x dimensione_ locale x dimensione_ locale). Ogni valore di input è diviso per (1+ (α / n) ∑ix2i) β, dove n è la dimensione di ciascuna regione locale e la somma viene presa sulla regione centrata su quel valore (se necessario, viene aggiunta la spaziatura zero). "
Modificare:
Sembra che questi tipi di strati abbiano un impatto minimo e non vengano più utilizzati. Fondamentalmente, il loro ruolo è stato superato da altre tecniche di regolarizzazione (come dropout e normalizzazione batch), migliori inizializzazioni e metodi di allenamento. Vedi la mia risposta di seguito per maggiori dettagli.