Esistono alcune varianti su come normalizzare le immagini ma la maggior parte sembra utilizzare questi due metodi:
- Sottrai la media per canale calcolata su tutte le immagini (ad es. VGG_ILSVRC_16_layers )
- Sottrai dal pixel / canale calcolato su tutte le immagini (es. CNN_S , vedi anche la rete di riferimento di Caffe )
Nella mia mente l'approccio naturale dovrebbe normalizzare ogni immagine. Un'immagine scattata in pieno giorno provocherà un maggior numero di neuroni rispetto a un'immagine notturna e mentre può darci informazioni sul tempo che di solito ci interessa delle caratteristiche più interessanti presenti nei bordi, ecc.
Pierre Sermanet fa riferimento in 3.3.3 che la normalizzazione del contrasto locale sarebbe basata sull'immagine ma non me ne sono imbattuto in nessuno degli esempi / tutorial che ho visto. Ho anche visto un'interessante domanda su Quora e il post di Xiu-Shen Wei, ma non sembrano supportare i due approcci di cui sopra.
Cosa mi manca esattamente? È un problema di normalizzazione del colore o esiste un documento che spiega in realtà perché così tanti usano questo approccio?