Risposta breve: architetture profonde, e in particolare GoogLeNet (22 strati) sono in pericolo del problema dei gradienti di fuga durante l'allenamento (algoritmo di retropropagazione ). Gli ingegneri di GoogLeNet hanno affrontato questo problema aggiungendo anche classificatori negli strati intermedi, in modo tale che la perdita finale sia una combinazione della perdita intermedia e della perdita finale. Questo è il motivo per cui vedi un totale di tre livelli di perdita, a differenza del solito livello singolo come ultimo livello della rete.
Risposta più lunga: nel classico apprendimento automatico, di solito esiste una distinzione tra ingegneria delle caratteristiche e classificazione. Le reti neurali sono famose soprattutto per la loro capacità di risolvere i problemi "end to end", ovvero combinano le fasi di apprendimento di una rappresentazione per i dati e formazione di un classificatore. Pertanto, puoi pensare a una rete neurale con un'architettura standard (ad esempio, AlexNet) come composta da una fase di "apprendimento della rappresentazione" (i livelli fino all'ultimo precedente) e una fase di "classificazione", che come previsto include una funzione di perdita.
Quando si creano reti più profonde, sorge un problema coniato come problema dei "gradienti di fuga". In realtà non è specifico per le reti neurali; piuttosto a qualsiasi metodo di apprendimento basato sul gradiente. Non è così banale e quindi merita una spiegazione adeguata per sé; vedi qui per un buon riferimento. Intuitivamente, puoi pensare ai gradienti che trasportano sempre meno informazioni più in profondità andiamo all'interno della rete, il che è ovviamente una delle maggiori preoccupazioni, poiché ottimizziamo i parametri della rete (pesi) basati esclusivamente sui gradienti, usando il "back-prop "algoritmo.
In che modo gli sviluppatori di GoogLeNet hanno gestito questo problema? Hanno riconosciuto il fatto che non sono solo le caratteristiche degli strati finali a contenere tutte le informazioni discriminatorie: le caratteristiche intermedie sono anche in grado di discriminare etichette diverse; e, soprattutto, i loro valori sono più "affidabili" poiché sono estratti da strati precedenti in cui il gradiente porta più informazioni. Basandosi su questa intuizione, hanno aggiunto "classificatori ausiliari" in due strati intermedi. Questo è il motivo dei livelli di perdita "fuga anticipata" nel mezzo della rete a cui si fa riferimento nella domanda.
La perdita totale è quindi una combinazione di questi tre livelli di perdita. Cito dall'articolo originale:
Questi classificatori assumono la forma di reti convoluzionali più piccole messe in cima all'output dei moduli Inception (4a) e (4d). Durante l'allenamento, la loro perdita viene aggiunta alla perdita totale della rete con un peso di sconto (le perdite dei classificatori ausiliari sono state ponderate di 0,3). Al momento dell'inferenza, queste reti ausiliarie vengono scartate.
visivamente: