DropOut e DropConnect sono entrambi metodi intesi a prevenire il "coadattamento" di unità in una rete neurale. In altre parole, vogliamo che le unità estraggano in modo indipendente funzionalità dai loro input invece di fare affidamento su altri neuroni per farlo.
Supponiamo di avere una rete feedforward multistrato come questa (la topologia non conta davvero). Siamo preoccupati per le unità nascoste gialle nello strato intermedio che si adattano.
Buttare fuori
Per applicare DropOut, selezioniamo casualmente un sottoinsieme delle unità e blocciamo il loro output a zero, indipendentemente dall'input; questo rimuove efficacemente quelle unità dal modello. Un diverso sottoinsieme di unità viene selezionato casualmente ogni volta che presentiamo un esempio di addestramento.
Di seguito sono due possibili configurazioni di rete. Nella prima presentazione (a sinistra), la 1a e la 3a unità sono disabilitate, ma la 2a e la 3a unità sono state selezionate casualmente in una presentazione successiva. Al momento del test, utilizziamo la rete completa ma ridimensioniamo i pesi per compensare il fatto che ora tutti possono diventare attivi (ad esempio, se si rilasciano metà dei nodi, anche i pesi dovrebbero essere dimezzati).
DropConnect
DropConnect funziona in modo simile, tranne per il fatto che disabilitiamo i singoli pesi (ovvero li impostiamo su zero), anziché sui nodi, in modo che un nodo possa rimanere parzialmente attivo. Schematicamente, si presenta così:
Confronto
Entrambi questi metodi funzionano perché ti consentono di addestrare diversi modelli contemporaneamente, quindi eseguono una media per testarli. Ad esempio, il livello giallo ha quattro nodi e quindi 16 possibili stati DropOut (tutti abilitati, # 1 disabilitato, # 1 e # 2 disabilitato, ecc.).
DropConnect è una generalizzazione di DropOut perché produce modelli ancora più possibili, poiché ci sono quasi sempre più connessioni rispetto alle unità. Tuttavia, è possibile ottenere risultati simili in una prova individuale. Ad esempio, la rete DropConnect a destra ha effettivamente eliminato l'unità n. 2 poiché tutte le connessioni in entrata sono state rimosse.
Ulteriori letture
I documenti originali sono piuttosto accessibili e contengono maggiori dettagli e risultati empirici.