Il dropout in realtà non rimuove i neuroni, è solo che quei neuroni particolari non svolgono alcun ruolo (non vengono attivati) per il dato lotto di dati.
Esempio - Supponiamo che ci sia una strada di 8 corsie - Quando arrivano i camion, passano attraverso le corsie 1,2,4,6,7, quando arrivano le macchine, passano attraverso le corsie 2,3,4,7,8 e quando arrivano le biciclette , passano attraverso le corsie 1,2,5,8. Quindi, indipendentemente da qualsiasi veicolo, ci sono tutte le corsie, ma ne vengono utilizzate solo alcune.
Allo stesso modo, tutti i neuroni vengono utilizzati nell'intero modello, ma solo un sottoinsieme di neuroni viene attivato per un determinato gruppo di dati. E il modello non viene ridotto in seguito, la complessità del modello rimane così com'è.
Perché usare il dropout?
Come indicato nel libro di Deep learning di Ian Goodfellow,
il dropout è più efficace rispetto ad altri regolarizzatori standard computazionalmente economici, come la riduzione del peso, i vincoli delle norme di filtro e la regolarizzazione delle attività sparse.
Dice anche-
Un vantaggio del dropout è che è molto economico dal punto di vista computazionale.
Un altro vantaggio significativo del dropout è che non limita in modo significativo il tipo di modello o procedura di allenamento che è possibile utilizzare. Funziona bene con quasi tutti i modelli che utilizzano una rappresentazione distribuita e possono essere addestrati con la discesa gradiente stocastica. Ciò include reti neurali feedforward, modelli probabilistici come macchine Boltzmann riservate (Srivastava et al., 2014) e reti neurali ricorrenti (Bayer e Osendorfer, 2014; Pascanu et al., 2014a).
Questo libro dice-
L'idea di base è che l'introduzione del rumore nei valori di output di un livello può interrompere modelli di accadimento non significativi, che la rete inizierà a memorizzare se non è presente alcun rumore.