Non credo che ci sia una risposta definitiva alle tue domande. Ma penso che la saggezza convenzionale sia la seguente:
Fondamentalmente, man mano che lo spazio di ipotesi di un algoritmo di apprendimento cresce, l'algoritmo può apprendere strutture sempre più ricche. Allo stesso tempo, l'algoritmo diventa più incline al sovradimensionamento e il suo errore di generalizzazione probabilmente aumenterà.
Quindi, alla fine, per ogni dato set di dati, è consigliabile lavorare con il modello minimo che ha abbastanza capacità per apprendere la struttura reale dei dati. Ma questo è un consiglio molto mosso, dal momento che di solito la "struttura reale dei dati" è sconosciuta, e spesso anche le capacità dei modelli candidati sono solo vagamente comprese.
Quando si tratta di reti neurali, la dimensione dello spazio delle ipotesi è controllata dal numero di parametri. E sembra che per un numero fisso di parametri (o un ordine di grandezza fisso), andare più in profondità consente ai modelli di catturare strutture più ricche (ad esempio questo documento ).
Questo potrebbe spiegare in parte il successo di modelli più profondi con meno parametri: VGGNet (dal 2014) ha 16 livelli con parametri ~ 140M, mentre ResNet (dal 2015) lo ha battuto con 152 livelli ma solo parametri ~ 2M
(da un lato, i modelli più piccoli possono essere più facili da addestrare dal punto di vista computazionale - ma non penso che sia un fattore importante da solo - poiché la profondità complica effettivamente l'allenamento)
Si noti che questa tendenza (maggiore profondità, meno parametri) è principalmente presente nelle attività relative alla visione e nelle reti convoluzionali, e ciò richiede una spiegazione specifica del dominio. Quindi ecco un'altra prospettiva:
Ogni "neurone" in uno strato convoluzionale ha un "campo ricettivo", che è la dimensione e la forma degli input che influenzano ogni output. Intuitivamente, ogni kernel acquisisce una sorta di relazione tra input vicini. E i piccoli kernel (che sono comuni e preferibili) hanno un piccolo campo ricettivo, quindi possono fornire informazioni solo sulle relazioni locali.
Ma man mano che vai più in profondità, il campo ricettivo di ciascun neurone rispetto a uno strato precedente diventa più ampio. Quindi gli strati profondi possono fornire caratteristiche con significato semantico globale e dettagli astratti (relazioni di relazioni ... di relazioni di oggetti), usando solo piccoli kernel (che regolarizzano le relazioni apprese dalla rete e le aiutano a convergere e generalizzare).
Quindi l'utilità di reti convoluzionali profonde nella visione artificiale può essere parzialmente spiegata dalla struttura spaziale di immagini e video. È possibile che il tempo dirà che per diversi tipi di problemi, o per architetture non convoluzionali, la profondità in realtà non funziona bene.