Le parole chiave qui sono priori e scala . Ad esempio, immagina di provare a prevedere l'età di una persona da una fotografia. Con un set di dati di immagini ed età, potresti formare un modello di apprendimento profondo per fare le previsioni. Questo è oggettivamente davvero inefficiente perché il 90% dell'immagine è inutile e solo la regione con la persona è effettivamente utile. In particolare, il viso della persona, il suo corpo e forse i suoi vestiti.
D'altra parte, è possibile invece utilizzare una rete di rilevamento oggetti pre-addestrata per estrarre prima i riquadri di delimitazione per la persona, ritagliare l'immagine e quindi passarla attraverso la rete. Questo processo migliorerà in modo significativo l'accuratezza del modello per una serie di motivi:
1) Tutte le risorse di rete (ovvero i pesi) possono concentrarsi sull'effettivo compito di previsione dell'età, invece di dover prima trovare la persona. Ciò è particolarmente importante perché il volto della persona contiene funzioni utili. Altrimenti, le funzioni più sottili di cui hai bisogno potrebbero perdersi nei primi livelli. In teoria una rete abbastanza grande potrebbe risolvere questo problema, ma sarebbe terribilmente inefficiente. L'immagine ritagliata è anche notevolmente più regolare rispetto all'immagine originale. Mentre l'immagine originale ha un sacco di rumore, è discutibile che le discrepanze nell'immagine ritagliata siano molto più fortemente correlate all'obiettivo.
2) L'immagine ritagliata può essere normalizzata per avere la stessa scala . Questo aiuta la seconda rete a gestire i problemi di ridimensionamento, perché nell'immagine originale, le persone possono verificarsi vicino o lontano. La normalizzazione preventiva della scala consente di garantire che l'immagine ritagliata contenga una persona che riempie l'intera immagine ritagliata (nonostante sia pixelata se fosse lontana). Per vedere come ciò può aiutare a ridimensionare, un corpo ritagliato che è metà della larghezza e dell'altezza dell'immagine originale ha 4 pixel in meno da elaborare, e quindi la stessa rete applicata a questa immagine avrebbe 4 volte il campo ricettivo della rete originale su ogni livello.
Ad esempio, nella competizione polmonare kaggle, un tema comune nelle soluzioni migliori era una sorta di pre-elaborazione sulle immagini polmonari che le ritagliava il più possibile e isolava i componenti di ciascun polmone. Ciò è particolarmente importante nelle immagini 3D poiché l'effetto è cubico: rimuovendo il 20% di ogni dimensione, si elimina quasi la metà dei pixel!