In " Reti convoluzionali di convinzione profonda per l'apprendimento senza supervisione scalabile di rappresentazioni gerarchiche " di Lee et. al. ( PDF ) Vengono proposti DBN convoluzionali. Inoltre, il metodo viene valutato per la classificazione delle immagini. Sembra logico, in quanto ci sono caratteristiche naturali dell'immagine locale, come piccoli angoli e bordi ecc.
In " Apprendimento senza supervisione di funzioni per la classificazione audio mediante reti di credenze profonde convoluzionali " di Lee et. al. questo metodo viene applicato per l'audio in diversi tipi di classificazione. Identificazione dei relatori, identificazione di genere, classificazione del telefono e anche alcuni generi musicali / classificazione degli artisti.
Come può la parte convoluzionale di questa rete essere interpretata per l'audio, come può essere spiegata per le immagini come bordi?