Come comprendere una rete di convinzioni profonde convoluzionali per la classificazione audio?


11

In " Reti convoluzionali di convinzione profonda per l'apprendimento senza supervisione scalabile di rappresentazioni gerarchiche " di Lee et. al. ( PDF ) Vengono proposti DBN convoluzionali. Inoltre, il metodo viene valutato per la classificazione delle immagini. Sembra logico, in quanto ci sono caratteristiche naturali dell'immagine locale, come piccoli angoli e bordi ecc.

In " Apprendimento senza supervisione di funzioni per la classificazione audio mediante reti di credenze profonde convoluzionali " di Lee et. al. questo metodo viene applicato per l'audio in diversi tipi di classificazione. Identificazione dei relatori, identificazione di genere, classificazione del telefono e anche alcuni generi musicali / classificazione degli artisti.

Come può la parte convoluzionale di questa rete essere interpretata per l'audio, come può essere spiegata per le immagini come bordi?


Chi ha il codice per il giornale?

Risposte:


9

L'applicazione audio è una semplificazione unidimensionale del problema della classificazione dell'immagine bidimensionale. Un fonema (ad esempio) è l'analogo audio di una funzione di immagine come un bordo o un cerchio. In entrambi i casi, tali caratteristiche hanno una località essenziale: sono caratterizzate da valori all'interno di un quartiere relativamente piccolo di una posizione dell'immagine o di un momento del discorso. Le convoluzioni sono una forma controllata e regolare di media ponderata dei valori all'interno dei quartieri locali. Da ciò deriva la speranza che una forma convoluzionale di un DBN possa avere successo nell'identificare e discriminare caratteristiche significative.


1

In caso di RBM convoluzionale applicato ai dati audio, gli autori hanno prima preso la trasformata di Fourier a breve termine e poi definito le bande di energia sullo spettro. Quindi hanno applicato RBM convoluzionali su quell'audio trasformato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.