Attualmente sto lavorando per ricreare i risultati di questo documento . Nel documento descrivono un metodo per usare la CNN per l'estrazione delle caratteristiche e hanno un modello acustico che è Dnn-hmm e prefabbricato usando RBM.
La sottosezione A della sezione III indica diversi modi in cui i dati di input possono essere rappresentati. Ho deciso di impilare verticalmente i grafici dello spettro dei delta statici, delta e delta.
L'articolo descrive quindi come dovrebbe essere la rete. Dichiarano di usare una rete convoluzionale, ma nulla sulla struttura della rete ?. Inoltre, la rete viene sempre definita come uno strato convoluzionale? di cui sono sicuro di vedere qualche differenza rispetto a una normale rete neurale convoluzionale (CNN).
L'articolo afferma ciò per quanto riguarda la differenza:
(dalla sezione III sottosezione B)
Tuttavia, una piega di convoluzione differisce da uno strato nascosto standard completamente connesso in due aspetti importanti. Innanzitutto, ogni unità convoluzionale riceve input solo da un'area locale dell'input. Ciò significa che ogni unità rappresenta alcune caratteristiche di una regione locale dell'input. In secondo luogo, le unità dello strato di convoluzione possono esse stesse essere organizzate in una serie di mappe caratteristiche, in cui tutte le unità nella stessa mappa caratteristica condividono gli stessi pesi ma ricevono input da posizioni diverse del livello inferiore
Un'altra cosa che mi chiedevo è se la carta indica effettivamente quanti parametri di output sono necessari per alimentare il modello acustico dnn-hmm. Non riesco a decodificare il numero di filtri, le dimensioni dei filtri .. nei dettagli generali della rete?