Il motivo per cui vedi la trasformazione di Fourier applicata due volte nel processo di estrazione delle caratteristiche è che le caratteristiche si basano su un concetto chiamato cepstrum. Cepstrum è un gioco sullo spettro di parole - essenzialmente l'idea è di trasformare un segnale in dominio di frequenza mediante trasformata di Fourier, e quindi eseguire un'altra trasformazione come se lo spettro di frequenze fosse un segnale.
Mentre lo spettro di frequenza descrive l'ampiezza e la fase di ciascuna banda di frequenza, il cepstrum caratterizza le variazioni tra le bande di frequenza. Le caratteristiche derivate dal cepstrum sono state trovate per descrivere meglio il parlato rispetto a quelle prese direttamente dallo spettro delle frequenze.
Ci sono un paio di definizioni leggermente diverse. Originariamente la trasformazione di cepstrum era definita come trasformata di Fourier -> logaritmo complesso -> trasformata di Fourier [1]. Un'altra definizione è trasformata di Fourier -> logaritmo complesso -> trasformata inversa di Fourier [2]. La motivazione di quest'ultima definizione sta nella sua capacità di separare i segnali contorti (il linguaggio umano è spesso modellato come la convoluzione di un'eccitazione e un tratto vocale).
Una scelta popolare che si è rivelata efficace nei sistemi di riconoscimento vocale è quella di applicare un banco di filtri non lineare nel dominio della frequenza (il mel binning a cui ti riferisci) [3]. Il particolare algoritmo è definito come trasformata di Fourier -> quadrato di magnitudine -> banco filtro mel -> logaritmo reale -> trasformata coseno discreta.
Qui DCT può essere selezionato come seconda trasformazione, perché per input con valori reali, la parte reale del DFT è una specie di DCT. Il motivo per cui si preferisce DCT è che l'output è approssimativamente decorrelato. Le funzionalità decorrelate possono essere modellate in modo efficiente come una distribuzione gaussiana con una matrice di covarianza diagonale.
[1] Bogert, B., Healy, M. e Tukey, J. (1963). The Quefrency Alanysis of Time Series for Echoes: Cepstrum, Pseudo-Autocovarianza, Cross-Cepstrum e Saphe Cracking. In Atti del simposio sull'analisi delle serie storiche, p. 209-243.
[2] Oppenheim, A. e Schafer, R. (1968). Analisi omomorfa del discorso. In Transazioni IEEE su audio ed elettroacustica 16, p. 221-226.
[3] Davis, S. e Mermelstein, P. (1980). Confronto di rappresentazioni parametriche per il riconoscimento di parole monosillabiche in frasi parlate continuamente. In IEEE Transactions on Acoustics, Speech and Signal Processing 28, p. 357-366.