So che un modello Markov nascosto (HMM) viene utilizzato nel riconoscimento vocale e lo capisco in una certa misura. Tuttavia, ciò che non so è come l'input (discorso) viene "trasformato" in un vettore che in seguito verrà utilizzato in HMM.
Come si ottiene un vettore da un ingresso audio? Questo vettore è leggibile da un essere umano?