Sto cercando di confrontare 2 campioni di discorso e valutarli in base a somiglianze. Pensa a qualcuno che cerca di ripetere una frase e poi confronta questi 2 file audio.
Ho iniziato implementando l'algoritmo MFCC (http://en.wikipedia.org/wiki/Mel-frequency_cepstrum). Calcolo gli MFCC di entrambi i campioni audio, il che mi dà circa 500 frame di audio (a 10 ms ciascuno, con una sovrapposizione del 30% simile al precedente) con circa 14 coefficienti MFCC. Quindi una matrice 500x14 per ogni segnale audio.
Quindi seguo l'approccio ingenuo semplicemente differenziando le matrici. Questo non dà risultati molto promettenti. La metà delle volte quando confronto campioni audio completamente diversi (in cui vengono pronunciate frasi diverse), ottengo meno differenze rispetto al confronto dell'audio in cui provo a ripetere la stessa frase! Questo è chiaramente al contrario e non può darmi un buon algoritmo di punteggio.
Come posso migliorare questo? Pensavo che gli MFCC fossero una parte molto importante dell'elaborazione vocale, anche se chiaramente ho bisogno di fare di più con esso.