Mentre cercavo una risposta a questo problema, ho trovato questa bacheca, quindi ho deciso di inviare questa mia domanda da Stack Overflow.
Sto cercando un metodo per determinare la somiglianza tra un segmento audio e una voce umana, che è espresso numericamente.
Ho cercato un po ', ma quello che ho trovato finora (dettagliato di seguito) non si adatta davvero a ciò di cui ho bisogno:
Un metodo consiste nell'utilizzare il software di riconoscimento vocale per ottenere parole da un segmento audio. Tuttavia, questo metodo non è in grado di escogitare quanto l'audio "simile" al linguaggio umano; spesso può dire se ci sono o meno parole nell'audio, ma se non ci sono parole definite, non è in grado di dire che l'audio deve avere tali parole.
Esempi: CMU Sphinx , Dragonfly , SHoUTIl metodo più promettente viene definito Voice Activity Detection (VAD). Tuttavia, ciò tende ad avere gli stessi problemi: gli algoritmi / i programmi che utilizzano VAD tendono semplicemente a restituire se la soglia di attività è stata raggiunta o meno e nessun valore di "somiglianza" prima o dopo tale soglia. In alternativa, molti cercano solo volume, non somiglianza con il linguaggio umano.
Esempi: Speex , Listener , FreeSWITCH
Qualche idea?