Rileva il parlato umano nell'audio in tempo reale sui telefoni cellulari


9

Sto cercando di sviluppare un'app Android. Come parte della funzionalità, l'app richiederebbe un campionamento casuale di 3-5 secondi di audio e classificarlo come contenente il linguaggio umano o meno. Capisco che questo concetto si chiama Voice Activity Detection?

Quale sarebbe il modo migliore per implementarlo su un telefono cellulare. Ho sviluppato un sistema di base utilizzando funzionalità e soglie basate sull'energia. Spero di trovare qualcosa di meno suscettibile al rumore, probabilmente usando funzionalità come MFCC o formanti? Ho esaminato una serie di articoli, ma la maggior parte di essi mi richiederebbe di raccogliere dati e formare modelli. C'è qualche libreria o framework che potrei usare che funzionerebbe in tempo reale?

Risposte:


1

Credo che speex su http://www.speex.org/ codice open source abbia VAD all'interno. Prova a vedere se riesci a vederlo e ad avere alcune idee di implementazione, con il mancato rispetto della licenza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.