Rileva il parlato umano nell'audio in tempo reale sui telefoni cellulari

Sto cercando di sviluppare un'app Android. Come parte della funzionalità, l'app richiederebbe un campionamento casuale di 3-5 secondi di audio e classificarlo come contenente il linguaggio umano o meno. Capisco che questo concetto si chiama Voice Activity Detection?

Quale sarebbe il modo migliore per implementarlo su un telefono cellulare. Ho sviluppato un sistema di base utilizzando funzionalità e soglie basate sull'energia. Spero di trovare qualcosa di meno suscettibile al rumore, probabilmente usando funzionalità come MFCC o formanti? Ho esaminato una serie di articoli, ma la maggior parte di essi mi richiederebbe di raccogliere dati e formare modelli. C'è qualche libreria o framework che potrei usare che funzionerebbe in tempo reale?

audio speech real-time

— Dony George
fonte

Credo che speex su http://www.speex.org/ codice open source abbia VAD all'interno. Prova a vedere se riesci a vederlo e ad avere alcune idee di implementazione, con il mancato rispetto della licenza.

— VladP
fonte