Sto cercando di sviluppare un'app Android. Come parte della funzionalità, l'app richiederebbe un campionamento casuale di 3-5 secondi di audio e classificarlo come contenente il linguaggio umano o meno. Capisco che questo concetto si chiama Voice Activity Detection?
Quale sarebbe il modo migliore per implementarlo su un telefono cellulare. Ho sviluppato un sistema di base utilizzando funzionalità e soglie basate sull'energia. Spero di trovare qualcosa di meno suscettibile al rumore, probabilmente usando funzionalità come MFCC o formanti? Ho esaminato una serie di articoli, ma la maggior parte di essi mi richiederebbe di raccogliere dati e formare modelli. C'è qualche libreria o framework che potrei usare che funzionerebbe in tempo reale?