Ho una piccola app in stile karaoke in cui un utente canta 4 righe di una canzone, con un intervallo di un secondo tra ogni riga. Non c'è musica di supporto, quindi è solo voce, si spera che renda il problema più facile da risolvere.
Sto cercando il modo più robusto per rilevare esattamente dove nella mia registrazione l'utente inizia e finisce di cantare la linea 1, inizia e finisce di cantare la linea 2, ecc.
Ho messo insieme un algoritmo semplice che funziona quando c'è molto poco rumore di fondo nella registrazione (come quando succede?), Ma cade a pezzi in presenza del rumore più piccolo.
Qualcuno può indicarmi qualcosa di più robusto?