In che modo la riduzione del rumore per il riconoscimento vocale differisce dalla riduzione del rumore che dovrebbe rendere il discorso più "intelligibile" per l'uomo?

questa è una domanda che mi interessa da un po 'di tempo, principalmente perché sto lavorando alla riduzione del rumore per un sistema di riconoscimento vocale esistente.

La maggior parte degli articoli sulle tecniche di riduzione del rumore sembrano concentrarsi su come rendere il linguaggio più comprensibile per gli esseri umani o su come migliorare termini vaghi come "qualità del parlato".

Sono sicuro che, usando criteri come questi, puoi identificare i filtri che rendono più facile l'ascolto dei segnali vocali per gli umani. Tuttavia, non sono sicuro che questi criteri possano essere semplicemente adattati quando si cerca di valutare segnali vocali che sono stati denigrati per migliorare l'accuratezza del sistema di riconoscimento vocale.

Non trovo davvero articoli che discutano di questa differenza. L'intelligibilità e la qualità del parlato sono correlate all'accuratezza dei sistemi di riconoscimento vocale? Esistono misure oggettive in grado di valutare quanto "buono" sarà un segnale vocale denigrato per un sistema di riconoscimento vocale, ad esempio se viene anche pronunciato il discorso pulito originale? O è l'unico modo per scoprire quanto è buona la tua tecnica di riduzione del rumore, per addestrare il sistema di riconoscimento vocale sui dati negati e guardare l'accuratezza?

Sarei felice se qualcuno potesse indicarmi la giusta direzione, o magari dare alcuni articoli che ne discutono. Grazie in anticipo!

— marlonfl
fonte

Non trovo davvero articoli che discutano di questa differenza.

Ci sono libri interi sull'argomento:

Robusto riconoscimento vocale automatico prima edizione

L'intelligibilità e la qualità del parlato sono correlate all'accuratezza dei sistemi di riconoscimento vocale?

Di solito no, di solito la riduzione del rumore corrompe le funzionalità in modo imprevedibile e riduce la precisione del riconoscimento vocale.

Esistono misure oggettive in grado di valutare quanto "buono" sarà un segnale vocale denigrato per un sistema di riconoscimento vocale, ad esempio se viene anche pronunciato il discorso pulito originale? O è l'unico modo per scoprire quanto è buona la tua tecnica di riduzione del rumore, per addestrare il sistema di riconoscimento vocale sui dati negati e guardare l'accuratezza?

Secondo. Inoltre, la riduzione del rumore basata su funzionalità rimuove effettivamente tutte le informazioni importanti dallo spettro in modo da non poter riparare una precisione del sistema pulito. Per questo motivo, l'approccio moderno consiste nell'eseguire un addestramento multi-stile su dati rumorosi invece di utilizzare in anticipo l'algoritmo di riduzione del rumore. Termina con un riconoscimento più accurato.

— Nikolay Shmyrev
fonte

Grazie per le tue risposte Immagino che non stavo cercando i documenti giusti. Dò un'occhiata a quel libro.

— marlonfl,

Ok, se vuoi documenti puoi controllare i risultati della sfida CHIME-4, principalmente lo stato dell'arte nel robusto ASR.

— Nikolay Shmyrev,