questa è una domanda che mi interessa da un po 'di tempo, principalmente perché sto lavorando alla riduzione del rumore per un sistema di riconoscimento vocale esistente.
La maggior parte degli articoli sulle tecniche di riduzione del rumore sembrano concentrarsi su come rendere il linguaggio più comprensibile per gli esseri umani o su come migliorare termini vaghi come "qualità del parlato".
Sono sicuro che, usando criteri come questi, puoi identificare i filtri che rendono più facile l'ascolto dei segnali vocali per gli umani. Tuttavia, non sono sicuro che questi criteri possano essere semplicemente adattati quando si cerca di valutare segnali vocali che sono stati denigrati per migliorare l'accuratezza del sistema di riconoscimento vocale.
Non trovo davvero articoli che discutano di questa differenza. L'intelligibilità e la qualità del parlato sono correlate all'accuratezza dei sistemi di riconoscimento vocale? Esistono misure oggettive in grado di valutare quanto "buono" sarà un segnale vocale denigrato per un sistema di riconoscimento vocale, ad esempio se viene anche pronunciato il discorso pulito originale? O è l'unico modo per scoprire quanto è buona la tua tecnica di riduzione del rumore, per addestrare il sistema di riconoscimento vocale sui dati negati e guardare l'accuratezza?
Sarei felice se qualcuno potesse indicarmi la giusta direzione, o magari dare alcuni articoli che ne discutono. Grazie in anticipo!