Come segmentare l'audio della telefonata in silenzio / non silenzio?


9

Il mio problema è che non conosco l'energia del rumore di fondo, quindi non posso limitarmi a soglia. L'elaborazione viene eseguita in tempo reale e ho circa 500msec da decidere. Idealmente, vorrei che le consonanti silenziose fossero considerate non-silenzio.


6
Non ho abbastanza informazioni per dare una risposta completa, ma il tuo problema viene definito rilevamento dell'attività vocale . Non esiste un solo modo migliore concordato per farlo, e se guardi probabilmente incontrerai molti approcci diversi. Forse alcuni altri possono approfondire un po 'di più.
Jason R,

@Michael Litvin, esiste una classe di filtri non lineari (utilizzati nella "rilevazione di energia" con il nome di "Teager-Kaiser". Penso che sia un sottoinsieme di quelli che sono noti come "kernel voltera". Mi dispiace non posso fornire alcun ulteriori informazioni, ma se cerchi quelle parole potresti trovare quello che stai cercando. So che il metodo Teager-Kaiser viene utilizzato per "quando" i suoni delle balene iniziano VS solo con il rumore di fondo.
Spacey,

Risposte:


4

Ci sono un sacco di parametri che puoi guardare:

  1. Energia complessiva
  2. Spettro a breve termine: il parlato ha uno spettro "rosa" piuttosto caratteristico e il rumore (che si verifica durante le parti non vocali) tende ad essere bianco se è dominato elettricamente o "rosso" (cioè a bassa frequenza) se è di sottofondo acustico rumore o rumore del microfono
  3. Statistiche di ampiezza. La maggior parte dei segnali di rumore ha una distribuzione gaussiana, il discorso è più vicino a una distribuzione di Laplace

Penso che una combinazione di questi tre dovrebbe fornire uno schema di rilevamento abbastanza solido.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.