Elaborazione del segnale speech-recognition

3

Qualcuno sa di un filtro per attenuare il non discorso? Sto scrivendo un software di riconoscimento vocale e vorrei filtrare tutto tranne il linguaggio umano. Ciò includerebbe rumore di sottofondo, rumore prodotto da un microfono schifoso o persino musica di sottofondo. Ho già implementato un filtro del primo ordine che …

17 filters audio noise speech-recognition

1

Determinare quanto l'audio sia simile al linguaggio umano

Mentre cercavo una risposta a questo problema, ho trovato questa bacheca, quindi ho deciso di inviare questa mia domanda da Stack Overflow. Sto cercando un metodo per determinare la somiglianza tra un segmento audio e una voce umana, che è espresso numericamente. Ho cercato un po ', ma quello che …

12 audio algorithms speech-recognition

1

In che modo la riduzione del rumore per il riconoscimento vocale differisce dalla riduzione del rumore che dovrebbe rendere il discorso più "intelligibile" per l'uomo?

questa è una domanda che mi interessa da un po 'di tempo, principalmente perché sto lavorando alla riduzione del rumore per un sistema di riconoscimento vocale esistente. La maggior parte degli articoli sulle tecniche di riduzione del rumore sembrano concentrarsi su come rendere il linguaggio più comprensibile per gli esseri …

10 noise speech-recognition speech-processing noise-cancellation

1

Progettazione di un vettore caratteristica per discriminare tra diverse forme d'onda soniche

Considera i 4 seguenti segnali di forma d'onda: signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821 -72.3029 -74.8313 -77.8124] signal3 = [-225.5691 -192.8458 -145.6628 151.0867 172.0412 172.5784 164.2109 …

10 computer-vision frequency-spectrum autocorrelation speech-recognition

1

Come segmentare l'audio della telefonata in silenzio / non silenzio?

Il mio problema è che non conosco l'energia del rumore di fondo, quindi non posso limitarmi a soglia. L'elaborazione viene eseguita in tempo reale e ho circa 500msec da decidere. Idealmente, vorrei che le consonanti silenziose fossero considerate non-silenzio.

9 audio speech-recognition

2

Come implementare una trasformazione Hough basata su gradiente

Sto cercando di utilizzare la trasformazione di Hough per il rilevamento dei bordi e vorrei utilizzare le immagini a gradiente come base. Quello che ho fatto finora, dato l'immagine Idi dimensioni [M,N]e le derivate parziali gx, gy, è calcolare l'angolo di pendenza in ciascun pixel come thetas = atan(gy(x,y) ./ …

9 image-processing edge-detection image-processing computer-vision image-registration discrete-signals noise bpsk snr demodulation bpsk multipath synchronization timing image-processing filters algorithms edge-detection sampling demodulation bpsk synchronization timing fft fourier-transform delay audio speech-recognition soft-question discrete-signals discrete-signals autocorrelation frequency computer-vision

3

In che modo Siri mi riconosce dicendo "Hey Siri"?

Sto cercando di capire come il mio iPhone può continuamente in ascolto per me dicendo Hey Siri, Alexa, Hey Cortanao Okay Googlesenza esaurire rapidamente la batteria verso il basso. Ho immaginato due tipi di algoritmo. Uno che registra intervalli di tempo, ad esempio intervalli ampi di 10 ms ogni 200 …

8 sound speech-recognition voice

2

Cosa significa un "vettore" in un modello Markov nascosto?

So che un modello Markov nascosto (HMM) viene utilizzato nel riconoscimento vocale e lo capisco in una certa misura. Tuttavia, ciò che non so è come l'input (discorso) viene "trasformato" in un vettore che in seguito verrà utilizzato in HMM. Come si ottiene un vettore da un ingresso audio? Questo …

8 speech-recognition

Domande taggate «speech-recognition»