Esiste un software di riconoscimento vocale decente per Linux?


50

La versione breve della domanda: sto cercando un software di riconoscimento vocale che funziona su Linux e abbia una discreta precisione e usabilità. Qualsiasi licenza e prezzo va bene. Non dovrebbe essere limitato ai comandi vocali, in quanto voglio essere in grado di dettare il testo.


Più dettagli:

Ho provato in modo insoddisfacente quanto segue:

Tutte le soluzioni Linux native sopra menzionate hanno sia scarsa accuratezza che usabilità (o alcune non consentono la dettatura a testo libero ma solo comandi vocali). Per scarsa precisione, intendo un'accuratezza significativamente inferiore a quella del software di riconoscimento vocale che ho citato di seguito per altre piattaforme. Per quanto riguarda Wine + Dragon NaturallySpeaking, nella mia esperienza continua a bloccarsi e, purtroppo, non sembra essere l'unico ad avere tali problemi.

Su Microsoft Windows utilizzo Dragon NaturallySpeaking, su Apple Mac OS XI utilizzo Apple Dictation e DragonDictate, su Android utilizzo il riconoscimento vocale di Google e su iOS utilizzo il riconoscimento vocale integrato di Apple.

Baidu Research ha rilasciato ieri il codice per la sua libreria di riconoscimento vocale utilizzando la classificazione temporale di Connectionist implementata con Torch. I benchmark di Gigaom sono incoraggianti, come mostrato nello screenshot qui sotto, ma non sono a conoscenza di un buon wrapper per renderlo utilizzabile senza un po 'di codice (e un ampio set di dati di allenamento):

inserisci qui la descrizione dell'immagine

Esistono alcuni progetti open source molto alfa:

Sono anche a conoscenza di questo tentativo di tracciare gli stati dell'arte e i recenti risultati (bibliografia) sul riconoscimento vocale. nonché questo parametro di riferimento delle API di riconoscimento vocale esistenti .


Sono a conoscenza di Aenea , che consente il riconoscimento vocale tramite Dragonfly su un computer per inviare eventi a un altro, ma ha un certo costo di latenza:

inserisci qui la descrizione dell'immagine

Sono anche a conoscenza di questi due discorsi che esplorano l'opzione Linux per il riconoscimento vocale:


2
Alcuni dettagli su ciò che hai trovato "insoddisfacente" potrebbero far avanzare il tuo argomento di pubblicazione altrimenti interessante ma piuttosto generale. Ad esempio: cosa hai trovato specificamente insoddisfacente della combinazione "Wine + Dragon NaturallySpeaking"? (come è riuscito a replicare la tua esperienza con Windows?)
Teofhrastus il

1
@Theophrastus Fondamentalmente tutte le soluzioni native di Linux hanno sia scarsa precisione che usabilità. Per scarsa precisione, intendo un'accuratezza significativamente inferiore a quella del software di riconoscimento vocale che ho citato per altre piattaforme. Per quanto riguarda Wine + Dragon NaturallySpeaking, nella mia esperienza continua a bloccarsi, e non sembra essere l'unico ad avere questi problemi purtroppo ( appdb.winehq.org/… )
Franck Dernoncourt,

1
Non ho provato questi, ma nel caso qualcuno lo trovi utile: github.com/Uberi/speech_recognition e jasperproject.github.io e github.com/benoitfragit/google2ubuntu
Hatshepsut

Esiste uno di questi software che ha uno strumento da riga di comando? Sarebbe molto interessante combinare il riconoscimento vocale con uno strumento keypress e mousemove come xdotool ( github.com/jordansissel/xdotool ) o xsendkey ( github.com/kyoto/sendkeys ).
Bapt

Risposte:


13

In questo momento sto sperimentando l'utilizzo di KDE connect in combinazione con il riconoscimento vocale di Google sul mio smartphone Android.

KDE connect ti consente di utilizzare il tuo dispositivo Android come dispositivo di input per il tuo computer Linux (ci sono anche alcune altre funzionalità). Devi installare l'app KDE connect dal Google Play Store sul tuo smartphone / tablet e installare sia kdeconnect che indicatore-kdeconnect sul tuo computer Linux. Per i sistemi Ubuntu l'installazione procede come segue:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Il rovescio della medaglia di questa installazione è che installa un sacco di pacchetti KDE che non ti servono se non usi l'ambiente desktop KDE.

Una volta accoppiato il tuo dispositivo Android con il tuo computer (devono essere sulla stessa rete) puoi utilizzare la tastiera Android e quindi fare clic / premere sul microfono per utilizzare il riconoscimento vocale di Google. Mentre parli, il testo inizierà ad apparire ovunque il tuo cursore sia attivo sul tuo computer Linux.

Per quanto riguarda i risultati, sono un po 'confusi per me poiché attualmente sto scrivendo un documento tecnico di astrofisica e il riconoscimento vocale di Google sta lottando con il gergo che in genere non leggi. Dimenticatene anche capire la punteggiatura o la corretta capitalizzazione.

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine



3

Mentre un altro Linuxer cercava un utile programma di sintesi vocale, ho dato un'occhiata a speechpad.pw:

  • riconosce molto bene la mia lingua madre
  • funziona veloce e molto affidabile

Svantaggi:

  • ovviamente è un software proprietario e chiuso di Google
  • un servizio di Google ascolterà, elaborerà e presumibilmente memorizzerà ogni parola che pronunci
  • audio e testo saranno elaborati e ovviamente memorizzati da Google
  • speechpad.pw richiede una quota di abbonamento mensile / trimestrale / annuale
  • speechpad.pw funziona solo come componente aggiuntivo per il browser Google Chrome, nessun altro browser

Quindi, speechpad.pw è molto proprietario e anche di origine chiusa e legato anche a Google, che tutti noi conosciamo come metadati insonni, informazioni personali e collezionisti di contenuti personali.

Questi aspetti negativi lo rendono un'applicazione no-go per me, sebbene il riconoscimento vocale stesso funzioni molto bene, molto meglio di qualsiasi altra cosa che abbia visto finora.


Grazie, sì, aspetti negativi significativi, in particolare che funziona solo nel browser Chrome.
Franck Dernoncourt,

1
Puoi utilizzare Google Documenti su Chrome e utilizzare l'opzione "Strumenti" »" Digitazione voci ... ". Probabilmente lo stesso identico software di riconoscimento vocale, ma è gratuito. Quindi copia incolla i risultati dal tuo documento ovunque tu abbia bisogno del testo.
Alexis Wilke,

2

L'app Chrome "VoiceNote II" ( http://voicenote.in/ ) funziona alla perfezione sul mio computer Xubuntu 16.04. Non è richiesto alcun addestramento vocale e l'installazione è stata semplice. Una ricerca per trovarlo, un clic per installare, un clic per creare un collegamento e collegarlo al desktop.


Grazie, funziona solo su Google Chrome
Franck Dernoncourt,

0

Suggerirei di usare Dragon sul tuo telefono o tablet, quindi inviare il testo via email a te stesso. È una seccatura ma funziona ed è molto preciso. Se insisti nell'usare Linux per questo, ottenere un secondo display renderà la vita molto più facile da copiare e incollare.

Non ho provato questo, ma potresti essere in grado di utilizzare o adattare il programma di chat Bluetooth Python con Dragon sul tuo tablet / telefono. Potrebbero inoltre essere presenti app per tastiera remota per dispositivi mobili che potrebbero supportare l'input della dettatura.

Proverò e proverò a risponderti con qualcosa di più definitivo.


0

Sto usando l'app KD Connect. funziona abbastanza efficacemente! Sono in grado di tenere gli occhi sul monitor mentre parlo con il telefono sulla scrivania. L'unico aspetto negativo è che questo viene fatto tramite la tastiera di Google. non è né gratuito, nativo, né open source. questo commento è stato pubblicato senza apportare correzioni e tipi


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.