La versione breve della domanda: sto cercando un software di riconoscimento vocale che funziona su Linux e abbia una discreta precisione e usabilità. Qualsiasi licenza e prezzo va bene. Non dovrebbe essere limitato ai comandi vocali, in quanto voglio essere in grado di dettare il testo.
Più dettagli:
Ho provato in modo insoddisfacente quanto segue:
- Sfinge di CMU
- CVoiceControl
- Orecchie
- Giulio
- Kaldi (ad es. Server Kaldi GStreamer )
- IBM ViaVoice (usato per funzionare su Linux ma è stato sospeso anni fa)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- grido
- silvius (basato sul toolkit di riconoscimento vocale Kaldi)
- Simon ascolta
- ViaVoice / Xvoice
- Wine + Dragon NaturallySpeaking + NatLink + dragonfly + damselfly
- https://github.com/DragonComputer/Dragonfire : accetta solo comandi vocali
Tutte le soluzioni Linux native sopra menzionate hanno sia scarsa accuratezza che usabilità (o alcune non consentono la dettatura a testo libero ma solo comandi vocali). Per scarsa precisione, intendo un'accuratezza significativamente inferiore a quella del software di riconoscimento vocale che ho citato di seguito per altre piattaforme. Per quanto riguarda Wine + Dragon NaturallySpeaking, nella mia esperienza continua a bloccarsi e, purtroppo, non sembra essere l'unico ad avere tali problemi.
Su Microsoft Windows utilizzo Dragon NaturallySpeaking, su Apple Mac OS XI utilizzo Apple Dictation e DragonDictate, su Android utilizzo il riconoscimento vocale di Google e su iOS utilizzo il riconoscimento vocale integrato di Apple.
Baidu Research ha rilasciato ieri il codice per la sua libreria di riconoscimento vocale utilizzando la classificazione temporale di Connectionist implementata con Torch. I benchmark di Gigaom sono incoraggianti, come mostrato nello screenshot qui sotto, ma non sono a conoscenza di un buon wrapper per renderlo utilizzabile senza un po 'di codice (e un ampio set di dati di allenamento):
Esistono alcuni progetti open source molto alfa:
- https://github.com/mozilla/DeepSpeech (parte del progetto Vaani di Mozilla: http://vaani.io ( specchio ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox, un sistema per controllare un sistema Linux usando Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (che sarà rilasciato da Google, menzionato a Interspeech 2018)
Sono anche a conoscenza di questo tentativo di tracciare gli stati dell'arte e i recenti risultati (bibliografia) sul riconoscimento vocale. nonché questo parametro di riferimento delle API di riconoscimento vocale esistenti .
Sono a conoscenza di Aenea , che consente il riconoscimento vocale tramite Dragonfly su un computer per inviare eventi a un altro, ma ha un certo costo di latenza:
Sono anche a conoscenza di questi due discorsi che esplorano l'opzione Linux per il riconoscimento vocale:
- 2016 - The Eleventh HOPE: Coding by Voice con riconoscimento vocale open source (David Williams-King)
- 2014 - Pycon: utilizzo di Python per codificare con la voce (Tavis Rudd)