Risposte:
Il software che puoi usare è CMUSphinx . A differenza di quanto suggerito in un'altra risposta, Giulio non è adatto perché richiede modelli. I modelli per il riconoscimento vocale di vocabolario di grandi dimensioni non sono disponibili per Julius.
È possibile utilizzare pocketphinx per convertire i file audio. Quei due comandi devono fare il lavoro. Prima converti il file nel formato richiesto e poi lo riconosci:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
La corsa pocketphinx
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
Il risultato verrà memorizzato in result.txt.
speech recognition
e voice command
strumenti qui: youtube.com/…
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
funzionato. Forse non sono pacchetti ottimali, ma erano le migliori corrispondenze che potessi trovare nei repository.
So che questo è vecchio, ma per espandere la risposta di Nikolay e spero di salvare qualcuno un po 'di tempo in futuro, al fine di ottenere una versione aggiornata del funzionamento di Pocketphinx è necessario compilarlo dal repository github o sourceforge (non sono sicuro che è tenuto più aggiornato). Notare che -j8 significa eseguire 8 lavori separati in parallelo, se possibile; se hai più core della CPU puoi aumentare il numero.
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
Quindi, da: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
scarica le versioni più recenti di cmusphinx-en-us-....tar.gz
een-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
Quindi puoi finalmente procedere con i passaggi della risposta di Nikolay:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
La Sfinge funziona bene. Non farei affidamento su di esso per creare una versione leggibile del testo, ma è abbastanza buono che puoi cercarlo se stai cercando una citazione particolare. Funziona particolarmente bene se usi un algoritmo di ricerca come Xapian ( http://www.lesbonscomptes.com/recoll/ ) che accetta caratteri jolly e non richiede espressioni di ricerca esatte.
Spero che sia di aiuto.
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Se stai cercando di convertire il parlato in testo, potresti provare ad aprire Ubuntu Software Center e cercare Julius
Descrizione
"Julius" è un software di decodifica LVCSR (riconoscimento vocale vocale di grandi dimensioni a due passaggi ad alte prestazioni) per ricercatori e sviluppatori collegati al linguaggio.
O un'altra opzione che non è nel Software Center è Simon
... è un programma di riconoscimento vocale open source e sostituisce mouse e tastiera.
Link di riferimento
http://julius.sourceforge.jp/en_index.php
Puoi usare il pannello di trascrizione speechpad.pw