App di riconoscimento vocale per convertire MP3 in testo?


Risposte:


21

Il software che puoi usare è CMUSphinx . A differenza di quanto suggerito in un'altra risposta, Giulio non è adatto perché richiede modelli. I modelli per il riconoscimento vocale di vocabolario di grandi dimensioni non sono disponibili per Julius.

È possibile utilizzare pocketphinx per convertire i file audio. Quei due comandi devono fare il lavoro. Prima converti il ​​file nel formato richiesto e poi lo riconosci:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

La corsa pocketphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Il risultato verrà memorizzato in result.txt.


inoltre, come aggiunta a questa risposta, c'è una bella demo di entrambi speech recognitione voice commandstrumenti qui: youtube.com/…
Daithí

Come si aggiunge un modello acustico al sistema?
jarno,

Basta scaricarlo e decomprimerlo, non esiste qualcosa come "aggiungi al sistema"
Nikolay Shmyrev

@NikolayShmyrev Dove devo decomprimerlo in modo che lo possa trovare pocketphinx_continuous?
jarno,

4
Bene, ho installato i pacchetti pocketphinx-utils, pocketphinx-hmm-en-hub4wsj e pocketphinx-lm-en-hub4 nel repository universo di Ubuntu 14.04. Quindi ha pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logfunzionato. Forse non sono pacchetti ottimali, ma erano le migliori corrispondenze che potessi trovare nei repository.
jarno,

12

So che questo è vecchio, ma per espandere la risposta di Nikolay e spero di salvare qualcuno un po 'di tempo in futuro, al fine di ottenere una versione aggiornata del funzionamento di Pocketphinx è necessario compilarlo dal repository github o sourceforge (non sono sicuro che è tenuto più aggiornato). Notare che -j8 significa eseguire 8 lavori separati in parallelo, se possibile; se hai più core della CPU puoi aumentare il numero.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Quindi, da: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ scarica le versioni più recenti di cmusphinx-en-us-....tar.gzeen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Quindi puoi finalmente procedere con i passaggi della risposta di Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

La Sfinge funziona bene. Non farei affidamento su di esso per creare una versione leggibile del testo, ma è abbastanza buono che puoi cercarlo se stai cercando una citazione particolare. Funziona particolarmente bene se usi un algoritmo di ricerca come Xapian ( http://www.lesbonscomptes.com/recoll/ ) che accetta caratteri jolly e non richiede espressioni di ricerca esatte.

Spero che sia di aiuto.


4
tutto funziona come un incantesimo ma nel mio caso ho dovuto eseguire il seguente comando per risolvere pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare,


11

Se stai cercando di convertire il parlato in testo, potresti provare ad aprire Ubuntu Software Center e cercare Julius

Descrizione

"Julius" è un software di decodifica LVCSR (riconoscimento vocale vocale di grandi dimensioni a due passaggi ad alte prestazioni) per ricercatori e sviluppatori collegati al linguaggio.

O un'altra opzione che non è nel Software Center è Simon

... è un programma di riconoscimento vocale open source e sostituisce mouse e tastiera.

Link di riferimento

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.