Sto cercando un software di sintesi vocale facile da installare per Ubuntu che suoni naturale. Ho installato Festival
, Gespeaker
ecc., Ma nulla sembra molto naturale. Tutto molto sintetico e difficile da capire.
Qualche consiglio là fuori?
Sto cercando un software di sintesi vocale facile da installare per Ubuntu che suoni naturale. Ho installato Festival
, Gespeaker
ecc., Ma nulla sembra molto naturale. Tutto molto sintetico e difficile da capire.
Qualche consiglio là fuori?
Risposte:
Un TTS molto minimalista, un suono migliore di espeak o mbrola (secondo me). Alcune informazioni qui .
Non capisco perché pico2wave sia, rispetto a espeak o mbrola, raramente discusso. È piccolo, ma suona davvero bene (naturale). Senza modifiche sentirai una voce femminile dal suono naturale.
E ... rispetto a Mbrola, riconosce le Unità e la parla nel modo giusto!
Per esempio:
Dopo l'installazione lo uso in uno script:
#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
Quindi eseguilo con il testo desiderato:
<scriptname>.sh "hello world"
o leggi il contenuto di un intero file:
<scriptname>.sh "$(cat <filename>)"
Questo è tutto per avere un TTS leggero e stabile su Ubuntu.
pico2wave
è in pacchetto libttspico-utils
nelle recenti versioni di Ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
pico2wave -w a.wav "$(input.txt)"
=). Concordo sul fatto che questa interfaccia della CLI ha un design errato: a differenza della stragrande maggioranza delle CLI, e possibile raggiungere la lunghezza massima dell'arg della CLI del sistema operativo .
echo {1..1000}
Credo di aver trovato il miglior software TTS gratuitamente usando un'estensione di Google Chrome chiamata "SpeakIt". Questo funziona solo nel browser Chrome per me su Ubuntu. Per qualche motivo non funziona con Chromium. SpeakIt ha due voci femminili che suonano entrambe molto realistiche rispetto a tutto il resto. Ci sono almeno altre quattro voci maschili e femminili elencate nelle estensioni di Chrome se cerchi nel Chrome Web Store usando "TTS" come query.
Utilizzo : per l'utilizzo su un sito Web. evidenzi il testo che desideri leggere e fai clic con il pulsante destro del mouse e "SpeakIt" oppure fai clic sull'icona SpeakIt ancorata sulla barra superiore di Chrome.
Gli utenti di Firefox hanno anche due opzioni. All'interno dei componenti aggiuntivi di Firefox, cerca TTS e dovresti trovare "Fai clic su Pronuncia" e anche "Text to Voice". Le voci non sono buone come quelle di Chrome SpeakIt, ma sono sicuramente utilizzabili.
L'estensione SpeakIt utilizza la tecnologia iSpeech e per un prezzo di $ 20 all'anno, il sito può convertire testo in file audio MP3. È possibile inserire testo, URL, feed RSS, nonché documenti come TXT, DOC e PDF e inviarli in MP3. Puoi creare podcast, incorporare audio, ecc. Ecco un link e un campione del loro audio (non so per quanto tempo durerà il link).
Pico e Espeak sono divertenti e facili da mettere al lavoro, ma non sono poi così buoni. Anche le voci predefinite del Festival non sono così buone. Tuttavia, Festival è un framework vocale basato su schemi, in cui numerosi ricercatori hanno creato voci plug-in molto migliori. Puoi facilmente superare la qualità pico2wave su Ubuntu di serie, perché una di quelle voci è disponibile come pacchetto già pronto.
Per rendere il Festival un suono naturale, ecco cosa fare:
sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts)
festival> (SayText "Don't hate me, I'm just doing my job!")
Puoi farlo dalla riga di comando usando -b
(o --batch
) e inserendo ciascun comando tra virgolette singole:
festival -b '(voice_cmu_us_slt_arctic_hts)' \
'(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
Puoi ottenere altre voci abbastanza buone dal repository Nitech, ma installarle è complicato e i percorsi predefiniti sono cambiati, quindi potrebbe essere necessario modificare manualmente i riferimenti ai nomi dei file nei file di schema in bundle per funzionare su Ubuntu di serie.
Aggiornamento dalla pagina del progetto (2019-02) : questo progetto è attualmente non mantenuto e rimarrà tale per il prossimo futuro
A causa della mancanza di un'alternativa migliore, ho scritto uno script bash che si interfaccia con uno script perl di Michal Fapso per fornire TTS tramite Google Translate. Dalla descrizione del progetto:
L'intenzione è di fornire un'interfaccia facile da usare per la sintesi vocale tramite il sistema di sintesi vocale di Google. Un'opzione di fallback che utilizza pico2wave fornisce automaticamente la sintesi TTS nel caso in cui non venga trovata alcuna connessione a Internet.
Allo stato attuale, il wrapper supporta la lettura da input standard, file di testo semplice e la selezione X (testo evidenziato).
Le caratteristiche principali sono:
L'installazione e l'utilizzo sono documentati nella pagina del progetto .
Sarei felice se ci avessi provato. Segnalazioni di bug e qualsiasi altro feedback sono i benvenuti!
Ho cercato in alto e in basso la sintesi vocale per Ubuntu di alta qualità. Non c'è nessuno. Le mie corde vocali sono paralizzate, quindi avevo bisogno di TTS per aggiungere istruzioni vocali ai miei video di Ubuntu . Puoi ottenere software di sintesi vocale commerciale Linux di alta qualità qui . È solo molto costoso. Ho finito per acquistare Natural Reader per Windows (non funziona in Ubuntu con Wine) per $ 40. Forse dopo avrò quello Linux.
Ho condotto ricerche sulle voci di sintesi vocale dal suono migliore e facilmente sintonizzabili. Di seguito è riportato un elenco di quelli che pensavo fossero i primi 5 prodotti in ordine di qualità del suono. La maggior parte dei siti Web associati a questi prodotti ha una demo interattiva che ti consentirà di prendere le tue decisioni.
Trovo le voci Nitech HTS del festival molto naturali e confortanti rispetto a qualsiasi altra voce che ho sentito. Vedi questo link su come impostare Nitech e altri suoni con il festival. Non ho trovato una buona interfaccia grafica che posso usare per configurare quelle voci ma impostarle tramite festival.scm funziona ancora. Quel post è molto vecchio e potresti voler trovare la directory di installazione effettiva usando il comando "Trova festival"
Combina strumenti SVOX (pico) con LibreOffice:
Gli strumenti SVOX (pico) sono facili da installare e offrono voci di buona qualità in Ubuntu. Installalo:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
Puoi utilizzare LibreOffice in combinazione con gli strumenti SVOX (pico) installando l' estensione "Leggi testo" e otterrai una "GUI" per questo eccellente software TTS:
Imposta le opzioni di estensione del testo in lettura con Strumenti - Componenti aggiuntivi - Leggi selezione .... Usa / usr / bin / python come programma esterno. Seleziona un'opzione della riga di comando che include il token (PICO_READ_TEXT_PY) , potresti voler sperimentarne alcuni.
Ora devi solo selezionare un po 'di testo in LO Writer, Calc, Impress o Draw e fare clic sull'icona aggiunta come barra degli strumenti (una faccia felice con un palloncino).
Ecco cosa ho fatto per parlare in modo naturale per pdf e altri file di testo (altre soluzioni non sono naturali o sono solo servizi a pagamento). In realtà si tratta di un modo per aggirare l'utilizzo di cromo o cromo, ma funziona in modo semplice e veloce.
Ci sono anche modi per aprire altri file come .doc e .txt in Chrome e fare lo stesso. Ci sono altre estensioni per Chrome che visualizzano i file pdf, controlla se ti stanno meglio. Inoltre puoi caricare tutti i tipi di testi su Google Drive e usare SpeakIt! per leggerlo per te. Un'altra estensione chiamata "Pronuncia testo" funziona allo stesso modo e ha un linguaggio naturale.
Durante la ricerca di un motore tts migliore da utilizzare con la nuova modalità narrativa di firefox 49 ho trovato pico tts (svox), il mio motore TTS preferito.
sudo apt install espeak libttspico0 libttspico-data libttspico-utils
Come modificare il sistema di sintesi vocale predefinito a livello di sistema?
Le persone di Arch Linux mi hanno portato sulla strada giusta:
Rimuovi il commento dal modulo che ti piace e rendilo predefinito nelle impostazioni di Speech Dispatcher:
# sudo vim /etc/speech-dispatcher/speechd.conf
[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak" "sd_espeak" "espeak.conf"
AddModule "pico-generic" "sd_generic" "pico-generic.conf"
[...]
#DefaultModule espeak
DefaultModule pico-generic
Riavvia il demone:
# sudo systemctl restart speech-dispatcher.service
MA, quando si riavvia Firefox, non succede nulla. Secondo il link sopra (arch forum post # 10 e # 16) funziona con festival (non ha provato), ma il distributore vocale per pico non elenca le voci disponibili. Non funzionerà.
Qualsiasi idea là fuori sarebbe molto apprezzata ;-)
Il mio programma di sintesi vocale preferito si chiama Magic English, ma come Natural Reader citato da Joe Steiger, è un programma Windows e non sono sicuro che funzionerà con Wine.
AT&T Natural Voices è disponibile online come demo, ma è più una soluzione che una soluzione ...
Pico, mbrola, cmu, festival, flite, tutti SUCK nel 2017 (erano incredibili negli anni '90). Il linguaggio naturale di AT&T (che è fantastico) non è compatibile con Linux e non è gratuito, quindi usiamo Google
git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
gTTS ( Google Text-to-Speech ), una libreria Python e uno strumento CLI per interfacciarsi con l'API di sintesi vocale di Google Translate. Scrive i
mp3
dati vocali in un file, un oggetto simile a un file (bytestring) per un'ulteriore manipolazione dell'audio ostdout
.
Contro : solo CLI. È necessario essere online poiché è necessario richiedere all'endpoint pubblico aperto di Google.
sudo -H pip install gTTS # Install
uso
gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
Alcuni sono già stati menzionati
Mimica . Installazione:
sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check
eSpeak + Gespeaker (GUI) ( codice sorgente Gespeaker )
Contro : vecchio e brutto
sudo apt install espeak gespeaker
Per questo costruisco Intelligent Speaker - estensione per Google Chrome. Può leggere le pagine anche senza selezione (quando la detenzione del testo è corretta).