Sintesi vocale naturale?

86

Sto cercando un software di sintesi vocale facile da installare per Ubuntu che suoni naturale. Ho installato Festival, Gespeakerecc., Ma nulla sembra molto naturale. Tutto molto sintetico e difficile da capire.

Qualche consiglio là fuori?

software-recommendation text-to-speech

— I Heart Ubuntu
fonte

1

Possibile duplicato di Come posso installare e utilizzare il software di sintesi vocale?

— Dipendente organico il

51

SVOX pico2wave

Un TTS molto minimalista, un suono migliore di espeak o mbrola (secondo me). Alcune informazioni qui .

Non capisco perché pico2wave sia, rispetto a espeak o mbrola, raramente discusso. È piccolo, ma suona davvero bene (naturale). Senza modifiche sentirai una voce femminile dal suono naturale.

E ... rispetto a Mbrola, riconosce le Unità e la parla nel modo giusto!
Per esempio:

2 ° C → due gradi
2m → due metri
2 kg → due chilogrammi

Dopo l'installazione lo uso in uno script:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

Quindi eseguilo con il testo desiderato:

<scriptname>.sh "hello world"

o leggi il contenuto di un intero file:

<scriptname>.sh "$(cat <filename>)"

Questo è tutto per avere un TTS leggero e stabile su Ubuntu.

— user85321
fonte

1

Per quanto posso vedere, utilizza solo i parametri cli come input. È possibile ottenere pico2wave per leggere il testo da un nome file?

— Carlos Eugenio Thompson Pinzón,

13

pico2waveè in pacchetto libttspico-utilsnelle recenti versioni di Ubuntu. @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo

— naught101

1

@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=). Concordo sul fatto che questa interfaccia della CLI ha un design errato: a differenza della stragrande maggioranza delle CLI, e possibile raggiungere la lunghezza massima dell'arg della CLI del sistema operativo .

— Ciro Santilli 13 改造中心法轮功六四事件

1

@Koen non lo so! :-) Come qualsiasi altro problema, prova a produrre un esempio minimo, ad es. Usandoecho {1..1000}

— Ciro Santilli 22 改造中心法轮功六四事件 il

1

@ user49557 Non dovremmo dirottare le domande degli altri, quindi forse puoi creare una nuova domanda, spiegando cosa hai installato esattamente e cosa è andato storto, e quindi posso sempre provare ad aiutarti (nessuna garanzia, però , Non sono un esperto: P)

— Koen,

22

Dillo!

Credo di aver trovato il miglior software TTS gratuitamente usando un'estensione di Google Chrome chiamata "SpeakIt". Questo funziona solo nel browser Chrome per me su Ubuntu. Per qualche motivo non funziona con Chromium. SpeakIt ha due voci femminili che suonano entrambe molto realistiche rispetto a tutto il resto. Ci sono almeno altre quattro voci maschili e femminili elencate nelle estensioni di Chrome se cerchi nel Chrome Web Store usando "TTS" come query.

Utilizzo : per l'utilizzo su un sito Web. evidenzi il testo che desideri leggere e fai clic con il pulsante destro del mouse e "SpeakIt" oppure fai clic sull'icona SpeakIt ancorata sulla barra superiore di Chrome.

Gli utenti di Firefox hanno anche due opzioni. All'interno dei componenti aggiuntivi di Firefox, cerca TTS e dovresti trovare "Fai clic su Pronuncia" e anche "Text to Voice". Le voci non sono buone come quelle di Chrome SpeakIt, ma sono sicuramente utilizzabili.

L'estensione SpeakIt utilizza la tecnologia iSpeech e per un prezzo di $ 20 all'anno, il sito può convertire testo in file audio MP3. È possibile inserire testo, URL, feed RSS, nonché documenti come TXT, DOC e PDF e inviarli in MP3. Puoi creare podcast, incorporare audio, ecc. Ecco un link e un campione del loro audio (non so per quanto tempo durerà il link).

— I Heart Ubuntu
fonte

3

Sfortunatamente nessuna delle opzioni del browser funziona con i file PDF. Ne hai trovato uno che lo fa? Mi piacerebbe essere in grado di selezionare i paragrafi da leggere da un PDF (cioè non è necessario incollare bit sul terminale o altro)

— James Owers

1

questa estensione funziona per me su chromium 50.0.2661.94 usando Debian 8.4 ed è grandiosa! mi piace soprattutto la voce femminile inglese. la mia unica lamentela è che si ferma troppo a lungo sulle virgole.

— Mulllhausen,

Spesso pronuncia erroneamente le parole e richiede anche tempo per inviare il testo a un server separato piuttosto che usare semplicemente il proprio sistema.

— Goddard

14

Pico e Espeak sono divertenti e facili da mettere al lavoro, ma non sono poi così buoni. Anche le voci predefinite del Festival non sono così buone. Tuttavia, Festival è un framework vocale basato su schemi, in cui numerosi ricercatori hanno creato voci plug-in molto migliori. Puoi facilmente superare la qualità pico2wave su Ubuntu di serie, perché una di quelle voci è disponibile come pacchetto già pronto.

Per rendere il Festival un suono naturale, ecco cosa fare:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

Puoi farlo dalla riga di comando usando -b(o --batch) e inserendo ciascun comando tra virgolette singole:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Puoi ottenere altre voci abbastanza buone dal repository Nitech, ma installarle è complicato e i percorsi predefiniti sono cambiati, quindi potrebbe essere necessario modificare manualmente i riferimenti ai nomi dei file nei file di schema in bundle per funzionare su Ubuntu di serie.

— Jon Watte
fonte

2

A proposito, in Ubuntu 16.04, questo pacchetto sembra mancare. Puoi scaricare e installare il deb da Debian e funzionerà benissimo: pacchetti.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Download / festvox-us-slt-hts_0.2010.10. 25-2_all.deb

— Jon Watte

13

Google ™ TTS semplice

Aggiornamento dalla pagina del progetto (2019-02) : questo progetto è attualmente non mantenuto e rimarrà tale per il prossimo futuro

A causa della mancanza di un'alternativa migliore, ho scritto uno script bash che si interfaccia con uno script perl di Michal Fapso per fornire TTS tramite Google Translate. Dalla descrizione del progetto:

L'intenzione è di fornire un'interfaccia facile da usare per la sintesi vocale tramite il sistema di sintesi vocale di Google. Un'opzione di fallback che utilizza pico2wave fornisce automaticamente la sintesi TTS nel caso in cui non venga trovata alcuna connessione a Internet.

Allo stato attuale, il wrapper supporta la lettura da input standard, file di testo semplice e la selezione X (testo evidenziato).

Le caratteristiche principali sono:

sintesi TTS online tramite Google translate
sintesi TTS offline tramite pico2wave
supporta una varietà di lingue diverse
può leggere da CLI, file di testo e testo evidenziato
supporta la lettura di testo evidenziato con formattazione fissa (ad es. file PDF)

L'installazione e l'utilizzo sono documentati nella pagina del progetto .

Sarei felice se ci avessi provato. Segnalazioni di bug e qualsiasi altro feedback sono i benvenuti!

— Glutanimate
fonte

Questo deve essere uno dei progetti più interessanti che abbia mai visto. Wow. 😲

5

Questo non viene più mantenuto.

— Goddard

8

Ho cercato in alto e in basso la sintesi vocale per Ubuntu di alta qualità. Non c'è nessuno. Le mie corde vocali sono paralizzate, quindi avevo bisogno di TTS per aggiungere istruzioni vocali ai miei video di Ubuntu . Puoi ottenere software di sintesi vocale commerciale Linux di alta qualità qui . È solo molto costoso. Ho finito per acquistare Natural Reader per Windows (non funziona in Ubuntu con Wine) per $ 40. Forse dopo avrò quello Linux.

— Joe Steiger
fonte

amico, c'è e lo stavo usando come la scorsa settimana ce ne sono almeno 5 o 6 e per la vita non riesco a trovarne nessuno adesso, devo amare la nostra comunità

— mchid

Textaloud ha le istruzioni per far funzionare il loro prodotto sotto il vino. vedi nextup.com/forum/viewtopic.php?t=3349 Credo che anche cepstral abbia una porta linux. Non sono stato in grado di far funzionare il mio software preferito balabolka. Ho Windows 10 installato principalmente per l'elaborazione di tts. MS David è buono e simile a David Cepstral. Il precedente è gratuito se hai Windows 10.

— Bhikkhu Subhuti,

6

Ho condotto ricerche sulle voci di sintesi vocale dal suono migliore e facilmente sintonizzabili. Di seguito è riportato un elenco di quelli che pensavo fossero i primi 5 prodotti in ordine di qualità del suono. La maggior parte dei siti Web associati a questi prodotti ha una demo interattiva che ti consentirà di prendere le tue decisioni.

NeoSpeech
Ivona
Acapela
AT&T Voci naturali
Voci CereProc

— Jim
fonte

1

ci sono disponibili per Linux? non la penso così

— Mehdi Khademloo,

5

Trovo le voci Nitech HTS del festival molto naturali e confortanti rispetto a qualsiasi altra voce che ho sentito. Vedi questo link su come impostare Nitech e altri suoni con il festival. Non ho trovato una buona interfaccia grafica che posso usare per configurare quelle voci ma impostarle tramite festival.scm funziona ancora. Quel post è molto vecchio e potresti voler trovare la directory di installazione effettiva usando il comando "Trova festival"

— rasoio
fonte

Sembra essere molto buono. Demo trovato qui cstr.ed.ac.uk/projects/festival/onlinedemo.html

— Iacco

2

Sì, le voci di Nitech sono una spanna sopra le altre voci del Festival (tranne le voci della CMU, che sono anche molto buone). Peccato che siano difficili da installare. C'è una buona voce CMU che ha un pacchetto predefinito in Ubunut, si chiama cmu_us_slt_arctic_hts ed è disponibile nel pacchetto festvox-us-slt-hts. È molto meglio di pico o espeak!

— Jon Watte,

5

Combina strumenti SVOX (pico) con LibreOffice:

Gli strumenti SVOX (pico) sono facili da installare e offrono voci di buona qualità in Ubuntu. Installalo:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

Puoi utilizzare LibreOffice in combinazione con gli strumenti SVOX (pico) installando l' estensione "Leggi testo" e otterrai una "GUI" per questo eccellente software TTS:

Imposta le opzioni di estensione del testo in lettura con Strumenti - Componenti aggiuntivi - Leggi selezione .... Usa / usr / bin / python come programma esterno. Seleziona un'opzione della riga di comando che include il token (PICO_READ_TEXT_PY) , potresti voler sperimentarne alcuni.

Ora devi solo selezionare un po 'di testo in LO Writer, Calc, Impress o Draw e fare clic sull'icona aggiunta come barra degli strumenti (una faccia felice con un palloncino).

— leoperbo
fonte

4

Ecco cosa ho fatto per parlare in modo naturale per pdf e altri file di testo (altre soluzioni non sono naturali o sono solo servizi a pagamento). In realtà si tratta di un modo per aggirare l'utilizzo di cromo o cromo, ma funziona in modo semplice e veloce.

Installa SpeakIt! estensione sul tuo cromo o cromo.
Installa PDF Viewer se stai utilizzando chromium (Chrome ha già un visualizzatore PDF gratuito) e seleziona "Consenti in incognito" e "Consenti l'accesso agli URL dei file" nelle impostazioni delle estensioni di chromium.
Trascina e rilascia il tuo pdf sul browser.
Ora evidenzia un po 'di testo e fai clic con il tasto destro e seleziona SpeakIt! così puoi ascoltare la sintesi vocale naturale.

Ci sono anche modi per aprire altri file come .doc e .txt in Chrome e fare lo stesso. Ci sono altre estensioni per Chrome che visualizzano i file pdf, controlla se ti stanno meglio. Inoltre puoi caricare tutti i tipi di testi su Google Drive e usare SpeakIt! per leggerlo per te. Un'altra estensione chiamata "Pronuncia testo" funziona allo stesso modo e ha un linguaggio naturale.

— Pouya Sanooei
fonte

Potresti approfondire come fare in modo che SpeakIt legga i file pdf salvati in Google Drive?

— Marco Lackovic,

2

Durante la ricerca di un motore tts migliore da utilizzare con la nuova modalità narrativa di firefox 49 ho trovato pico tts (svox), il mio motore TTS preferito.

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

Come modificare il sistema di sintesi vocale predefinito a livello di sistema?

Le persone di Arch Linux mi hanno portato sulla strada giusta:

Rimuovi il commento dal modulo che ti piace e rendilo predefinito nelle impostazioni di Speech Dispatcher:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

Riavvia il demone:

# sudo systemctl restart speech-dispatcher.service

MA, quando si riavvia Firefox, non succede nulla. Secondo il link sopra (arch forum post # 10 e # 16) funziona con festival (non ha provato), ma il distributore vocale per pico non elenca le voci disponibili. Non funzionerà.

Qualsiasi idea là fuori sarebbe molto apprezzata ;-)

— APOS
fonte

1

Il mio programma di sintesi vocale preferito si chiama Magic English, ma come Natural Reader citato da Joe Steiger, è un programma Windows e non sono sicuro che funzionerà con Wine.

AT&T Natural Voices è disponibile online come demo, ma è più una soluzione che una soluzione ...

— Chris Granger
fonte

1

Google ™ TTS semplice

Pico, mbrola, cmu, festival, flite, tutti SUCK nel 2017 (erano incredibili negli anni '90). Il linguaggio naturale di AT&T (che è fantastico) non è compatibile con Linux e non è gratuito, quindi usiamo Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

— Jonathan
fonte

Questo è un duplicato della risposta Glutanimate (l'autore di quel progetto). Inoltre: "Aggiornamento dello stato: questo progetto è attualmente non mantenuto e rimarrà tale per il prossimo futuro." Suggerisce alcune alternative

— Pablo A

1

GTT

gTTS ( Google Text-to-Speech ), una libreria Python e uno strumento CLI per interfacciarsi con l'API di sintesi vocale di Google Translate. Scrive i mp3dati vocali in un file, un oggetto simile a un file (bytestring) per un'ulteriore manipolazione dell'audio o stdout.

Contro : solo CLI. È necessario essere online poiché è necessario richiedere all'endpoint pubblico aperto di Google.

sudo -H pip install gTTS  # Install

uso

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

Documentazione e altri esempi

Altri

^{Alcuni sono già stati menzionati}

Mimica . Installazione:

sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check

eSpeak + Gespeaker (GUI) ( codice sorgente Gespeaker )

Contro : vecchio e brutto
```
sudo apt install espeak gespeaker
```
Firefox
- Google Translate, traduttore, dizionario, TTS di Smart Link Corporation
Cromo
- Sintesi vocale che porta produttività
- Dillo!

— Pablo A
fonte

0

Per questo costruisco Intelligent Speaker - estensione per Google Chrome. Può leggere le pagine anche senza selezione (quando la detenzione del testo è corretta).

— Vitaly Zdanevich
fonte