Qual è la frequenza di pronuncia predefinita per il programma di sintesi vocale?

4

Ho cercato su Internet, ma non riesco a trovare la velocità di conversazione predefinita per il programma di sintesi vocale integrato su Mac OS.

say "What to say" -r <rate>

Come mostrato sopra c'è un modo per specificare la velocità di conversazione (wpm) ma non esiste un punto in cui si specifica la frequenza di default?

Qualcuno ha un'idea di cosa sia?

mac terminal text-to-speech

— keto23
fonte

3

Le tariffe vocali predefinite possono effettivamente essere modificate dalle Preferenze di Sistema:

Il dispositivo di scorrimento può essere impostato su una posizione diversa per voci diverse. Quando ho provato a trascinare i cursori per Alex e Mikko al centro, i WPM mostrati nell'output di seguito erano 175 e 180.

$ defaults read com.apple.speech.voice.prefs VoiceRateDataArray
(
        (
        1835364215,
        201,
        175
    ),
        (
        1919902066,
        546,
        180
    )
)

Le uscite di say -r 175e saysenza -run'opzione erano identiche per Agnes, Alex e Bruce e quasi identiche per alcune altre voci. Ad esempio, la frequenza di pronuncia predefinita della voce "Bahh" è molto più lenta.

$ say -v ? | sed 's/  .*//' | while read l; do say -v "$l" -r 175 {1..9} -o "$l 1.aif"; say -v "$l" {1..9} -o "$l 2.aif"; done
$ stat -f '%z %N' *
120136 Agnes 1.aif
120136 Agnes 2.aif
131692 Albert 1.aif
180260 Albert 2.aif
122968 Alex 1.aif
122968 Alex 2.aif
231596 Bad News 1.aif
231820 Bad News 2.aif
131692 Bahh 1.aif
180264 Bahh 2.aif
318508 Bells 1.aif
318488 Bells 2.aif
131692 Boing 1.aif
164368 Boing 2.aif
116514 Bruce 1.aif
116514 Bruce 2.aif
131692 Bubbles 1.aif
138860 Bubbles 2.aif
196652 Cellos 1.aif
197088 Cellos 2.aif
131692 Deranged 1.aif
150720 Deranged 2.aif
131692 Fred 1.aif
138860 Fred 2.aif
331052 Good News 1.aif
331492 Good News 2.aif
301932 Hysterical 1.aif
301916 Hysterical 2.aif
131692 Junior 1.aif
144676 Junior 2.aif
131692 Kathy 1.aif
144676 Kathy 2.aif
118196 Kyoko 1.aif
114440 Kyoko 2.aif
420970 Mikko 1.aif
408432 Mikko 2.aif
228012 Pipe Organ 1.aif
228448 Pipe Organ 2.aif
131692 Princess 1.aif
144676 Princess 2.aif
131692 Ralph 1.aif
144676 Ralph 2.aif
128810 Sin-Ji 1.aif
124834 Sin-Ji 2.aif
131692 Trinoids 1.aif
138860 Trinoids 2.aif
119410 Vicki 1.aif
116118 Vicki 2.aif
122742 Victoria 1.aif
119444 Victoria 2.aif
131692 Whisper 1.aif
150724 Whisper 2.aif
131692 Zarvox 1.aif
138860 Zarvox 2.aif

— Lri
fonte

0

Non è un modo "carino" per farlo, ma puoi fare alcuni campioni, magari a partire da 120 wpm, e confrontarli con una registrazione di controllo della velocità "predefinita" (ovviamente, con tutte le registrazioni che usano la stessa voce e testo). Per una maggiore precisione, è possibile caricare i file in qualsiasi applicazione di editing audio di base e visualizzare le forme d'onda per confrontare realmente la velocità di una registrazione e di un'altra. Non riesco a immaginare che ci vorrebbe troppo tempo per restringerlo. Lo farei da solo se avessi il tempo in questo momento.

In alternativa, è possibile ottenere alcuni esempi di testo di lunghezze note (ad esempio 100 parole, 200 parole, ecc.), Registrare la voce pronunciandole tutte con le impostazioni predefinite, quindi utilizzare le durate per calcolare il wmp medio di tutte le registrazioni. Con abbastanza campioni sono sicuro che ti avvicinerai.

EDIT: seguendo la prima procedura che ho descritto sopra, ho trovato che la velocità di conversazione predefinita di Alex (la voce predefinita) era esattamente 175 wpm .

Alle velocità predefinite e 175 wpm, le due forme d'onda si adattano perfettamente.

— Tortilla
fonte

0

720 sembra massimo per la voce che sto usando

— user145705
fonte