Questa non sarà tanto una risposta quanto un commento.
La qualità dipende da diverse cose, tra cui (come Aaron ha detto sopra) 1) la coppia di lingue e 2) l'argomento, ma anche 3) i generi e 4) lo stile dell'originale e 5) la quantità di testo parallelo che hai per addestrare il sistema MT.
Per preparare il terreno, praticamente tutti i MT in questi giorni si basano su testi paralleli, cioè un testo in due lingue diverse, con una presumibilmente una traduzione dell'altra (o entrambe una traduzione di una terza lingua); e potenzialmente usando dizionari (forse assistiti da processi morfologici) come backoff quando i testi paralleli non contengono parole particolari.
Inoltre, come altri hanno già detto, un sistema MT non comprende in alcun modo i testi che sta traducendo; vede solo stringhe di caratteri e sequenze di parole composte da caratteri e cerca stringhe e sequenze simili nei testi tradotti in precedenza. (Ok, è leggermente più complicato di così, e ci sono stati tentativi di ottenere la semantica nei sistemi computazionali, ma per ora sono principalmente stringhe.)
1) Le lingue variano. Alcune lingue hanno molta morfologia, il che significa che fanno le cose con una sola parola che altre lingue fanno con più parole. Un semplice esempio potrebbe essere lo spagnolo "cantaremos" = inglese "canteremo". E una lingua può fare cose con cui l'altra lingua non si preoccupa nemmeno, come la distinzione informale / formale (tu / usted) in spagnolo, a cui l'inglese non ha un equivalente. Oppure una lingua può fare cose con la morfologia che un'altra lingua fa con l'ordine delle parole. O la sceneggiatura che la lingua usa potrebbe non segnare nemmeno i confini delle parole (cinese e pochi altri). Più le due lingue sono diverse, più difficile sarà la traduzione da parte del sistema MT. I primi esperimenti in MT statistica sono stati fatti tra francese e inglese,
2) Argomento: se nella Bibbia ci sono testi paralleli (il che è vero per quasi ogni coppia di lingue scritte) e si allena il proprio sistema MT da quelli, non aspettarsi che funzioni bene sui testi di ingegneria. (Beh, la Bibbia è comunque una quantità relativamente piccola di testo secondo gli standard di addestramento dei sistemi MT, ma fingi :-).) Il vocabolario della Bibbia è molto diverso da quello dei testi di ingegneria, così come la frequenza di vari grammatica costruzioni. (La grammatica è essenzialmente la stessa, ma in inglese, ad esempio, si ottiene molta più voce passiva e più nomi composti nei testi scientifici e ingegneristici.)
3) Generi: se il tuo testo parallelo è tutto dichiarativo (come i manuali dei trattori, diciamo), provare a usare il sistema MT risultante nella finestra di dialogo non ti darà buoni risultati.
4) Stile: pensa a Hilary contro Donald; erudito vs. popolare. Allenarsi su uno non otterrà buoni risultati sull'altro. Allo stesso modo addestrare il sistema MT su romanzi per adulti e usarlo su libri per bambini.
5) Coppia di lingue: l'inglese ha molti testi e le possibilità di trovare testi in qualche altra lingua che sono paralleli a un dato testo inglese sono molto più alte delle possibilità di trovare testi paralleli, per esempio, in russo e Igbo. (Detto questo, potrebbero esserci delle eccezioni, come le lingue dell'India.) Come generalizzazione generale, tanto più testi paralleli devi addestrare il sistema MT, tanto migliori saranno i risultati.
In breve, la lingua è complicata (motivo per cui la adoro - sono un linguista). Quindi non sorprende che i sistemi MT non funzionino sempre bene.
A proposito, i traduttori umani non sempre fanno altrettanto bene. Un decennio o due fa, stavo ottenendo traduzioni di documenti da traduttori umani in inglese, da utilizzare come materiale di formazione per i sistemi MT. Alcune delle traduzioni erano difficili da capire, e in alcuni casi in cui ottenevamo traduzioni da due (o più) traduttori umani, era difficile credere che i traduttori avessero letto gli stessi documenti.
E infine, non c'è (quasi) mai solo una traduzione corretta; ci sono molti modi per tradurre un passaggio, che può essere più o meno buono, a seconda delle caratteristiche (correttezza grammaticale, stile, consistenza d'uso, ...) che desideri. Non esiste una misura facile di "precisione".