机器翻译发展对模糊匹配有何影响?

2019-10-23 15:00:00 RWS Moravia

本文共2269个字,阅读需6分钟

阅读模式 切换至双语

假设我们在翻译一个关于狗的故事,其中的一个源句是:“黑狗在穿过街道时几乎被撞倒。”,假如翻译记忆库(TM)中存储了以下译文:“棕狗在穿过街道时被撞倒。”,这就是所谓的模糊匹配。文本足够类似——译者只需将“棕”改为“黑”,然后加上“几乎”两个字即可。 但如果机器翻译(MT)引擎可以为您提供句义没有错误、只是措辞有些别扭的译文:“黑狗几乎被撞倒,在穿过街道时”呢? 翻译记忆库(TM)给出的译文是人工翻译但需要编辑,而机器翻译句义没有错但不像人工翻译那般自然,译者应该选哪个呢? 这个选择还真不好做出。曾几何时,翻译记忆库(TM)和机器翻译(MT)之间的选择很简单:选那条需要人工干预最小的路径,而这通常是翻译记忆库(TM),因为机器翻译(MT)的质量太差了。但是,翻译人员要做出这样的决定越来越难。随着机器学习的进步,机器翻译(MT)生成的翻译终于到了可以与低模糊匹配竞争的地步。 那么,这会使翻译记忆(TM)被淘汰吗? 并不。至少现在还没有。但是,现在是时候重新审视业界关于模糊匹配的准则了,而这些准则已经存在二十多年了。 译者的抉择:模糊匹配还是机翻译文? 传统上,模糊匹配的低端阈值为70-75%。 直到最近,我们还没有理由质疑它:在机器翻译(MT)转向神经之前,70-75%的模糊匹配明显超过机器翻译质量。 即使现在机器翻译(MT)的结果总体上有所改善,我们还没有看到有学术论文或大量研究证明机器翻译(MT)已超过翻译记忆库(TM)。 但是确实有些证据疑似证明机器翻译(MT)可能已超越翻译记忆库(TM)。 今年早些时候,TAUS根据他们自己的数据发布了一篇论文,该论文表明,在罗曼语中,匹配度低于85%的情况下,机器翻译的译文可能比翻译记忆库的译文更好。 因此,可能有人会说将模糊匹配的标准提高到至少85%是有道理的,但这种做法有一些问题: •语言非常灵活,并且语言和内容类型的排列无穷无尽,没有人能保证85%的阈值能适用于每种具体情况。例如,对法语的法律内容需要有不同的标准,对俄语的技术内容也要有不同的规则等等。 •而且,还有更多的变量要考虑:不同的机器翻译引擎适合不同的情况,机器翻译匹配背后的算法不同,都可以导致匹配度的不同,而且 “标准”算法也不存在。 •即使我们的确发现85%总的来说是更合适的模糊匹配阈值,也没有人敢说,只要模糊匹配度低于85%,机器翻译就优于翻译记忆库的翻译,因为“一刀切”的做法太冒险了。 所以,我们现在还处在有趣的试验阶段。当模糊度降低到大约70%时,翻译人员用自己的判断,决定是否值得接受模糊匹配(并对其进行编辑以反映完整的原文意思)还是接受机器翻译生成的包含完整源语意思的译文(可能需要进行各种编辑,以确保准确性和流利性)。 译者如何最好地利用有限的时间?这个问题没有标准答案。 我们要思考机器翻译(MT)和翻译记忆库(TM)哪个更好,而这一事实就标志着翻译行业走到了新的十字路口。这与工业时代没有什么不同。例如,莱特兄弟(Wright brothers)在成功造出飞机之前,坠毁了数十架原型机。同样,由于我们无法考虑到每个排列组合或变量,因此我们要尝试做一些事情,然后从错误中吸取教训,并随着我们的经验(以及机器翻译)的发展,找出解决问题的方法。 临界点在何处? 但是,如果我们不能考虑到所有可能性,那么我们怎样知道机器翻译何时会摆脱对翻译记忆的依赖? 这种转变会逐渐进行,但目前,问题在于如何定义“质量”。 如今,机器翻译(带或不带后期编辑)的质量与85%模糊匹配的译文(无论是否经过译后编辑)相比是好是差,完全取决于读者的主观判断。但是有一天,技术本身将能够在这方面指导我们。 在这里,我们要谈到一种称为质量评估(QE)的方法,在该方法中,神经机器翻译开始可以评估其自己译文的质量。 不仅会给您提供机器生成的译文,机器还会变得聪明到可以告诉译者:这个译文不完善,但是我可以指出可能的错误的位置,并提供修复错误的可能的办法。 神经机器翻译不仅可以自我评估,还可以自我诊断。 随着时间的推移,有了足够的经验,甚至可以根据先前的选择修改一部分错误。 机器翻译完全意识到译文中的错误、并向编辑人员提供多种可行的修改方法,将是在某些用例中机器翻译会取代翻译记忆库的关键点。 而且,我们所展望的未来并不遥远。借助大型技术公司的大量投资,机器翻译可以比我们想象的更早做到这一点。 但是不要误解我们的意思,我们仍然可以肯定地说,机器无法取代人类译员,只是计算机辅助翻译可能转变为人工辅助计算机翻译。也就是说,机器将把第一关,至少针对感情权重较低的内容是如此,但最终可能也适用于感情权重较高的文本。然后,人类对机器译文进行判断和和处理。 然后,当然,我们必须考虑这种变化对翻译者意味着什么。如果机器先翻了一遍,人类更多的不是在翻译,而是在编辑。翻译人员会因为工作需求量减少而收入降低吗?那些翻译高度品牌化的营销内容的专业翻译员呢?使用机器翻译和翻译记忆库只会给他们带来麻烦,让他们没法进行创造性的翻译吗?我们能让这些人使用机器翻译吗? 回答这些问题,要回到我们还在使用模糊匹配法的原因上:因为翻译记忆库的译文还是人类译文。当机器翻译能够深入理解文本背后的含义和细微差别时,当机器翻译能够理解句子流并掌握跨语言的不同写作风格时,谁又知道它会将我们带向何方呢? (沙龙君编译)

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文