机器翻译引擎质量管理

2020-08-24 20:01:04 Memsource

本文共3257个字,阅读需9分钟

阅读模式 切换至双语

机器翻译引擎质量管理 在过去的十年里,机器翻译(MT)取得了巨大进步,质量不断提高,跻身为翻译工作流程中不可或缺的一个环节。然而,有些新用户和既有用户并不确定如何选择合适的引擎,这样一来,充分利用机器翻译就可能成为棘手之事。我们将细致介绍各类机器翻译引擎的质量以及如何根据具体内容选择最佳引擎。 你是刚刚接触机器翻译的小白吗?请查看我们的机器翻译初学者指南吧。 启动(机器翻译)引擎 无论你是刚开始使用机器翻译还是已经在用它进行翻译,最重要的就是机器翻译引擎。 现如今,可供选择的机器翻译引擎数量巨大、种类繁多。机器翻译也随着新引擎的持续发布和现有引擎的持续改进不断发展变化,而挑选性能最好的引擎的过程可能会比较复杂、令人懊丧。 有大局视角颇有益处。机器翻译的主要优点是节省时间、节约成本:翻译速度高效迅速,所需成本与人工翻译相比微乎其微,是现有机器翻译引擎的普遍特征。 唯一的问题在于机器翻译结果的质量。这也许正是管理机器翻译流程时最需要考虑的变量,因为糟糕的结果会抵消在时间和成本方面的优势。 关于机器翻译质量 近年来,机器翻译的发展(特别是从基于统计的机器翻译全面过渡到基于神经网络的机器翻译)极大地提高了机器翻译结果的基本质量。我方公司内部数据显示,自2017年以来,进行极少的后期编辑后译文片段就能近乎完美的可能性几乎翻了一番。如今,最常用的引擎所输出的译文即使与原文有细微差别,也很可能可以传达出尚能接受的意思了。 对机器翻译质量的信任度很大程度上取决于任务的规模和重要性。希望在上课前快速翻译几行作业的学生(真丢人)不必特别挑剔:目前可用的所有主要机器翻译引擎都可以输出一个说得过去的译本。机器翻译出现错误更有可能是因为源文本表达不明确,而不是因为机器翻译引擎自身糟糕。但是,你如果想把人生格言翻译成法语或中文,继而做个有趣的纹身,可能得让母语为英语的人再检查一遍。互联网上不乏糟糕的纹身图片,这证明了人们对机器翻译引擎过于信任。 对机器翻译的信任度也因规模而异。对于一个大企业来说,一个“尚可”的译文可能不够好。随着翻译量的增长,简单的错误会开始累积,出现灾难性错误的可能性也会相应增加,最终需要更大规模(且昂贵)的人工审核和后期编辑。本来以美分计算的成本就变成了美元,工作流程开始变慢。 规模的增加也可以显示出积极的一面。翻译得越多,就越有可能看到机器翻译引擎之间的差异,而这些差异在样本量较小时可能不会注意到。增量差异将开始累积。相比而言,一些引擎的性能会更好,合理地选择会提高质量、节约成本。选择性能最好的发动机是很重要的。 来看看我们的机器翻译报告中不同的机器翻译引擎是如何叠加的。 机器翻译引擎类型 在选择机器翻译引擎时,可以选择通用引擎,如Amazon Translate,Google Translate或Microsoft Translator,也可以选择自定义引擎。这两种类型的引擎都是依据过去的翻译数据输出译文。 自定义引擎受到提供给它们的数据的训练,从而改进输出结果。参考以前的成功案例来指导翻译引擎,更有可能得到人们所习惯的翻译版本。例如,旅行和招待内容特别适合自定义引擎的训练。酒店列表或用户评论通常具有相似的特征,现有的大量内容让引擎训练具有可能性和可取性。 这种特定性是自定义引擎的最大优势,但也是其主要缺点。专注于特定类型的内容,翻译其他类型文本的效果很可能会变差。受酒店描述和评论类文本训练的机器在翻译新闻类文章时可能表现不佳。 设置和维护自定义引擎通常比较昂贵。但是,如果企业处理的文件风格和内容非常相似,自定义引擎就会很合适,它也能证明稍微高一点的成本是合理的。 通用引擎是大多数用户的最佳选择,因为它的安装速度快,成本比自定义引擎低得多。如果很重视质量,引擎选择可能会稍微复杂。 评价或评估机器翻译质量? 选择翻译机器时,评价其译文质量从而明确是否物有所值一直是个不错的方法。许多机器翻译用户会在使用翻译机器之前,对所有可用的机器进行广泛的评估。业界采用了许多质量度量标准促进评价过程趋向标准化。 可以大致进行质量评价和质量评估的分类。 质量评价通常是参考同一源文本的人工翻译,对机器翻译结果的质量进行评价。虽然多数读者能很容易地确定哪一种翻译更“自然”,但纯粹的主观评价无法有效地进行大量评价。 一种评价方法是依靠双语专家的评价,他们通过盲测对翻译机器的译文和专业译员的译文进行评分。过去曾用这种方法对日臻完善的机器翻译译文做出大胆的质量判断,但是确实存在一些明显的局限性。 首先,涉及到成本问题:进行这项测试需要人工译员和评价者。为了得到准确的评价,可能需要在测试中投入大量的资源。任何评价所固有的主观性也引人担忧;研究表明,不同于非翻译专业的语言学家,专业译者更容易给人工翻译打高分。评价中,机器在翻译单独的段落时更胜一筹,而人工译员能更好地处理有篇章背景的段落。 另一种选择是依靠计算机算法快速评价大量的翻译,从而得出客观的分数。该分数是通过自动比较机器译文与参考译文得出的。计算所涉及的精确变量因算法而异,但一般来说,机器译文越接近参考译文,得分越高。 算法种类繁多,现在最常用的包括: BLEU(双语评估替换) ROUGE评估法(自动摘要) METEOR(用显式排序评价翻译的度量) 这些算法中的每一种都采用不同的方法来衡量机器翻译文与参考译文的“相似度”,它们之间的优劣之分本身就是一个争论点。 一般来说,质量评价是一种评价译文的有效方式,它让用户更好地控制翻译过程,并且提供可靠的评价结果,对各机器进行更加有效的比较。只不过,这一方法需要有人工译本作为参考且设置评价流程,故而相对缓慢、昂贵。质量评价的另一个优点是有效地得出了给定时间点的“快照”。如今,大多数机器翻译引擎都在快速提升自己,所以昨天的结果不一定适用于今天。 质量评估的运行方式不同于质量评价。它不是分析机器翻译引擎的输出结果,而是分析希望翻译的源文本,并基于某些标准,预测翻译质量。 举一个很相关的例子,Memsource开发了一种质量评估形式,称为机器翻译质量估计(MTQE),由过去的性能数据支撑评估过程,不需要参考翻译,只需要源文本。以“质量”本身作为翻译引擎输出结果的修订依据,这表现为分配给翻译的特定片段的百分比:100%的分数表示这个特定片段是完美的,不需要编辑,75%的分数表示可能有一些改进的空间。虽然评估是在每个片段的粒度级别上进行的,但累积起来的分数可以让你了解引擎的性能状况。质量估计的好处之一是,它是一个动态过程,基于用户反馈不断改进,而不是“静态的”。 现在,无论选择哪一种方法,你都将体验不同引擎的运作,为机器翻译需求找到合适的引擎 不止一个机器翻译引擎? 同样重要的是,你不必承诺只使用单个引擎。大多数翻译管理软件允许其用户相对快速地切换到引擎。你可能会发现引擎A适合于某种语言对,而引擎B更适合于翻译某种特定内容。如果只使用A或B引擎,将错失其他引擎翻译特定领域时的优势。 在Memsource,我们开发了Memsource Translate,这是一个独特的机器翻译管理解决方案,方便你利用多个引擎获得可实现的最佳翻译。我们的人工智能算法根据文档的语言对和内容类型,自动为待译内容选择性能最佳的机器翻译引擎。实时收集机器性能的数据,从而不断更新算法。Memsource Translation附带三个完备的管理引擎,并允许用户添加自己的引擎,包括定制化引擎。引擎管理和测试的过程趋向自动化,帮助机器翻译的初学者者和现有用户优化工作流程。 机器翻译引擎的质量不应该成为充分发挥机器翻译潜力的阻力。有很多方法可以解决质量难题,也有很多新方法能助你在翻译中更上一层楼。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文