如何优化机器翻译质量评测指标--翻译技术速递

机器翻译评测的困境在翻译行业，机器翻译（MT）的应用逐渐增多。然而，有效使用机器翻译的一个前提是能准确评测机器译文的质量，而这仍然是所有人面临的主要挑战。每年都有许多研究成果发表，这些研究不断采用新颖方法，以寻求提高自动计算质量的良方。但多年来，人们常认为，应用于机器翻译质量评测的少数技术用途有限。人工评估相对昂贵，耗时且容易产生主观性。但人们仍认为，人工评估若处理得当，比自动化测评更具可信度。机器翻译质量评测尚无特定的最佳实践方法（Best Practice），也无可靠的基准数据以对用户的性能进行跨行业比较。此外，产业界和研究界之间几乎不存在公开的学习共享。简便、便宜、快速，但不够准确自动化测评通常会假设只有一种正确的译文，因为只有在极少数情况下，资源才可能产生不同的可能译文。常用的评测标准多种多样，包括词错误率或编辑距离计算和种种字符串相似性比较方法，包括著名的BLEU算法和METEOR变量。这些指标简便，便宜又快速，但不是很准确。更重要的是，它们很少能关联与此类翻译的预期用途相关的质量概念。长期以来，研究界一直将此类指标应用于可提供人工翻译的标准（通常为人工）数据集上。 BLEU是迄今为止最受欢迎的选择，尽管它存在许多广为人知的局限性，例如其与译者在句子处理上的低相关性，以及其无法处理同义词之间的相似性。极少数情况下，译者会人工评估翻译质量，以验证根据此类指标，译文是否得到了改进。应用导向的评测指标用于MT质量评估的测评标准更倾向于应用导向，它们使用的信息常从机器翻译译后编辑中获得（例如机器翻译的译文与经译后编辑的译文之间的编辑距离或译后编辑所用的时间）。这些信息应用于相关的数据集，而不是可使用参考译文的人工数据集。总体而言，基于机器翻译译后编辑译文的评测标准可以较好地体现人类对翻译质量的判断，但实际上它们的用途却十分有限：在系统开发时，尤其在统计方法中优化参数时，不能使用上述评测标准，因为在上述过程中，随着算法迭代可能的参数值，需要快速且多次地对数百万个句子评分。此外，译后编辑只是自动翻译的多种应用方式之一。使用原始机器翻译进行吸收型机器翻译或要旨翻译的现象越来越普遍，因此将译后编辑作为翻译质量测评指标并不总是合适。质量评估 (Quality Estimation) 用于机器翻译系统开发的指标与翻译生产中使用的指标之间的差距远非理想：应根据反映实际生产需求的度量指标来开发和优化机器翻译系统。为缩小这一差距，需使用更先进的评测指标，新的评测指标不仅需要考虑质量要求，而且便宜且运行速度快。在人工评测不可行或需要尽可能减少时，此类测评指标对于开发或改进机器翻译系统以及翻译生产大有用处。它们为“训练过的”指标，即参考相关数据而设计的指标，从而可以学习如何满足特定质量要求。但是，一旦经过训练，这些指标便可应用于具有相同质量要求且无需人工翻译的新数据。这样的指标通常被称为“质量评估”（quality estimation）指标。近年来，人们对质量评估（quality estimation）指标进行了大量研究：可使用一个通用框架来构建质量评估指标，并可针对特定语言对，文本类型和域，以及质量要求定制该评估指标。但是，这些评估指标的测试范围十分有限，仅可针对机器翻译研究领域常用的几种语言对和数据集。数据资源并不匮乏！由于缺乏相关数据训练指标，该领域的工作受阻。相关数据由极少量（1,000多个）示例组成，示例包括原文和翻译（最好是在句子层面），并已对译文进行了质量评估。质量评估可以采用多种形式：如译后编辑（实际的译后编辑翻译或译后编辑过程的统计信息，例如时间测量、编辑记录或编辑距离），准确性或流利性判断、错误计数和李克特评分等。为保证译文质量，自动翻译的提供方和购买方通常需要评估译文，因此，两方之间的数据类型十分丰富。正因如此，更优良的、无参考的自动评估指标研究将极大地受益于产业界和学术界之间的紧密关系。益处在初始阶段时，产业界提供的上述类型数据可使用现有框架来训练质量评估指标的多种变量。产业合作者可通过不同方式验证这些指标，如直接比较指标的评分与人类评分，或通过这些指标选择手动评估的相关数据样本（例如，预计质量最低的样本）。向研究人员反馈相关评测指标的质量，以及评测指标进一步适应特定场景的方法，也可以进一步改进此类评测指标。这对行业发展大有裨益，如促进自动评测标准的发展，从而支持或尽可能减少对人工评估的需求，还可能优化机器翻译系统。译后编辑：吴晨昱（中山大学）

以上中文文本为机器翻译，存在不同程度偏差和错误，请理解并参考英文原文阅读。

阅读原文

机器翻译

工具

翻译管理

本地化