为什么我们建立COMET,一种新的自动机器翻译评估框架和度量

2020-12-01 02:00:00 unbabel

本文共2708个字,阅读需7分钟

阅读模式 切换至双语

人类语言种类繁多,复杂多样,世界上有6900多种不同的语言。不同语言的微妙之处--从时态到声调再到习语--使得不同语种之间的翻译变成我们作为一个物种要面临的最大,最有趣的挑战之一。 这种翻译的复杂性也是为什么很多人一直认为机器翻译永远不会达到甚至接近人类质量翻译的原因。 我花了几十年时间研究自然语言处理。探索并开发了用于构建自动翻译系统以及用于评估其准确性和性能的计算算法和过程。这些经历让我明白,市场需要一个新的框架和度量来进行自动化机器翻译评估。 我们将始终需要人类在回路中帮助构建和训练机器翻译系统,识别和纠正错误,并将纠正反馈到用于训练和精炼它们的数据和算法中。但是我们最近的项目COMET(跨语言优化的翻译评估度量)提供了一种新的方法来测量和提高翻译质量。我们刚刚在11月的EMNLP-2020大会上提交了一篇描述我们创新性新工作的研究论文。我们在论文中的结果证明了彗星是目前最先进的。COMET最近还在2020年第五次机器翻译会议(WMT20)确认为最佳性能指标。 在这篇文章中,我将解释为什么这很重要,分享COMET是如何工作的,并让您相信高质量的MT不仅在理论上是可能的,而且比以往任何时候都更接近现实。 翻译质量重要,因为客户重要 MT的质量很重要,因为客户--也就是人--很重要。任何想要在2020年及以后生存和兴旺的企业都必须考虑如何用他们的母语接触和支持客户。毕竟,40%的顾客不会用其他语言购买。全球96%的客户表示,客户服务是他们选择品牌的关键因素,他们更喜欢和忠于他们的产品和服务。 无论人们说什么语言,这实现全球业务,为人们提供高质量的客户服务。我们的终极目标是?即弥合全球语言文化障碍,成为世界翻译层。 这听起来很崇高,但这是我们信仰的使命。 那么我们如何做到高质量的MT呢?它首先要有一种有效的方法来衡量任何给定翻译的准确性和质量。正如一句著名的格言所说:“你无法改进你无法衡量的东西。” 当然,衡量翻译质量的诸多挑战之一是语言具有歧义性和主观性。然而,这并不意味着翻译质量不能被衡量。 量化翻译准确性的一种常见方法是要求人类译者和双语使用者根据翻译错误的严重程度来识别和打分。 例如: 近年来出现了一个完善的翻译错误分类和评分框架,称为“多维质量度量(MQM)”。有了这样一个基本框架,我们就可以开始衡量翻译质量了,即使我们认识到语言本身是主观的,在翻译中通常没有一个正确的“黄金标准”。MQM对于检测和量化错误极为有用,但它需要训练有素的人类专家。因此,这是缓慢和昂贵的。这意味着它作为测量和指导现代高精度机器翻译系统训练和开发的工具的价值有限。为此,我们需要一个自动化的翻译质量度量,它可以生成与专家判断(如MQM)准确相关的质量分数。 当前机器翻译质量指标不足的地方 在过去的20多年里,已经开发了几种不同的自动化度量标准来衡量机器翻译质量,并取得了不同程度的成功。BLEU,chrF和METEOR(后者是我自己在大约16年前发明的)等广泛采用的度量已经得到了广泛的研究和改进。虽然这些度量在MT的早期阶段非常有用,但是现在这些度量在很大程度上已经过时,并且对于当前支持MT的人工智能技术来说价值有限。 那么他们在哪些方面做得不够呢?到目前为止,评估翻译质量的度量依赖于评估机器生成的翻译和人类生成的参考翻译之间的相似性。他们专注于基本的,词汇级的特性。这基本上意味着计算MT和参考译文之间匹配的字符,单词或短语的数量。然而,通过设计,它们很大程度上无法识别和捕捉词汇层面以外的语义相似性。 其根本问题在于,这些方法没有在足够的水平上捕捉到由机器翻译生成的译文与人类参考译文之间的语义相似性,以精确匹配人类专家(如MQM)的量化判断。现在我们的MT系统比以前好得多,这些以前的度量标准通常不再正确区分更好和更差的翻译,从而也不能正确区分更好和更差的翻译系统。 COMET的路径和我们为什么发布它 COMET是一种新的神经框架(即一组算法),用于训练和运行多语言MT评估模型。说它是一个新系统,可以帮助评估和预测许多不同语言的机器生成翻译的质量,这是一个很花哨的说法。 以下是它的新意和不同之处:COMET是为了学习预测人类对MT质量的判断而设计的。它通过使用神经系统首先将MT生成的译文,参考译文和源语言文本映射到神经意义表征中来实现这一目的。然后,它利用这些表示来学习预测质量分数,该质量分数被显式优化以与人类对翻译质量的判断相关联。 然后,得到的神经模型可以用作度量,以评估任何特定的MT引擎的质量,并自动化评估质量的过程(而不是要求专家对每一个翻译进行注释)。我们用周期性的人类多维质量度量(MQM)注释来补充这种方法,以验证质量,并随着时间的推移来确认和改进Comet的预测。正如我前面所说的,人类将永远处于循环中--这不是一件坏事! COMET之前是不可能的。它利用了最近在大规模跨语言神经语言建模方面的突破,产生了不同于以往任何世界所见的多语言,适应性强的MT评估模型。 COMET还采用了一种独特的方法,将源文本和目标语言参考译文的信息结合起来,以更准确地预测翻译质量。在我们对COMET的评估过程中,我们发现我们用该框架训练的模型在它们与人类判断的相关性方面显著优于所有其他度量。COMET还可以进行适配和优化,以考虑到人类对MT质量的不同类型的判断(如MQM分数或编辑后距离)。 换句话说,我们越来越接近能够用机器和人类来准确判断翻译质量。 COMET最酷的一件事是,它可以帮助我们了解哪些MT模型工作得最好。即使是最近对MT评估的贡献也很难区分性能最高的系统。COMET可以准确地识别出更好的系统,即使在两个系统的性能非常相似的情况下也是如此。这将为不断改进MT提供一个非常有用的工具,因为我们现在可以很容易地区分模型并选择更好的模型。 如何熟练运用COMET 我们刚刚发布了开放源码版本的COMET框架和训练模型,以使更广泛的MT社区受益,并将在明年继续开发和改进这些模型。代码可在https://github.com/unbabel/COMET获得。容易安装和运行,我们鼓励所有MT开发人员和用户自己试用它! UNBABEL的客户将直接受益于COMET,因为我们将使用它来改进我们所使用的模型和系统,并不断提高我们为客户服务团队提供的翻译质量。(没错,我们这边吃自己的狗粮!) 我们希望COMET成为衡量MT模型质量的一个新的标准度量。 在我们看来,当你试图击落一颗流星时--你可能只是落在一颗彗星上。 您可能还对以下内容感兴趣:

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文