神经机器翻译即将面临的5大挑战

2021-02-28 03:50:08 Lingua Greca

本文共2508个字,阅读需7分钟

阅读模式 切换至双语

近几年来,神经机器翻译(NMT)的兴起席卷了整个翻译服务行业。而这只是翻译行业进入新时代的第一步。NMT取代了基于规则的翻译系统、统计机器翻译(SMT)和之前为机器翻译所作出的所有努力。在某些语言中,NMT逐步达到接近人工翻译的质量。然而,在取得巨大成果的同时,也出现了一些挑战。在这篇文章中,我们将讨论NMT当今面临的五个最困难的挑战。 1.脱离语域 让我们先用一个简短的例子来说明这个挑战的概念。以“second”为例,它可以表示时间的度量,也可以表示某物或某人在“第一”之后的位置,这些不同的语域意味着不同的含义,因此最终应该有不同的翻译。 为什么这个话题如此重要?主要原因是我们要开发的是有针对性的特定领域系统,而不是宽泛的或跨领域的系统,后者会导致翻译质量较低。一种普遍的方法是训练通用领域系统,然后在各领域内进行几个阶段的训练,换句话说,就是对特定领域进行一些个性化定制。 在这些领域中,很容易获得大量适用广泛领域的训练数据,如opus、paracrawl、TED演讲等语料。这就意味着要使用这些公共数据集构建一个成功的系统,语域适用性调整至关重要。在Acclaro公司,我们利用通用数据集针对特定领域,如法律,对引擎进行了训练。期间系统不仅会遇到语域外的词汇,还会发现大量未纳入训练的新词。需要注意的是,这是一个针对资源匮乏的语言对进行的训练,也是构建特定神经机器翻译引擎的切入点。 为了更深入地说明这个问题,让我们来看看下面这个表格,来自Phillipp Koehn的书《神经机器翻译》。 图像说明:该图表示在一个语域(行)上训练和在另一个语域(列)上测试时翻译系统的质量(双语替换测评,BLEU),绿色条为NMT,蓝色条为SMT。 实验重申了我们的问题,并以非常简洁的方式显示了在训练引擎之前解决语域自适应的重要性,确保最重要部分的数据集在目标语域中保持一致。 2. 训练数据量 机器翻译质量在很大程度上依赖于训练数据量。对于SMT系统来说,翻译系统质量和BLEU分数之间的关系几乎是直接相关的,但是在NMT中,这种关系就像脸书的状态一样复杂。若NMT能找到更多的数据,其就更可能在更大的文本中进行泛化并表现得更好。 为了用更具体的数据说明,以下数字可能视不同语种有所差异。一个NMT系统至少需要包括2000万或更多的单词,且单词量高于3000万至3500万单词时,其才能真正胜过其他所有机器翻译系统。 为了使我们的案例更有力,并成为一个很好的例子,让我们借用以下Koehn的图表来说明。 图表说明了NMT系统极度依赖数据集。该系统需要海量的训练数据,而这些数据并不总是那么容易找到,尤其是稀有领域或资源匮乏的语料。 3.长句子 NMT模型有一个众所周知的缺陷,尤其是其早期的解码器-解码器架构,不能正确地翻译长句子。幸运的是,2018年某个时刻,注意力模型的出现一定程度上解决了这个问题,尽管仍无法完全克服。我们在大量注意力模型的迁移实验中,达成了一个共识,即在每个翻译请求,以50-60个单词为最大阈值来切割长句子,以获得尽可能好的机器译文。总体结果显示,当在特定的翻译请求中字符超过54时,BLEU得分会大幅下降。 另外补充一下,特别要提到的是,句子单词数在60个左右时,SMT并没有呈现出与NMT相同的弱点。然而,在句子包含80个或更多的单词(也就是非常长的句子)时,SMT就也会出现同样的问题。 4.集束搜索 多年来,我们一直在用不同的搜索技术来解决翻译任务,这些技术搜索出可能的译文形成一个子集。上述搜索中的一个常见参数是集束的尺寸参数,它限制了每个输入单词的翻译字符数量。而在SMT中,通常这个参数和模型的总体质量分数之间有明确的关系——集束搜索越大,期望分数就应该越高。在NMT中,有两个因素需要考虑,处理大的集束数据时,NMT的BLEU得分会从领先降至中等甚至低等。 在设定集束分数时,Acclaro的NMT小组发现集束值在5到8之间是最好的选择,不推荐集束值超过10,因为它会对模型输出和模型性能产生负面影响。为什么?简而言之,就是因为模型每秒能翻译的字数是由模型在使用长束搜索时所考虑的逻辑模式决定的。字数越多,模型需要考虑的每个部分翻译和后续单词预测量就越大。 这就是为什么我们建议永远不要高估集束搜索的原因之一。根据不同性能,将该数字保持在5到8之间,以获得最佳的分数,并保持每秒处理单词速率最高。 5.文字对齐 几乎在每一个翻译请求中,都需要将词以在源文本和目标文本之间实现对应。使之产生问题的原因可能包括标签、格式、ICU或我们日常遇到的一长串特殊功能。幸运的是,注意力机制有个关键部分(2018年起我们的NMT引擎中就包含了该部分)就是注意力表,其涵盖了所有可能的输入和输出单词之间的对齐词汇。 但是,NMT中的单词对齐仍有挑战:在输入和输出单词之间的对应关系中,注意力机制所起的作用与SMT不同。在NMT中,注意力技术的作用更加广泛,会注意语境。例如,当翻译一个作为句子主语的名词时,其可考虑动词和任何其他与主语相关或描述主语的词。语境可以帮助确定意思。也就是说,单词对齐本身并不是确定任何给定单词意义最可靠的方法——当然也不是确定词义的唯一方法。 鉴于上述原因,注意力模型可能会选择与我们第一直觉或对齐点不对应的词义。我们非常建议,用涉及对齐特征的翻译任务来训练模型,包括可追踪词汇对齐的引导对齐训练任务(如Fast-Align提供的词对齐,它更接近我们的第一直觉)。 跨越NMT的最后关卡 尽管NMT取得了广泛的成功,但其仍有一些障碍有待跨越。在我们所讨论的这五个最大的挑战中,脱离语域和训练数据量(不足)都使任何系统都无法发挥很大作用。在我们寻求解决这些挑战的过程中,Acclaro的NMT小组一直乐于与同样关注这两点的NMT从业者和研究人员合作。最后,我们鼓励客户在使用机器翻译时将这两个因素视为最重要的因素:拥有多少数据才足够?以及我想要的语域中提供的数据吗?跟我们谈谈在构建一个成功的本地化程序时,我们如何将这些数据应用到系统中。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文