机器翻译:为Spotlight定制的评估准则

2021-01-14 02:25:19 Nimdzi Insights

本文共1641个字,阅读需5分钟

阅读模式 切换至双语

2020年12月,Nimdzi获得了一个测试全新产品——Spotlight的机会。该产品是由Intento开发的,为机器翻译(MT)内容管理提供支持,能够快速分析MT训练结果。本产品主要面向训练定制MT模型的人,因此需要定期评估MT质量。 机器翻译评估过程及Spotlight对该过程的意义 通常评估方法包括随机抽样和成本较高的人工审查(会有相同样本会得出不同结果的风险),不过评估通常在训练好的模型已经投入生产之后(唉!)。而且,通常也没有简单的方法来判断模型是否可以进一步改进,或者找到文本中改进和分解的句段。所有这些问题都使MT培训人员和评估人员的工作变得繁重又艰巨。更不用说,有时候在真正需要进行评估之后才会进行评估工作,因为MT输出译文的终端用户想知道机器翻译的背后,评估人员做了些什么。Intento的Spotlight旨在为这一问题提供一些灵感,驱散阴霾。 我们的初步印象是,通过聚焦那些真正需要检查的句段,这个工具是评估MT训练成果有效且快速的方法。 关于Spotlight Spotlight是一种云解决方案,可从Intento控制台按需获取。用户界面(UI)非常精简,引导创建评估的用语也非常简单。 测试集说明 我们利用TAUS搜集的新冠肺炎(COVID)相关的语料,并根据Intento调查选取该领域表现最好的MT引擎,对Spotlight这一新产品进行测试。两个MT引擎分别是Google Cloud Advanced Translation API(通用)和Google Cloud Advanced Translation API(定制)数据集,将语料从英语译为俄语。 Spotlight针对数据集尺寸提出了“少即是多”的原则:只利用评估文件中的前2000个句段,因为这是能够充分进行精确评估的最佳大小。 Spotlight如何运作? 除了hLEPOR、BERT评分即将登场,另外两个指标TER和BLEU也在Intento的蓝图上。 快速评估概览 在我们的小实验中,Spotlight显示定制版Google Cloud Advanced Translation API的hLEPOR总分更高,为0.61;而通用版hLEPOR总分为0.58。 在快速了解评估情况后,审阅者可继续对句段进行详细分析,例如,低于标准的部分,或检查被改进的部分。 在该检查过程中,检查人员能够: 对句段进行批注,例如,参考译文是否错误,或者两是否两个MT版本都是正确的,等等。 标记句段以便进一步检查 添加有缺陷的问题类型(遗漏、误译、未译文本、术语、释义或其他) 下载导出的评估 至Excel文件夹 这种“轻量级”检查方法只捕捉和解决需要改进的问题,所以有助于快速获得评估结果。 根据Spotlight的评估结果,用户可能会想重新训练定制MT引擎或提醒译后编辑者注意特定问题。检查后的数据(已经经过校正和“注释”)也可以用于重新训练MT模型。 摘要 对细分级hLEPOR分数的概述有助于了解当前MT评估定制情况,并通过对重点部分进行评估而非全面评估来节省时间。 毫无疑问,Spotlight可以为评估人员节省时间和金钱。同时还可使语言团队在推出特定MT引擎之前,快速并充分了解评估定制结果。这可以节省译后编辑者的精力,特别是产生问题以及需要重新训练MT引擎的时候。 根据2020年11月Spotlight发布会上提到的开发蓝图(启动页面提供了Spotlight的虚拟演示和那次活动的幻灯片),该产品只是Intento旗下产品MT Studio的工具之一。管理复杂MT内容的新工具包将包括多个MT模型的数据清理、训练和评估选项,这可能是更多受众更加感兴趣的。 来源:Intento 作为一家软件公司,Intento将该新服务试用和实际培训引擎的任务留给了语言服务提供商。然而,他们在Intento内部确实使用了Spotlight,从而为他们的分析团队节省了数小时的宝贵时间。是的,没错:即使有这样敏捷的自动化工具,人类仍然需参与进来——策划MT训练、评估、微调过程,并在需要调整的地方进行调整。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文