Facebook研究人员称机器翻译存在质量评估缺失现象

2020-08-04 17:30:07 slator

本文共1305个字,阅读需4分钟

阅读模式 切换至双语

Facebook研究人员2020年7月6号发表了一篇论文,其表明,机器翻译质量评估没我们想的那么精确。 众多质量评估应用软件可以自动识别并过滤不佳的译文,这样既可以降低成本,也可以减轻译员后期编辑工作压力。 而且如果读者不会文本源语言,也可以使用质量评估软件,来进行使用反馈。 2019年7月,Unbabel的研究人员发表了一篇关于后期编辑的论文,并表示他们希望将自己的研究成果应用于质量评估等板块。 2019年夏天,博士生孙硕在Facebook实习进行的部分研究就作为了题为“我们到底是在评估翻译质量还是猜测翻译质量?”的论文的参考。Facebook语言和翻译技术(铁“能”小组)科学小组项目研究经理, Francisco Guzman,他和伦敦帝国理工学院教授及院士,还有铁“能”小组助理研究员Lucia Specia进行监督研究。 作者指出了夸大质量评估的三个主要原因:(1)高质量和低质量实例之间的平衡问题; (2)测试集词汇多样性的问题; (3)部分输入缺乏权威性。 他们认为通过数据采集产生的这些问题导致了对翻译质量的“估测”,而不是评估。 对孙硕来说,这简直太惊喜了,本来他的研究项目最初的是为了检验多任务学习是否可以用来研究更好的大脑神经质评估模型。 孙硕告诉Slator:“我‘偶然’地在我的错误代码报告发现了这些问题。质量评估神经模型在没有正确截取源句子时表现良好。” 研究小组发现,质量评估数据采集往往达不到平衡,低质量的翻译句子会被剔除掉, 导致最后,大多数翻译的句子几乎不需要译后编辑。 “这样就违背了质量评估的目的,尤其是当质量评估的目标是识别不佳的翻译时。”作者写道。 为了达到平衡,研究人员建议设计水平不等的句子模型。 词汇工件(即,标签,句子和词汇之间缺乏多样性)也会由于内容的重复性而导致人为地操作质量评估系统。 如若跨越多个领域,从各种文献中抽取源句子,这样可以使评估材料更多样化。 作者还建议在设计和标注质量评估数据集时,“使用以流畅度和完成度作为度量的标签”。 基于上述他们自己的建议,研究人员创建了一个新的质量评估数据集,称为MLQE。 他们以六种语言对为重点研究对象:两种高资源语言(英语-德语和英语-汉语); 两种中等资源语言(罗马尼亚语-英语和爱沙尼亚语-英语); 和两种资源不足的语言(僧伽罗语-英语和尼泊尔语-英语)。 在每一种语言中,从维基百科各种各样主题的文章中提取了10,000个句子,防止出现重复性问题,然后用最先进的神经模型翻译出来。 最后,进行人工注释来直接评估它们,以减轻抽样偏差和高质量和低质量翻译之间缺乏平衡的问题。 孙硕说:“当我们发现当前质量评估数据集存在的问题的时侯,我们决定为研究界建立一个改进的质量评估数据集。” MLQE现在在GitHub上可用,目前正用于2020国际机器翻译大赛的质量评估任务。 他还表示,质量评估神经模型在中低资源语言方向上似乎表现得比在高资源语言方向上要好。 之后,孙硕计划研究零样本和少样本下,跨语言迁移设置的质量评估,以及研发能够同时处理多个语言方向的多语言质量评估模型。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文