机器翻译。我们可以做得更好!

2022-06-30 22:50:21 TAUS

本文共2308个字,阅读需6分钟

阅读模式 切换至双语

MT已经走过了漫长的道路。经过70年的研究,这项技术现已投入生产。然而,我们却错过了所有的机会。因为开发者们一心想着大规模的模型会神奇地解决剩下的问题。而且因为翻译行业的运营商在开发新的以MT为中心的翻译策略方面进展缓慢。本文旨在呼吁翻译生态系统中的所有参与者摆脱藩篱,实现MT的全部优势。我们可以做得更好! 从草根到MT产业化 Gartner在其《AI Landscape 2020》博客文章中宣布,AI的工业化和民主化是2021年AI的两大主导趋势。早期采用者和MT专家对模型和数据的所有辛勤工作和实验终于得到了回报。我们正在从自下而上的基层运动转变为来自行政部门的自上而下的指令。在整个企业范围内采用机器翻译成为人工智能或数字化转型计划的一部分,现在属于首席信息官或首席技术官的责任。这项技术可以简单地翻译所有内容,推出新的平台,并用更多用户的语言与他们交谈。但是,我们常常意识到,自动化翻译的质量在可靠性和可信度方面无法满足企业的生产要求。技术可能已经存在,但交付还不够好。我们可以做得更好!如果我们在战略中设定了正确的优先顺序。 高科技MT开发商 大多数移动终端都来自大型科技公司亚马逊、谷歌和微软。他们有足够的规模和资金来开发大型模型,这些模型在过去几年里取得了令人惊叹的成果,这也是MT产业化背后的推动力。这些快速的进步让美国西海岸的人们产生了前所未有的乐观情绪,他们认为,诸如MT幻觉、灾难性错误以及该技术尚未覆盖的领域和语言等遗留问题将在5到10年内全部消失。 然而,一个令人不安的因素是,大规模的MT模型是黑盒子。即使是训练他们的研究人员也不能确切地说出为什么一个人比另一个人表现得更好。模型的工作是迷人的和酷的,但智力的洞察力,将使我们能够复制错误,并删除它们是很难得到的。为了让模型在生产中发挥作用,需要更多的数据工程而不是研究。重点突出的数据工程可以带来在现实领域中实现稳健性能所需的细微差别。问题是,大多数研究人员喜欢做模型工作,而不是数据工作。(See这篇Google研究文章:高风险AI中的数据级联)。 许多MT平台提供自定义功能,允许用户上传翻译数据并处理自己的数据工程工作。然而,TAUS发现,这些功能需要大量的实验和经验。域内训练数据对引擎的性能具有不可预测的、通常较低的、有时甚至是负面的影响。大型科技公司似乎把他们的定制功能视为权宜之计,直到人类达到平等。五到十年? 大型科技机器翻译开发商可以更好地支持和促进机器翻译的产业化。具体操作如下: 不要把未来完全押在大规模模型的蛮力上 改进您的自定义功能,以更好地支持您的业务客户构建生产就绪型引擎。 MT用户 过去几年的技术突破使MT的采用率上升。不过没什么特别的或革命性的。MT引擎只需插入现有工作流程,即可用作翻译匹配的补充来源。翻译人员发现他们的任务越来越多地变成了后期编辑。这项新技术主要用于帮助企业不断提高效率和降低字数,这与三十年来利用翻译记忆库的传统非常相似。 我们在翻译行业中所缺少的是一种空穴来风的思维方式。除了少数刚起步的创新者之外,翻译行业的大多数参与者都对MT技术采取了防御性的做法。其结果是普遍的负面情绪,强调降低成本、牺牲翻译质量、破坏劳动力队伍,并对行业的未来持悲观态度。问题是我们都深深地植根于我们的传统,我们不能看透现在。 Gartner在其《人工智能翻译服务市场指南》(2022年6月)中建议,公司应将内容划分为"可接受的翻译质量"的"层",并开发新的端到端工作流,同时考虑MT技术实现的自动化。一些初创的创新者正是这样做的,他们将MT技术置于全新的实时多语言业务解决方案的核心。 对于翻译行业中能够从防御性方法转变为主动性方法的运营商而言,MT技术可以成为一种力量倍增器。 MT用户、LSP和企业可以更好地支持和促进MT的产业化。具体操作如下: 专注于数据工程。不要接受亚马逊、谷歌、微软和Systran引擎等的质量输出是最好的。使用核心能力(如领域知识和语言专业知识)可以实现显著的改进。 设计以MT为中心的端到端工作流。不要将机器翻译仅仅看作是您当前流程和工作流的一个附加组件,而要将其作为服务新客户的新解决方案的核心,翻译以前从未翻译过的内容。 为语言学家提供新的机会。后期编辑并不是最后的游戏。通过利用智能洞察力创建新的视角,实现更好的自动化。 TAUS是更好的MT的秘诀 自2005年以来,TAUS一直是翻译自动化的行业倡导者。我们已经开发出一个独特的配方,更好的MT如下所述。 每一个机器翻译项目的第一步都是衡量和评估翻译质量。大多数MT用户只是测量和比较基准发动机。TAUS将评估进一步推进。我们培训和定制不同的MT发动机,然后在客户领域选择具有最高可实现质量的发动机。参见TAUS DeMT™评价。 第二步是使用基于上下文的排名技术,创建领域内客户特定的训练数据集。语言数据来源于TAUS数据市场、客户的存储库或在人类语言项目平台上创建。应用高级自动清洁功能。参见TAUS DeMT™构建。 第三步是生成改进的机器翻译。所展示的改进显示,与亚马逊、谷歌和微软的基准引擎相比,得分在11%到25%之间。在许多情况下,这会使质量达到人工翻译或后期编辑MT的水平。一些客户将DeMT™ Translate称为“零拍本地化”,这意味着翻译后的内容无需后期编辑即可直接提供给客户。TAUS通过API向LSP和企业提供DeMT™ Translate作为白标产品。 * MT定制功能需要大量的实验和经验。请参阅TAUS DeMT™评估报告并联系TAUS专家,了解如何最好地使用MT定制。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文