期待已久的技术革命来了。自动翻译不再只是互联网上的免费工具。它正在成为翻译行业的“实体”经济,改变一切。
翻译行业简史
在过去的四十年里,由于商业和技术环境的变化,翻译部门历经了适应与变化(见下图)。
尽管到目前为止这段旅程令人印象深刻,但没有什么能与即将到来的奇点相比。在这个新阶段,技术基本上完全接管了一切。在这个过程中不再需要人工翻译人员。谷歌和微软暗示了这种未来的状态,他们声称他们的MT引擎可以像人类专业翻译一样翻译。然而,这在学术和专业领域引发了激烈的争论,即所谓的人的平等到底意味着什么。
2.零成本翻译的兴起
全球翻译行业处于一种“混合经济”的状态:一边是传统的垂直级联供应链,另一边是新的平面自由机器模式。当输入适当质量和数量的数据时,机器的改进速度使得翻译成为一种近乎零边际成本的业务。这意味着,一旦正确的基础设施到位,新的翻译的生产成本几乎为零,能力变得无限。
只要翻译行业被锁定在一个垂直的以劳动力为基础的成本模式中,那么我们是否可以在现有的经济模式中增加更多的能力和技能,以影响全球商业呢?
对于翻译行业的运营商来说,要顺应趋势并过渡到新的免费机器模式,他们需要考虑业务经济的根本变化:准备好分解现有结构,采用新的共享和协作行为,减少对人工任务和工作活动的需求,并改进技术。在新的经济模式下,语言质量、翻译记忆和词率等概念将失去意义。相反,我们将讨论全球业务影响、数据和模型以及基于价值的定价。
3.在生意毁掉你之前毁掉它
仅2019年谷歌就翻译了300万亿词,而专业翻译行业估计翻译了2000亿词。加上微软必应翻译、Yandex MT、阿里巴巴、腾讯、亚马逊和苹果等其他大公司,MT引擎的总产出可能已经超过地球上所有专业翻译的总产出能力的数万倍。
直到两三年前,在新的神经机器翻译成功案例开始出现后,人类专业翻译和机器翻译存在于两个平行的世界。即使在谷歌和微软内部,产品本地化部门也没有使用他们公司自己的MT引擎。但现在情况发生了变化。几乎所有的翻译工具和工作流程都集成了MT。
因此,翻译行业的运营商面临的问题是,这两个过程是否会继续共存,还是MT将彻底淘汰旧业务。lsp所感受到的越来越大的压力已经迫使他们提供各种数据或transcreation服务,或者开始构建自己的MT系统和服务。高德纳(Gartner)在其最近的研究报告中估计,到2025年,企业将看到75%的翻译工作从创建翻译转向审查和编辑机器翻译输出。
对于语言服务提供商来说,忽略人工智能和MT不是一个选择。为了发展业务,他们需要走出本地化的利基市场,利用数据和技术扩大规模,并扩展到新的服务领域。
4.买最好的MT发动机
这个问题被问了很多次:哪个MT引擎是语言A或领域B最好的?由于MT开发人员使用相同的框架或模型,如Marian、BERT或OpenNMT,这些框架或模型是在GitHub上的开源许可下共享的,所有这些问题的答案是,“最好的”MT引擎不存在。MT不是静态的:模型正在不断改进,机器的输出依赖于用于训练和定制模型的数据。这是一个不断调整和测量结果的过程。
对于LSP来说,更重要的是要有一种简单的方法来使用它们自己的高质量语言数据定制MT引擎。翻译行业的一些颠覆性创新者已经实现了实时或动态自适应MT过程,这表明“预测翻译”是多么容易,这意味着引擎几乎可以立即从人类编辑的内容中学习。这种实时、自适应的MT只能在封闭的软件即服务中使用,这是可以理解的,因为优化学习过程的速度和成功需要即时的数据反馈循环。
需要更多灵活性和对该技术的控制的语言公司应该构建并定制自己的端到端解决方案。他们的主要挑战是建立一个勤勉的数据准备、培训和测量管道。他们的语言操作就变成了数据驱动的解决方案。
5.无数据,无未来
在过去的30年里,翻译行业积累了大量源语言和目标语言的文本,这些文本存储在被称为翻译记忆的数据库中。然而,它们并不总是最好的训练数据。随着时间的推移,翻译记忆往往不能很好地维护,它们可能太具体、太重复,或者包含可能混淆MT引擎的名称和属性。
为了优化机器翻译输出的质量,语言数据需要尽可能高的质量。数据清理和语料库准备应该包括重复数据删除、标记化、匿名化、对齐检查、命名实体标记等步骤。为了确保用于定制MT引擎的语言数据是切题的,可以使用更高级的技术来选择和聚类数据以匹配领域。
即使你可能决定外包大部分与数据相关的活动,你的业务中也需要新的技能,人才和新的组织结构,才能在新的AI赋能的翻译空间中出人头地。
6.我的语言数据归谁所有?
尽管许多翻译机构所有者以及翻译购买者相信,未来取决于对数据的控制,但他们仍然对向前迈进犹豫不决,因为他们怀疑自己对数据的合法权利。整个翻译行业都有一种强烈的感觉,即翻译是受版权保护的,永远不能用于培训系统。如果数据所有权的不确定性是阻碍创新的一个因素,那么是时候让这个问题变得更加清晰了。
在《Who Owns My Language Data 》白皮书中,Baker McKenzie和TAUS讨论了关于语言数据集、单个片段、GDPR和国际裁决等隐私和版权的重要问题。白皮书是全球翻译行业的蓝图。需要强调的一点是,版权更多地适用于完整的作品或作品的一部分,而不是单个部分。由于MT开发人员通常使用由随机收集的片段组成的数据集来训练他们的引擎,因此发生版权冲突的可能性很小。
语言数据的版权是复杂的,涉及多个利益相关者和许多例外情况。客户希望供应商使用最好的工具和资源,而今天,这意味着使用MT和数据来定制引擎。据我们所知,目前还没有使用翻译记忆对MT发动机进行培训的诉讼先例,被处罚的风险也可以忽略不计。但如果有疑问,您可以随时咨询涉众关于数据的使用情况。
7.打破数据垄断
如果说没有数据就没有翻译的未来,那么打破语言数据的垄断符合世界上所有语言服务提供商、客户和译者的利益。目前,几家大型科技公司和几十家大型语言服务提供商已经控制了新人工智能驱动的翻译经济中最宝贵的资源。一个更循环、共享和合作的经济模式将更适合我们的现代工作方式。
一种解决方案是将人工智能驱动的翻译解决方案捆绑在一起,并认识到所有不同贡献者的价值:
拥有能够支持不断增长的人工智能系统的强大、可扩展的基础设施是一项只有最大的公司才能完成的任务。
为特定领域和语言定制模型是一种专门的服务,最好留给在这些领域拥有专门知识并能够通过其提供的服务增加价值的公司。
既然高质量的培训数据对每个人都至关重要,为什么不让翻译人员和语言评论者承担全部责任,每次用他们的数据培训引擎时都从他们的数据中赚钱呢?
创造性破坏的过程现在正在全面展开,并可能导致我们整个生态系统的重新设计。第一个实现这种新分配的市场已经出现:SYSTRAN推出了一个市场,允许服务提供商培训和交易翻译模型,而TAUS推出了一个数据市场,允许翻译行业的利益相关者将他们的语言数据货币化。当我们感受到由彻底数字化、人力再技能和指数级数据智能驱动的行业重组的冲击波时,这些第一步应该会导致整个行业的健康辩论。
**本篇完整版已发表在2021年7/8月号的多语种杂志上。此较短的版本由Anne-Maj van der Meer编写。
以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。
阅读原文