Mozilla如何在90多种语言中驱动Impact

2020-10-18 06:00:14 Lingua Greca

本文共2946个字,阅读需8分钟

阅读模式 切换至双语

一个本地化项目需要多少种语言才能有影响力?通常,这取决于你问的是谁,以及他们的优先级是什么。当我想到用户界面(UI)一长串语言选项时,脑海中总会浮现出一个人,那就是Mozilla的Jeff Beatty。毕竟,火狐(Firefox)提供的语言选项一个标准屏幕截图都容纳不下,你可以在下文看到。 对于将软件产品本地化为不太通用的语言,我们往往会有很多好奇。知道自己对一个较小的语言群体产生了巨大的影响是什么感觉?以及是如何构建一个业务案例来添加像威尔士语这样的语言的?本地化到Triqui…呃,很棘手吗? 以下是我和Jeff的一次访谈,在访谈中我们深入挖掘了他的一些经验细节,并为我们在本地化领域中通常所说的“长尾语言”支持提供了建议,我希望这会对其他人有所帮助。 你能简单描述一下你在本地化方面的背景,以及你是如何最终确定担任当前职务的吗? 我为语言行业的用户方(和一小部分供应方)工作了十多年,做过各种各样的工作,从自由翻译和法庭口译员到Mozilla的本地化领导。在这些工作中,具有典型规范需要特殊方法进行本地化的项目总是吸引着我,而Mozilla充满了这些项目。 你如何定义“长尾语言”?线上人口规模和它有什么关系? 长尾语言是指那些收入获取体现了长期投资战略的语言。他们比典型的EFIGS(英语,法语,意大利语,德语,西班牙语)组合更冒险、更复杂,但他们在帮助特定地区人们畅所欲言方面起着关键作用。 线上人口规模是使得长尾语言风险更大的因素。因为他们倾向于较小规模,这些消费者的总线上购买力也较低。然而,随着人口规模的增长,这些语言将成为新的竞争优势,对那些寻求进入新兴市场或专注于微众市场的公司来说。 能分享一些你用来解决长尾语言需求的策略吗? 对于Mozilla来说,这些策略始于我们的宗旨:将互联网作为全球公共资源加以保护。作为一个知名的开源项目,Mozilla吸引了来自全球的语言活动家和开源爱好者,他们的使命是用他们的语言传播软件。保持对这些贡献的开放态度是使这些群体能够繁荣发展的关键。 需要考虑的另一个因素是公平。多语言全球访问旨在强调软件开发过程中的公平性。我们为本地化创建的解决方案一直围绕着尽可能公平的原则,致力于为所有语言保证相同的设计原则和初衷。 最终,我们在与这些长尾群体成员的个人联系上投入了很多,以便在与其相关的项目中与他们并肩作战。这些个人联系创造了空间,让这些群体有信心接近我们,描述他们的需求,并与我们合作帮助他们解决问题。与这些群体紧密联系有助于我们体会他们的难处,看到并理解他们的需求,并确定我们为他们提供支持的方式。 你能谈谈如何保证本地化后这些语言的质量吗? 这些语言的质量标准必须取决于各自的适应性。每种语言在走向完全数字化和标准化的道路上都处于不同的进程。因此,一些语言会有官方的正字和新词使用程序,个人将接受有关培训。对于这些语言来说,许多标准质量管理规范仍然可用,更重要的是要确保有足够多使用它的人。 其他语言目前没有享受到标准化资源的好处,在数字化道路上仍处于非常早期的状态。除了缺乏标准化资源外,他们在Unicode中的代表性也有限,而且界定“合格译者”的标准也各不相同。在缺乏这些资源的情况下,译者将不得不依靠公司风格指南和术语来保持一致性,并努力提高通过翻译记忆来实现语句层面一致性的能力。 Mozilla目前还建立了自己的群体翻译管理系统(TMS):Pontoon。为这些语言服务的技术水平如何?是否会因缺乏MT和CAT工具,以及术语库软件的支持而面临挑战? 出于刚刚谈到的原因,它们的技术水平各不相同,质量标准和管理也各不相同:它们是随着完全数字化和标准化的道路一起发展的。这完全取决于特定语言环境的数据。CAT工具和术语库软件依赖于Unicode提供的语言环境数据。这些数据通常会被导入到软件中,因此如果该语言具有Unicode中定义的日期/时间格式、字符集和多条规则,那么这些工具也可能会能提高数据支持。 MT和语音技术使“大数据挑战”更加复杂。大数据面临的挑战可以分为三类:缺少数据集,数据集未结构化和许可方面的限制。虽然机器学习算法基本上可以适应所导入的语言,但问题在于是否有权访问足够大、合适且有注释的数据,以便这些算法处理。像SYSTRAN和TAUS这样的组织正致力于通过数据和神经模型作为中介来解决其中的一些问题,但此类数据集平台如何解决这些语言面临的问题还需要时间。 在处理长尾语言的过程中,最让你惊讶的是什么? 我观察到,在FIGS或其他常见目标语言环境本地化与长尾语言本地化有一个主要区别,就是译者会用很多独特的方式发挥他们的创造力。对于德语来说,几乎总是会有用户界面(UI)文本区域的限制。然而,对于许多长尾语言来说,除了这些限制之外,它们通常享受不到已有目标语言同等的便利。我非常惊讶于这些译者的创造力,他们能用新词从技术概念中创造出新的术语。能够参与到这个过程并见证它们非常有趣。 哪种长尾语言是最难的? 我不会说具体是哪种语言,但我会说,我们所处理过的语言中,缺乏标准化支持的往往是最具挑战性的。我们要么得自定义多个规则,要么就要等到它们在Unicode上游被定义好。当然,我们可以做更多的工作,通过将语言群体向上引入到Unicode(或向Unicode展示语言群体)来弥补环境数据鸿沟,但对于许多语言群体来说,弥补这道鸿沟还存在技术障碍。Translation Commons正在做的工作是定义一个数字化路线图,并帮助这些语言群体沿着这个路线走下去,开启许多新道路,并降低本地化这些语言的复杂性。 有什么趣闻轶事会在你的“最爱时刻”中流传下来吗? 这不是我自己的故事,是我们派了一个本地化项目经理去巴拉圭给Mozilla 的Aguaratata(瓜拉尼的火狐)语言群体做支持,发布桌面版和安卓版火狐。直到她落地在机场被接到时,她才意识到自己要出现在巴拉圭电视台,谈论本地化启动,采访的时间在她落地后的一个小时左右。幸运的是,她的西班牙语很流利,可以接受采访,但她刚刚才结束12个小时的旅程到达巴拉圭,就突然间被推到了聚光灯下! 你对开发长尾语言策略的人有什么建议? 我有三条建议:第一,明确你开发长尾语言策略的目的。因为与西班牙语与或日语等相比,要获得任何预期的回报都要花费更多的时间,所以你需要一个有目标导向的策略来维持长期的努力。第二,与单一语种供应商或本地人直接合作。与你所习惯的文化和语言相比,你要应对的文化和语言可能要从一个更独特的地方着手,并且会遇到只有深植于该文化中的专家才能克服的挑战。最后,要明了并与人合作。这些语言面临的最大挑战之一是缺乏可用的资源和数据。想方设法分享你创建的数据,并与那些与你的战略目标一致的组织合作,这样就能推动整个长尾语言的开发。 公司现在可以做些什么来确保扩展性和以后对长尾语言的支持,即使他们可能在近几年内都无法解决这些问题? 我深信,文化智能水平高的公司可以做出好产品。投资具有多样性和包容性的活动,雇佣具有高水平文化智慧和同理心的人,可以为有目标导向的策略奠定基础,而你正需要这个策略来帮你持续努力开发长尾语言。 推特 WhatsApp 电子邮箱 Print

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文