机器口译中的情境意识

2024-01-22 18:50:09 GALA

本文共2938个字,阅读需8分钟

阅读模式 切换至双语

机器口译是口语翻译的一个分支,正在经历快速的发展。这一领域最近的进步在健壮的端到端系统的开发中尤为明显。这些系统利用单一语言模型将口语内容从一种语言直接翻译成另一种语言。尽管这项技术令人印象深刻,但它目前只在离线语音翻译任务中得到最佳应用。当谈到实时同声翻译时,这是我的主要兴趣领域,级联系统及其多方面的组件和可能的配置仍然是黄金标准。尽管级联系统具有固有的复杂性和内在局限性,但它们呈现出一个明显的优势:它们擅长整合生成式人工智能的最新创新。这种兼容性为语音翻译质量的即时增强铺平了道路。 让人工智能读懂字里行间的意思 我最近接受了《国家报》的采访,在采访中我认为现实世界语音翻译的最大挑战之一可以通过ChatGPT或LLama2这样的大型语言模型(LLM)来解决,至少在一定程度上。我要解决的挑战是以一种受交际语境影响的方式进行翻译的能力,这需要对偶然情况的某种形式的“理解”。鉴于“理解”一词的争议性和缺乏一个普遍接受的定义,我用引号括起来。出于我们的目的,让我们将理解定义为积累足够知识的能力,以使系统能够连贯地响应并与交流环境保持一致。这包括基本的共指解析(识别谁在和谁说话,他们的性别,地位,角色),调整术语,语域和风格(作为专家和外行人说话),辨别字面陈述之外的隐含意义(推断潜台词,意图等)等技能。传统的神经机器翻译(NMT)在这些方面存在不足。相反,尽管有其内在的局限性,法律硕士的推理和情境学习能力在这些领域表现出了非凡的熟练程度。因此,它们可能是帮助语音翻译超越其主要限制的关键,即缺乏与交际语境的内在联系。不用说,这为更丰富的翻译体验铺平了道路。 利用LLMs增强语音翻译 如果您已经与高级大型语言模型(例如,类似于GPT-3.5-turbo)进行了广泛的交互,它的潜力就变得显而易见了。将交际行为分解成其核心组成部分。随着行动的进展和参与者引入新的信息,评估任何一方采取具体行动的可能性。探索关于说话者意图的模型,预测对话的潜在轨迹,并且,有了足够的上下文信息,你将观察到LLM可以从这些数据中收集到有趣的见解。这是我所说的情境意识的基础(不同于这里描述的“更高”层次的意识)。 这种能力值得探索。目前,我的研究旨在利用大型语言模型: 通过上下文消除意思的歧义。 理解并不断增加关于交际事件的知识。 评估系统对获得的知识的信心。 基于对交流的理解触发翻译决策。 这一进程在各个方面提出了令人着迷的挑战。从计算机科学的角度来看,问题出现了:一个LLM能理解一个交流事件有多深,我们能采取什么措施来帮助它的理解?在翻译方面,一旦我们积累了足够的上下文数据,我们如何利用它来战略性地增强机器口译? 集成框架语义实现上下文感知 我正在开发的解决这一挑战的初始方面的方法从框架语义学中汲取灵感,框架语义学是Charles J.Fillmore在20世纪70年代提出的一种理论。这一理论将语言语义学与百科知识联系起来。在这个框架内,在一个新的语境中使用一个词意味着将它与过去的经历进行比较,看看它们在意义上是否匹配。菲尔莫尔用场景和框架的概念来解释这一点。术语“框架”指的是语言选项或结构的集合,这些选项或结构反过来唤起一种心理表征或“场景”。菲尔莫尔将场景描述为任何可识别的体验、互动、信念或想象,无论是否是视觉的。场景和帧以帧到场景、场景到帧、场景到场景和帧到帧的模式不断地相互刺激。具体来说,激活过程与独特的语言结构(如从句)触发联想的情况有关。然后,这些联想促进了其他语言结构,并引发了更多的联想。这种相互作用确保了文本中的每一个语言元素都受到另一个元素的影响,有助于从语言陈述中提取甚至构建意义。本质上,它促进了对情况的理解或解释。我的目标是使用LLM综合激发和调节场景和框架之间的相互作用,旨在将语境意识注入翻译过程。 情境意识的挑战与机遇 语音翻译为探索这种方法提供了一个理想的环境。它与对话设计有相似之处——可以说是它最直接的应用——但也有更直接的评估标准和指标的优势。在我的工作假设中,LLM要显著增强翻译过程,它需要转变为一个善于辨别现实世界场景的细微差别、逻辑和动态的交流代理,然后将这种理解引入翻译。这是一个不小的壮举,一方面考虑到LLMs目前的局限性,另一方面考虑到现实生活中交流的复杂性,尤其是多语言交流。LLMs的理解完全基于文本所能提供的见解。例如,他们缺乏处理视觉指标的能力,而对于语音翻译来说至关重要的是,他们无法从声学线索中解码细微差别,如韵律。毫无疑问,这一不断扩大的挑战清单对于有效的口头交流是至关重要的,而这些挑战现在已经成为限制。 解读语言输入 然而,LLMs破译纯语言输入的能力是值得称赞的,因为它是通过简单推理可以获得的知识量。令人惊讶的是,优秀的法律硕士能够从最少且通常是部分的输入(框架)中提取洞察力。特定上下文数据(场景)的可用性增强了代理对情况的自上而下的理解,创建了场景——帧-场景激活的连续反馈循环。有趣的是,虽然对场景的初步理解对于启动这个循环是至关重要的,并且因此必须从外部强制,例如通过描述一般的交流设置,但是随着交流的发展,通过集成新的框架,场景将逐渐和自动地丰富。这反过来又允许代理自主地适应不断发展的通信环境。这是情境意识在起作用。 确保语言处理的精确性 让我们明确一点,这种方法并非没有挑战。由于LLMs主要在语言表面结构上操作,帧/场景激活很容易误入歧途。我指的不是众所周知的幻觉,而是对正在进行的对话的明显误解。人类拥有强大的控制机制来防止这种偏差,并允许对话者(或我们特定情况下的口译员)与交际情境的发展保持一致。当然,人类在这里也不是完美的,“沟通不畅”或“误解”无时无刻不在发生。但是这些机制非常复杂,到目前为止,它们仍然很难被计算机模拟。让我们不要忘记,我们的目标不是完美,而是一步一个脚印地攀登这个复杂的阶梯。 利用洞察力实现实时翻译 现在,假设我们已经通过场景和框架激活获得了对交流的某种程度的“理解”,那么紧迫的问题就变成了如何利用这些见解来改进翻译。以及如何实时做到这一点,即在不知道对话的完整上下文的情况下(顺便提一下,这是机器口译的另一个特殊挑战之一)。 出现了两种主要方法:隐式方法和显式方法。它们可以和谐共处。但是让我们简单地分别考虑一下。隐含策略包括使用LLM来掌握上下文,同时根据这种理解调整翻译。从本质上讲,由于其固有的过程,LLM直接提供了一个更适合上下文的翻译,即没有外部干预。我们已经可以展示令人印象深刻的改进(大约25%取决于语言组合),只需将LLM注入翻译管道,并精心制作与利害攸关的任务相一致的指令。 虽然这种方法很简单,并产生了明显的改进,但我发现它没有那么吸引人,而且也不是没有缺点。更吸引人的是明确的策略。在这里,我们试图从场景/帧激活中提取洞察力,并利用这种元语言信息来指导翻译过程,即通过将这种知识嵌入到动态提示序列中。这与语境学习和思维链提示技术都有相似之处,但需要进行重大修改,以解决口语翻译带来的独特挑战,这些挑战太广泛,无法在此深入探讨。 我们一直在寻找与我们的行业相关的信息丰富、有用和经过充分研究的内容。 给我们写信。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文