Apple和USC为机器翻译中的性别偏见提出解决方案--翻译技术速递

在2024年7月29日的一篇论文中，来自苹果和南加州大学的研究人员介绍了一种解决机器翻译（MT）系统中性别偏见的新方法。正如研究人员解释的那样，传统的机器翻译系统通常默认训练数据中统计上最普遍的性别形式，这可能导致翻译错误地表达了预期的含义并强化了社会刻板印象。他们补充说，虽然上下文有时有助于确定适当的性别，但许多情况下缺乏足够的上下文线索，导致翻译中的性别分配不正确。为了解决这个问题，研究人员开发了一种方法，可以识别源文本中的性别歧义，并提供多种翻译选择，涵盖歧义实体的所有可能的性别组合（男性和女性）。 “我们的工作倡导并提出了一种解决方案，使用户能够从所有同样正确的翻译选择中进行选择，”研究人员说。例如，句子“秘书对老板很生气。”包含两个实体--秘书和老板--并且可以根据分配给每个角色的性别，在西班牙语中产生四个语法正确的翻译。研究人员强调，提供反映所有有效性别选择的多种翻译选择是一种“合理的方法”。与在句子一级运作的现有方法不同，这种新方法在实体一级运作，可以更细致地处理针对性别的提法。该过程首先分析源句子，以识别具有模糊性别引用的实体（如名词或代词）。一旦确定，两个单独的翻译创建：一个使用阳性形式，另一个使用阴性形式。最后一步是将这些翻译集成到一个输出中，以保持目标语言的语法完整性。为了生成这些翻译，可以采用微调的MT模型或大型语言模型（LLM）。研究人员强调，当与适当的用户界面相结合时，他们的方法允许翻译人员为每个实体选择正确的性别。“我们的关键技术贡献是一种新的半监督解决方案，用于生成与标准MT模型无缝集成的替代方案，”他们解释说。他们补充说，这一解决方案不仅促进了具有精确性别控制的新翻译界面，而且还通过自动识别歧义并建议替代翻译来帮助人类翻译。为了鼓励进一步的研究，研究人员开源了五种语言对的培训和测试数据集：英语、德语、西班牙语、法语、葡萄牙语、俄语和意大利语。展望未来，他们计划探索其他无性别源语言，如中文、韩语和日语，以及它们所带来的独特挑战。他们还打算扩大其方法，以包括非二元和性别中立的形式。作者：Sarthak Garg，Mozhdeh Gheini，Clara Emmanuel，Tatiana Likhomanenko，Qin Gao，and Matthias Paulik

以上中文文本为机器翻译，存在不同程度偏差和错误，请理解并参考英文原文阅读。

阅读原文

机器翻译

工具

翻译管理

本地化