TAUS数据销售促进多语言LLM

2024-04-09 07:05:36 multilingual

本文共654个字,阅读需2分钟

阅读模式 切换至双语

TAUS现在以超过原价97%的折扣出售其近74亿字的综合数据集。销售将于2024年4月30日结束。提供的74亿字都是非公开的,独特的,人工翻译质量数据,涵盖483种语言对。 TAUS自2008年以来一直在收集翻译数据,并在过去15年中将其出售给大型科技公司,用于培训他们的机器翻译引擎。现在,注意力当然完全从MT转移到LLM。LLM也应该擅长翻译。但是,如果能在更高质量的多语言数据上进行更好的培训,它们可以做得更好。 在统计MT和神经MT的早期,TAUS数据服务于几十个MT开发人员的相对较小的受众。自2023年以来,景观发生了巨大变化。有了GenAI和LLM,成千上万的新玩家对定制和改进通用模型感兴趣。TAUS的多语言数据特别相关和有价值,特别是因为大多数LLM几乎只接受过英语数据的培训(超过90%)。然而,TAUS历史上收取的费率-每百万字1,500至2,500欧元-现在对于新一代的小规模用户来说太高了,他们不太关注通用模型,而更关注定制模型。这就是为什么TAUS数据现在可以以高达97%的折扣获得。 “数据需求发生了变化,”TAUS解决方案架构师Amir Kamran说。“LLM开发人员现在正在寻找具有更多上下文的数据,以提高语言生成功能的整体性能和准确性。对于翻译性能,他们倾向于依赖迁移学习,这导致LLM的多语言和翻译功能表现不佳。TAUS数据有助于提高翻译质量分数,提高了两位数的百分点。 请联系TAUS或填写在线表格,以获取数据目录,样品和定价。您可以购买整个集合或选择特定的语言对。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文