Hugging Face正式涉足机器翻译领域，推出1000多个模型--翻译技术速递

本周，Hugging Face一口气发布了1000多个模型，迈出了进入机器翻译领域的第一步。研究人员使用了无监督学习和开放并行语料库(OPUS)训练模型。OPUS是赫尔辛基大学及其全球合作伙伴开展的一个项目，旨在收集和开源各种语言数据集，特别是低资源语言数据集。低资源语言是那些训练数据比英语等更常用的语言少的语言（即小语种）。 OPUS项目开始于2010年，整合了JW300等流行数据集。耶和华见证人的文本有380种语言版本，被用于很许多低资源语言的开源项目，例如Masakhane，创建机器翻译将其从英语翻译成2000种非洲语言。翻译可以使讲不同语言的人之间进行人际交流，并使世界各地的人能够参与在线或面对面交流，这在可预见的未来里尤为重要。 Hugging Face和赫尔辛基大学语言技术与研究小组（University of Helsinki Language Technology and Research Group）提供的模型中，大部分都是用OPUS数据集训练的模型。在本周之前，Hugging Face最出名的是它能够方便地访问最先进的语言模型和语言生成模型，比如谷歌的BERT，它可以预测下一个将出现在文本中的字符、单词或句子。 Hugging Face的 Transformer Python 库目前已有超过 50 万 pip 安装量，其中收编了最先进的NLP模型，如Google AI的BERT和XLNet、Facebook AI的RoBERTa和OpenAI的GPT-2。 Hugging Face首席执行官Clément Delangue告诉本报，进入机器翻译领域初衷是建立更多社区，该公司在2019年末获得1500万美元的融资后，致力于围绕前沿的NLP建立更多社区。他说:“因为我们是开源的，很多人都在使用我们的库，所以我们开始看到越来越多不同语言的人聚在一起，用不同的语言对我们的一些模型进行预训练，特别是低资源语言，这些语言有点被NLP社区的很多人遗忘了。” “它让我们意识到，在实现民主化NLP的目标中，不仅仅是要像我们此前一直在做的那样仅在英语领域中取得成绩，而是越来越多地在模型中提供访问其他语言的机会，同时还提供翻译。” Delangue还表示，这一决定是由于机器翻译和序列到序列(Seq2Seq)模型最近取得的进展。 Delangue说，HuggingFace最近几个月才开始使用Seq2Seq模型。最近值得注意的机器翻译模型包括Google的T5和Facebook AI的BART，BART是用于训练Seq2Seq模型的自动编码器。 Delangue表示：“在一年前，我们可能不会这么做，因为纯机器翻译的效果不是那么好。现在，机器翻译的水平逐渐提高了，机翻译文逐渐可用。”他还补充道：“Hugging Face将继续探索用于翻译的数据增强技术。” 这则新闻是在本周早些时候与Weights & Biases的整合之后发布的，以支持跟踪、记录和比较训练实验的可视化。 HuggingFace去年秋天将其Transformer库添进了TensorFlow。

以上中文文本为机器翻译，存在不同程度偏差和错误，请理解并参考英文原文阅读。

阅读原文

机器翻译

工具

翻译管理

本地化