Hugging Face正式涉足机器翻译领域,推出1000多个模型

2020-05-27 22:30:33 venturebeat

本文共1305个字,阅读需4分钟

阅读模式 切换至双语

本周,Hugging Face一口气发布了1000多个模型,迈出了进入机器翻译领域的第一步。研究人员使用了无监督学习和开放并行语料库(OPUS)训练模型。OPUS是赫尔辛基大学及其全球合作伙伴开展的一个项目,旨在收集和开源各种语言数据集,特别是低资源语言数据集。 低资源语言是那些训练数据比英语等更常用的语言少的语言(即小语种)。 OPUS项目开始于2010年,整合了JW300等流行数据集。 耶和华见证人的文本有380种语言版本,被用于很许多低资源语言的开源项目,例如Masakhane,创建机器翻译将其从英语翻译成2000种非洲语言。 翻译可以使讲不同语言的人之间进行人际交流,并使世界各地的人能够参与在线或面对面交流,这在可预见的未来里尤为重要。 Hugging Face和赫尔辛基大学语言技术与研究小组(University of Helsinki Language Technology and Research Group)提供的模型中,大部分都是用OPUS数据集训练的模型。 在本周之前,Hugging Face最出名的是它能够方便地访问最先进的语言模型和语言生成模型,比如谷歌的BERT,它可以预测下一个将出现在文本中的字符、单词或句子。 Hugging Face的 Transformer Python 库目前已有超过 50 万 pip 安装量,其中收编了最先进的NLP模型,如Google AI的BERT和XLNet、Facebook AI的RoBERTa和OpenAI的GPT-2。 Hugging Face首席执行官Clément Delangue告诉本报,进入机器翻译领域初衷是建立更多社区,该公司在2019年末获得1500万美元的融资后,致力于围绕前沿的NLP建立更多社区。 他说:“因为我们是开源的,很多人都在使用我们的库,所以我们开始看到越来越多不同语言的人聚在一起,用不同的语言对我们的一些模型进行预训练,特别是低资源语言,这些语言有点被NLP社区的很多人遗忘了。” “它让我们意识到,在实现民主化NLP的目标中,不仅仅是要像我们此前一直在做的那样仅在英语领域中取得成绩,而是越来越多地在模型中提供访问其他语言的机会,同时还提供翻译。” Delangue还表示,这一决定是由于机器翻译和序列到序列(Seq2Seq)模型最近取得的进展。 Delangue说,HuggingFace最近几个月才开始使用Seq2Seq模型。 最近值得注意的机器翻译模型包括Google的T5和Facebook AI的BART,BART是用于训练Seq2Seq模型的自动编码器。 Delangue表示:“在一年前,我们可能不会这么做,因为纯机器翻译的效果不是那么好。 现在,机器翻译的水平逐渐提高了,机翻译文逐渐可用。”他还补充道:“Hugging Face将继续探索用于翻译的数据增强技术。” 这则新闻是在本周早些时候与Weights & Biases的整合之后发布的,以支持跟踪、记录和比较训练实验的可视化。 HuggingFace去年秋天将其Transformer库添进了TensorFlow。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文