Issue #132 - Tokenization strategies for Korean MT tasks

第132期-韩国语MT任务的标记化策略

2021-06-08 13:15 RWS Moravia Insights

本文共50个字,阅读需1分钟

阅读模式 切换至中文

Table 1: An input sentence 나랑 쇼핑하자. ‘Let’s go shopping with me.’ is tokenized in different ways depending on the various tokenization strategies. Slashes (/) are token separators. Table 2: BLEU scores of Ko-En and En-Ko translation models of various tokenization strategies. For English, all subword models are of the size 32K.
表1:一个输入句子。'let's go shopping with me.‘根据不同的标记化策略以不同的方式标记。斜杠(/)是标记分隔符。 表2:各种表征化策略的Ko-En和En-Ko翻译模型的BLEU评分。对于英语,所有子词模型的大小都是32K。

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文