术语提取和术语工具

2019-10-30 15:35:01 TermCoord

本文共871个字,阅读需3分钟

阅读模式 切换至双语

什么是术语提取? 找出专业术语对应的译文,是翻译工作重要的一部分。例如,法律和工业等学科领域,都具有大量针对特定领域的术语。 另外,许多文档的发起者都有自己倾向于使用的术语。 在翻译过程中,研究翻译所需的特定术语很耗时间,而事实证明,术语提取工具对这个过程大有助益。 术语提取可以是单语的,也可以是双语的。 单语术语提取分析文本或语料库,以此识别候选术语,而双语术语提取则分析现有源文本及其译文,以识别潜在的术语及其对应译文。 因此,术语提取工具可以帮助填充术语库,并为特定任务或项目设置术语。 尽管如此,尽管术语提取工具有助于术语提取,但候选术语的最终列表必须由人类术语学家或翻译人员进行验证。 因此,术语提取过程由计算机辅助,但并非全自动的。 主流的术语提取方法 在术语管理中,主流的术语提取方法主要分三种:语言学法、统计学法和混合法。 语言学法: 采用语言学法的术语提取工具,通常通过匹配相似的词法、句法模式(比如“形容词+名词”模式、“名词+名词”模式,找出可能成为术语的词组。为此,要使用解析器,词性标记器和词法分析器来注释语料库内容。候选的术语可以通过不同的模式匹配技术进行过滤。显然,语言学法与语言紧密相关,因为术语的成分模式因语言而异。因此,使用语言学法的术语提取工具通常设计为只适用于一种语言,或紧密相关的几种语言,而不能轻易地适用于其他语言。 因此,它们不太适合集成到通常与语言无关的TM系统中。 统计法: 使用统计法的术语提取工具往往是查找词汇项的重复序列。用户通常可以指定频率阈值,该频率阈值规定了,一个单词或单词序列必须重复多少次才能被视为候选术语。统计方法的主要优势是它与语言种类关系不大。 混合法: 术语提取中最常见的方法是混合法,这种方法同时使用语言学和统计学信息。 即使此类方法以统计学法为主,但也融入了句法规则和句法过滤,因此可以筛选具有特定语法结构的候选术语。 评估术语提取工具的重要标准,除了筛选候选词的准确程度外,还有受支持的文件格式和语言。并非所有提取工具都支持所有格式的文本。 (有编译、删改)

以上中文文本为机器翻译,存在不同程度偏差和错误,请理解并参考英文原文阅读。

阅读原文