在自然语言处理的任务当中,术语在相当一部分中占有了优化效果的作用。与优化算法、语料清洁等等一样,它能够带来的效果也会十分可观,而且人们对由术语产生的提升察觉度也十分高。下面针对NLP各个子任务进行术语作用的阐述。
1.机器翻译
a.译后术语替换,提升翻译质量。
此举措是个简单粗暴但有效的方法。但是确定其可行性,也是要求提取的术语满足两个前提:术语本身具有很高的稳定性,也就是说,某个术语只有一般来说一种对应译文。其次术语本身和其他词汇有很高的分离度,在批量替换的时候,不易"误伤"。由于以上两个特点,批量的替换某个术语列表在译文中的译词,是有很高的操作性,并且会带来极大的裨益。不过也要根据语料词汇特点来分析,确保避免重大的替换失误。假如某小说中,主人公的昵称为“零”,如果选择在译文中用音译版本“Ling”,那么就要考虑出现零本意的情况下该如何处理。
b.训练机器模型,提高模型表现。
这一步也是会提升模型之后在某个垂直领域语料中的翻译表现。往往会作为单独或在训练模型中的配套步骤,用于针对某一类型语料的翻译模型训练中。而且可以和a步骤配套使用,就能低开销地生成一批训练语料:首先将机翻译文中的术语进行替换;然后进行快速简单,但又能保证基本质量的人工译后编辑(成本控制),制做出一批训练语料;将其投入训练引擎中;制做或寻找自然的双语对照文本,作为测试集,检测引擎质量;以上步骤不断优化迭代。在迭代的过程中,处理的术语量每批次会越来越少,其数量会控制在人工可审核编辑的范围中。
但是想要术语词表在以上两个步骤中发挥作用,是有一个逻辑上的悖论,想要在人工翻译前进行产生高质量术语双语列表,但是给术语词表进行翻译本身就是一个需要人工耗时的工作。在这一步人工投入过多,会违背提升效率减少人工的初衷。那么如何在人工翻译之前,产生针对目标文本的双(多)语对照术语表呢?请见后续文章,如何从无到有制作双(多)语术语对照表。
2.文本分类
对于文本的分类,很大意义上就是对于文中词汇的类型检测。如果我们有待分类的a、b、c...类型,且有对于每一种类型的术语表(词表)。那么通过统计的方式,依次计算每个术语表在各个待分类文本的分布情况,得出一个此文本属于某个分类概率,以此来预计出文本的分类。
3.知识图谱(超出nlp领域)
知识图谱本身其实是由术语(点)及术语间的关系(线),钩织成的对于某一个领域“知识”的描述(网)。可以说,在知识图谱中,术语就是被描述的对象,关系就是对其两个术语(实体)进行的串联。通过这两个类别的信息,我们对现实世界中无论抽象还是具象的事物进行建模。那术语在这其中的重要性自然不言而喻了。
建立某领域知识图谱的第一步,就是获得该领域的术语(实体)集合,且要高质量的术语。一开始宁少勿滥,宁缺无多。从最关键的核心概念及其关系开始,逐步做加法,进行拓展,从而逐步覆盖期望的概念及关系范围。
4.其他NLP任务
在文本摘要、问答任务中,也不难理解,术语都是支撑起任务的锚点。摘要摘取核心信息,也是也术语为基础进行摘取片段的判断。
问答任务当中,回答的也是围绕某个术语(关键词)而抛出的问题,然后根据问题中其他情感词等体现出的细节对其进行回答。那么产生回答的过程当中,术语也会起到作用。最简陋的定位回答的方式,就是通过匹配问题与预先设定好的回答中的关键词(术语),锁定最符合问题的回答。
在这些任务中,实体也许并不都是术语,但是术语在很大程度上都会是实体,而且是实体中优先级相对较高的部分。