NLP任务中术语的作用

在自然语言处理的任务当中,术语在相当一部分中占有了优化效果的作用。与优化算法、语料清洁等等一样,它能够带来的效果也会十分可观,而且人们对由术语产生的提升察觉度也十分高。下面针对NLP各个子任务进行术语作用的阐述。

1.机器翻译

a.译后术语替换,提升翻译质量。

此举措是个简单粗暴但有效的方法。但是确定其可行性,也是要求提取的术语满足两个前提:术语本身具有很高的稳定性,也就是说,某个术语只有一般来说一种对应译文。其次术语本身和其他词汇有很高的分离度,在批量替换的时候,不易"误伤"。由于以上两个特点,批量的替换某个术语列表在译文中的译词,是有很高的操作性,并且会带来极大的裨益。不过也要根据语料词汇特点来分析,确保避免重大的替换失误。假如某小说中,主人公的昵称为“零”,如果选择在译文中用音译版本“Ling”,那么就要考虑出现零本意的情况下该如何处理。

b.训练机器模型,提高模型表现。

这一步也是会提升模型之后在某个垂直领域语料中的翻译表现。往往会作为单独或在训练模型中的配套步骤,用于针对某一类型语料的翻译模型训练中。而且可以和a步骤配套使用,就能低开销地生成一批训练语料:首先将机翻译文中的术语进行替换;然后进行快速简单,但又能保证基本质量的人工译后编辑(成本控制),制做出一批训练语料;将其投入训练引擎中;制做或寻找自然的双语对照文本,作为测试集,检测引擎质量;以上步骤不断优化迭代。在迭代的过程中,处理的术语量每批次会越来越少,其数量会控制在人工可审核编辑的范围中。

但是想要术语词表在以上两个步骤中发挥作用,是有一个逻辑上的悖论,想要在人工翻译前进行产生高质量术语双语列表,但是给术语词表进行翻译本身就是一个需要人工耗时的工作。在这一步人工投入过多,会违背提升效率减少人工的初衷。那么如何在人工翻译之前,产生针对目标文本的双(多)语对照术语表呢?请见后续文章,如何从无到有制作双(多)语术语对照表

2.文本分类

对于文本的分类,很大意义上就是对于文中词汇的类型检测。如果我们有待分类的a、b、c...类型,且有对于每一种类型的术语表(词表)。那么通过统计的方式,依次计算每个术语表在各个待分类文本的分布情况,得出一个此文本属于某个分类概率,以此来预计出文本的分类。

3.知识图谱(超出nlp领域)

知识图谱本身其实是由术语(点)及术语间的关系(线),钩织成的对于某一个领域“知识”的描述(网)。可以说,在知识图谱中,术语就是被描述的对象,关系就是对其两个术语(实体)进行的串联。通过这两个类别的信息,我们对现实世界中无论抽象还是具象的事物进行建模。那术语在这其中的重要性自然不言而喻了。

建立某领域知识图谱的第一步,就是获得该领域的术语(实体)集合,且要高质量的术语。一开始宁少勿滥,宁缺无多。从最关键的核心概念及其关系开始,逐步做加法,进行拓展,从而逐步覆盖期望的概念及关系范围。

4.其他NLP任务

在文本摘要、问答任务中,也不难理解,术语都是支撑起任务的锚点。摘要摘取核心信息,也是也术语为基础进行摘取片段的判断。

问答任务当中,回答的也是围绕某个术语(关键词)而抛出的问题,然后根据问题中其他情感词等体现出的细节对其进行回答。那么产生回答的过程当中,术语也会起到作用。最简陋的定位回答的方式,就是通过匹配问题与预先设定好的回答中的关键词(术语),锁定最符合问题的回答。

在这些任务中,实体也许并不都是术语,但是术语在很大程度上都会是实体,而且是实体中优先级相对较高的部分。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351