自然语言处理——4. 语料库与语言知识库

基本概念

1. 语料库

  • 语料库(corpus)就是存放语言材料的仓库(语言数据库)。
  • 基于语料库进行语言学研究-语料库语言学(corpus linguistics)

2. 语料库语言学

  • 根据篇章材料对语言的研究称为语料库语言学。-[Aijmer, 1991]
  • 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。-[McEnery, 1996]
  • 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。-[Crystal, 1991]

3. 语料库语言学研究的内容:

  • 语料库的建设与编纂
  • 语料库的加工和管理技术
  • 语料库的使用

语料库技术的发展

1. 20世纪50年代中期之前:早期

语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等

2. 1957~20世纪80年代初期:沉寂时期

3. 20世纪80年代以后:复苏与发展时期

4. 语料库技术复苏的原因

(1)计算机的迅速发展;
(2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。

国内语料库研究状况

  • 武汉大学汉语现代文学作品语料库(1979年,527万字)
  • 北航现代汉语语料库(1983年,2000万字)
  • 北师大中学语文教材语料库(1983年,106万字)
  • 北京语言学院现代汉语词频统计语料库(1983年,182万字)、目前北京语言大学正面向“一带一路”战略开展语料库研究和开发工作
  • 1991年中国国家语言文字工作委员会开始建立国家级大型汉语语料库,以推进汉语的词法、句法、语义和语用研究,其计划规模将达7000万汉字
  • 清华大学汉语歧义切分语料库(1998年,1亿汉字),后来在汉语树库、篇章语料库建设等方面做了大量研发工作

语料库的类型

1. 按内容构成和目的划分(4种类型)

  • 异质的(heterogeneous)-[黄昌宁,2002]
    最简单的语料收集方法,没有事先规定和选材原则。
  • 同质的(homogeneous)
    与“异质”正好相反,比如美国的TIPSTER 项目只收集军事方面的文本。
  • 系统的(systematic)
    充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
  • 专用的(specialized)
    如:北美的人文科学语料库。

2. 按语言种类划分

  • 单语的
  • 双语的或多语的
    篇章对齐/ 句子对齐/ 结构对齐

3. 是否标注?(生语料、熟语料)

  • 具有词性标注
  • 句法结构信息标注(树库)
  • 语义信息标注

4. 平衡语料库

  • 平衡语料库着重考虑语料的代表性与平衡性。
  • 语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。

5. 平行语料库

两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。

另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库

6. 已有的双语资源

•加拿大议会会议录(Canadian Hansards) http://www.isi.edu/natural-language/download/hansard/
•克姆尼茨英-德翻译语料库(Chemnitz E-G Translation Corpus) http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm
•英语-挪威语平行语料库(ENPC) https://www.hf.uio.no/ilos/english/services/omc/enpc/
•葡-英双向平行语料库(Compara) http://www.linguateca.pt/COMPARA/Welcome.html
•香港立法委员会会议记录(Hong Kong Hansards) http://catalog.ldc.upenn.edu/LDC2000T50
•香港新闻(Hong Kong News)
•香港法律(Hong Kong Laws)

7. 共时语料库与历时语料库

  • 共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。
  • 历时语料库是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。
  • 判断历时语料库的4条原则-[张普, 2003]
    (1)是否动态:语料库必须是开放的、动态的。
    (2)文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的。4.4 语料库的类型
    (3)深加工是否基于动态的加工方法:随语料的动态变化采集,并进行动态地加工。
    (4)是否取得动态的加工结果:语料的加工结果也应是动态的和历时的。

语料库建设中的问题

1. 语料库设计需要考虑的问题

  • 静态与动态
    一种主张认为,应建立动态的或监督语料库(monitor corpus):文本集的收集通常是随遇的,而不是平衡的。而另一种主张认为,应该建立相对静态的、平衡的。其实每种主张均与研究或应用目的密切相关。
  • 代表性和平衡性
    一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。
  • 规模
    第一代语料库100万词次
    1990s :1000-2000万词次小型的一般语料库
  • 一般而言,在保证质量的前提下应足够大。
    语料库的管理与维护
    错误修正或改善
    版本升级
    语料库的检索系统、分析和处理工具的维护等

2. 汉语语料库开发中存在的问题

  • 语料库建设的规范问题
  • 产权保护和国家语料库建设问题

典型语料库介绍

1. 布朗语料库(Brown Corpus)

  • 是世界上第一个根据系统性原则采集样本的标准语料库,100万词规模;
  • 选自1961年美国人撰写出版的普通语体的文本;
  • 15种题材,共500个样本,每个样本不少于2000词;

2. LLC口语语料库(London-Lund Corpus of Spoken English )

  • 2000 小时的对话和广播等口语素材
  • 87个文本,每个文本约5000词,最终规模50万词
  • 5大类:面对面交谈;电话交谈;讨论;采访;辩论,未经准备的当众评论、论证、演讲,经准备的当众演讲
  • 标注:语调、节律、关键词(语段),词类、出现次数、搭配关系等

3. 朗文语料库(Longman Corpus)

  • 设计原则:(1) 尊重本族语言者的直觉和语料库权威;(2) 向研究人员提供语料(英国50%,美国40%,其它国家10%);(3)书面语。
  • 10个分布广泛的领域:自然和纯科学、应用科学、社会科学、世界事务等
  • 2800 万词

4. 宾夕法尼亚大学(UPenn)树库(Tree Bank)(http://www.ldc.upenn.edu/)

  • 1993年完成约300万词次英语句子的语法结构标注
  • 2000年完成第一版汉语树库,约10万词次,4185个句子
  • Chinese Tree Bank (CTB) 中汉语词性(part-of-speech)被划分为33类,23类句法标记(Syntactic tags)
    举例

    举例:外商投资企业在改善中国出口商品结构中发挥了显著作用。

5. 宾夕法尼亚大学树库的扩展

(1) PropBank (Proposition Bank)
(2) NomBank(Nominalization Bank)
(3) UPenn语篇树库

6.汉语篇章树库(CDTB)1.0

7. 北京大学开发的CLKB

8. 台湾中研院平衡语料库(SinicaCorpus)

  • 世界上第一个带有完整词类标记的汉语平衡语料库
  • 520万词次(789万汉字)汉语平衡语料库
  • 设计思想:1) 遵循台湾计算语言学会的分词标准; 2) 采样时以自然段落为准,不看文章长度; 3) 采用多重分类法。
  • 2003年增加了汉英平行语料库,含2373 个汉英平行对照文本;北大现代汉语语料库,规模约为8500万汉字

9. 布拉格依存树库(Prague Dependency Treebank, PDT)(http://www.elsnet.org/nps/0040.html)

历时8年,两个阶段:1996年至2000年为第一阶段,主要完成了形态和句法分析层的标注工作,形成了PDT 1.0版;2000年至2004年为第二阶段,主要进行树库的深层语法层(tectogrammaticallayer) 的信息标注,形成PDT 2.0 版。

  • PDT包含三个层次
    形态层(morphological layer):PDT 的最低层,包含全部的形态信息标注;
    分析层(analytic layer):PDT 的中间层,主要是依次关系中的表层句法信息标注,层次概念上接近于Penn Treebank中的句法标注;
    深层语法层(tectogrammaticallayer):PDT 的最高层,表达句子的深层语法结构。

10. 中国中文语言资源联盟(Chinese LDC)

http://www.chineseldc.org(192. 168. 88. 2)

10. 口语语料库: BTEC (Basic Traveler’s Expression Corpus)

11. CASIA-CASSIL 语料库

  • 选自15000余段汉语电话对话录音
  • 每段平均不少于90秒、10个回合(turns),如:
  • 标注信息:
    •回合数
    •说话人性别
    •文字
    •汉字音节
    •汉字发音
    •音素边界
    •句子重音
    •非语声语音
    •语气
    •主题
    •话语行为
    •非规范性
    •情感

词汇知识库

1. WordNet(http://wordnet.princeton.edu/ )

  • 普林斯顿大学(Princeton University) 认知科学实验室George A. Miller教授领导开发
  • 开发目的:解决词典中同义信息的组织问题
  • 目前规模:95600 英语词条,其中,51500个简单词,44100个搭配词。70100个词义(同义词集合)。
  • 五大类词汇:名词、动词、形容词、副词、虚词。(实际上WordNet中仅包含前4类)
  • 特色:根据词义(而不是词形)组织词汇信息,从某种意义上讲,它是一部语义词典。
  • WordNet 按语义关系组织:语义关系看作是同义词集合之间的一些指针,语义关系是双向的。如果词义\{x_1, x_2, …\}\{y_1, y_2, …\}之间有一种语义关系R,则在\{y_1, y_2, …\}\{x_1, x_2, …\} 之间也有语义关系R。属于这两个同义词集合的单词之间的关系也是R
  • 4种语义关系
     同义关系(synonymy)
     反义关系(antonymy)
     上下位关系(hypernmy/ hyponym)或称从属/上属关系:如:{枫树}是{树}的下位,{树}是{植物}的下位。
     部分关系(meronymy)或称部分/整体关系。
  • 名词的25个独立起始概念
    {动作,行为,行动}、{自然物}、{动物,动物系}、{自然现象}、{人工物}、{人,人类}、{属性,特征}、{植物,植物系}、{身体,躯体}、{所有物}、{认知,知识}、{作用,方法}、{信息,通信}、{量,数量}、{事件}、{关系}、{直觉,情感}、{形状}、{食物}、{状态,情形}、{团体,组织}、{物质}、{场所,位置}、{时间}、{目的}
  • 21000个动词词形、约8400个词义,14个文件
    照顾动词,功能动词,变化动词,认知动词,通信动词,竞争动词,消费动词,接触动词,创作动词,感情动词,运动动词,感觉动词,占用动词,社会交往动词,天气变化动词。
  • 19500个形容词词形,近10000个词义
  • WordNet 的应用
    词汇消歧,语义推理,理解等。
    描述性形容词,参照修饰形容词,颜色形容词,关系形容词。

2. 知网(HowNet) (http://www.keenage.com)

  • 1988年由董振东教授提出,4个基本观点
    (1) NLP系统最终需要更强大的知识库的支持。
    (2) 知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。一个人比另外一个人有更多的知识说到底是他不仅掌握了更多的概念,尤其重要的是他掌握了更多的概念之间的关系以及概念的属性与属性之间的关系。
    (3) 关于知识库建设,他提出应首先建立一种可以被称为知识系统的常识性知识库。它以通用的概念为描述对象,建立并描述这些概念之间的关系。
    (4) 首先应由知识工程师来设计知识库的框架,并建立常识性知识库的原型。在此基础上再向专业性知识库延伸和发展。专业性知识库或称百科性知识库主要靠专业人员来完成。这里很类似于通用的词典由语言工作者编纂,百科全书则是由各专业的专家编写。
  • 知网的哲学
  • 知网的特色
    知网作为一个知识系统,名副其实是一个网而不是树。它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共性。
    同时知网还着力要反映概念之间和概念的属性之间的各种关系。
  • 知网描述了下列各种关系:
    (a)上下位关系(由概念的主要特征体现)
    (b)同义关系
    (c)反义关系
    (d)对义关系
    (e)部件-整体关系
    (f)属性-宿主关系
    (g)材料-成品关系
    (h) 施事/经验者/关系主体-事件关系(由在事件前标注* 体现,如“医生”,“雇主”等)
    (i)受事/内容/领属物等-事件关系(由在事件前标注$ 体现,如“患者”,“雇员”等)
    (j) 工具-事件关系(由在事件前标注* 体现,如“手表”,“计算机”等)
    (k) 场所-事件关系(由在事件前标注@ 体现,如“银行”,“医院”等)
    (l) 时间-事件关系(由在事件前标注@ 体现,如"假日","孕期"等)
    (m) 值-属性关系(直接标注无须借助标识符,如“蓝”,“慢”等)
    (n) 实体-值关系(直接标注无须借助标识符,如“矮子”,“傻瓜”等)
    (o) 事件-角色关系(由加角色名体现,如“购物”,“盗墓”等)
    (p) 相关关系(由在相关概念前标注# 体现,如“谷物”,“煤田”等)
  • 词语例子:
    NO.=000001
    W_C=打
    G_C=V
    E_C=~ 酱油,~ 张票,~ 饭,去~ 瓶酒,醋~来了
    W_E=buy
    G_E=V
    E_E=
    DEF=buy|买
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,123评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,031评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,723评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,357评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,412评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,760评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,904评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,672评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,118评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,456评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,599评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,264评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,857评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,731评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,956评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,286评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,465评论 2 348

推荐阅读更多精彩内容