知识抽取与挖掘(二)

大纲

  • 面向文本的知识抽取
    Deep Dive关系抽取实战
    开放域关系抽取
  • 知识挖掘
    实体消岐与链接
    知识规则挖掘
    知识图谱表示学习

面向文本的知识抽取

关系抽取分类

KBC系统
  • 填充、融合不同来源的知识
    输入:非结构化的期刊文章,半结构化的html、table等
    输出:结构化知识库
Deepdive
  • KBC系统的自动搭建框架
    特征工程+distant supervision+图优化
    考虑全局最优而不是某个三元组最优
    帮助领域专家自主搭建KB
  • 技术难点
    设计一个KBC系统的工作流,包括文本预处理、特征抽取、统计推理与学习、迭代优化等;
    利用分布式数据库大幅度提升系统性能。
框架实战:抽取上市公司中的股权交易关系
  • 工程组成:
    app.ddlog:dd,deepdive,log,类dialogue的语言
    db.url
    deepdive.conf
    input文件夹:数据
    udf文件夹:python
  • 先验数据导入
    准备先验数据(国泰安);
    在app.ddlog中定义相应的数据表;
    命令行生成postgresql数据表;
    $ deepdive do pos_transaction
  • 待抽取文章导入
    准备待抽取的文章,名为articles.csv,放在input文件夹下;
    在app.ddlog中定义文章数据表,包括doc_id和content;
    deepdive do articles导入文章到postgresql里
  • 工作流
  • 文章数据预处理
    对数据库中文章数据进行NLP解析;
    在app.ddlog中定义sentence表,存放POS、NER字段;
    定义NLP处理的函数nlp_markup;
    nlp_markup.sh
    函数调用,从articles表中读取输入,输出存放在sentences表中;
    编译执行$ deepdive do sentences,生成sentences表
  • 候选实体抽取
    抽取文本中的候选实体;
    在app.ddlog中定义候选实体表;
    定义候选实体抽取的函数map_company_mention
    map_company_mention.py
    函数调用,从sentences表中读取输入,输出到company_mention中
    Join实体表,筛选出在同句中的不同实体,生成候选实体对;
    编译,生成候选实体对表
  • 特征抽取
    抽取候选实体对的文本特征;
    在app.ddlog中定义特征表;
    定义特征抽取的函数extract_transaction_features;
    输入为sentence的NLP结果,输出NLP组合的各种特征
  • 样本打标
    从候选实体对中标出部分正负例;
    在app.ddlog中定义标签表;
    导入所有的候选实体对,初始标签均为0
    将db数据与候选实体对关联,关联到权重标注为+3,规则标记为从知识库得到
    通过规则再标注一部分实体,输入候选实体对的关联文本,进行打标;
    将规则抽取的标签也加入到transaction_label中
    规则在supervise_transaction.py中定义:
    最后,在多条规则和知识库标记的结果中为每队实体做vote,执行deepdive do transaction label resolved 生成最终标签。
  • 因子图构建
    定义最终存储的表格;
    定义一系列推导关系,构建因子图;
    根据打标的结果,灌入已知的变量
  • 因子图定义
  • 吉布斯采样
  • 权重学习
    最大化和先验变量取值一致的possible world的数目;
    在采样得到的样本上随机梯度下降;
    deepdive针对硬件做了优化,支持分布式、增量式训练;
    执行deepdive do probablities,开始训练。
  • 数据表
  • 其他配置文件
  • 迭代调试

总结-deepdive

模快化,便于更改替换;
NLP影响较大,可以考虑其他端到端模型;
便于分析和迭代开发。
http://www.openkg.cn/tool/cn-deepdive

开放域关系抽取

IE的发展趋势
主要系统
第一代OpenIE系统
第二代OpenIE系统

  • OpenIE的应用
    直接回答问题,形如(A1,?,A2)的问题
    用作其他NLP的特征:
    文本理解,相似度比较

第二部分:知识挖掘

实体链接:给定一片文本中的实体指称(mention),确定这些指称在给定知识库中的目标实体(entity)。

  • 实例一:百科型知识库,适用于长、短文本场景
    生成模型,先计算联合概率,再计算条件概率。
  • 实例二:百科型知识库,适用于长文本场景
  • 示例三:百科型知识库,适用于长文本场景
    候选实体间语义相似度计算(cos)
实体链接总结
  • 知识库的变更:从百科知识库发展到特定领域知识库;
  • 实体链接的载体:从长文本到短文本,甚至到列表和表格数据;
  • 候选实体生成追求同义词、简称、缩写的准备到从Mention到实体候选的查找;
  • 实体消岐则考虑相似度计算的细化和聚合,以及基于图计算协同消岐。

规则挖掘

主要方法

  • 基于归纳逻辑编程(ILP)的方法
  • 基于统计关系学习(SRL)的方法
    目标:根据已知三元组对未知三元组预测;
    将连接两个实体的路径作为特征来预测其间可能存在非关系
    路径排序算法-path Ranking Alo(PRA)
  • 基于关联规则挖掘(ARM)的方法
    数据挖掘>>>事务表

知识表示学习

自然语言中的表示学习;
建立统一的语义空间,语义可计算。

  • 实体预测和推理
  • 关系推理
  • 推荐系统
TransE

将三元组<h, r, t>看做 h 通过 r 翻译到 t 的过程

  • 优化目标
    势能函数
    目标函数
PRA vs. TransE

互补

路径的表示学习

性能比较 - 三元组分类
性能比较 - 链接预测
pTransE

  • 加入规则的表示学习
  • 多模态的表示学习
  • 基于知识图谱图结构的表示学习
    用实体周围实体描述实体
    Neighbor Context
    Path Context
    Triple Context = Triple + Path Context + Neighbor Context
  • 势能函数
  • 实验结果:在一对多,多对多,多对一均有好的效果

实体链接总结和挑战

  • 融合更多本体特征的知识图谱表示学习算法研发
  • 知识图谱表示学习与本体推理之间的等价性分析
  • 知识图谱学习与网络表示学习之间的异同
  • 神经符号系统
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容