大纲
- 什么是知识融合
- 知识融合的基本技术流程
- 典型知识融合工具简介
- 典型案例简介
zhishi.me
openkg.link - LIMES实战演练
什么是知识融合
目标:融合个层面的知识
合并两个知识图谱(本体),需要确认:
等价实例;
等价类/子类;
等价属性/子属性
来源于不同知识库的同一实体
知识图谱的构建经常需要融合多种不同来源的数据
实体对齐是知识图谱融合的主要工作
中文百科中的等价实例——唐三藏-玄奘-金蝉子
概念层知识融合
跨语言知识融合
知识在线融合
Google Knowlegle Vault
- 名词术语
知识融合
本体匹配
本体对齐
Record Linkage
Entity Resolution
实体对齐 - 知识融合的主要技术挑战
数据质量的挑战
数据规模的挑战
知识融合竞赛——OAEI
知识融合的基本技术流程
一般分为两部,本体对齐和实体匹配
基本流程
数据预处理
语法正规化
数据正规化
记录链接
- 属性相似度
编辑距离:用最少的编辑操作将一个字符串转成另一个;(插入,删除,替换)3次
动态规划算法
集合相似度计算;Dice系数,Jaccard系数
基于向量的相似度计算;
TF-IDF:主要用来评估某个字或者某个词对一个文档的重要程度。 - 实体相似度
怎样计算:聚合,聚类,表示学习
- 聚合
加权平均,手动制定规则,分类器:LR,决策树,SVM和条件随机场 - 聚类
层次聚类
相关性聚类
Canopy + K-means - 怎样计算实体相似度:知识表示学习
知识潜入——TransE模型
实体与向量之间的关系
分块
- 常用的分块方法
基于Hash函数的分块
邻近分块:Canopy聚类,排序邻居算法,Red-Blue Set Cover
负载均衡
用来保证所有块中的实体数目相当,从而保证分块对性能的提升程度。
最简单的方法是多次Map-Reduce操作。
结果评估
准确率,召回率,F值
整体算法的运行时间
典型知识融合工具简介
- 本体对齐——Falcon-AO
自动的本体匹配系统 //Java
相似度组合策略 - Falcon——分块
本体划分:概念间的结构亲近性计算
本体划分:本体划分算法
本体划分:本体分块的构建 - 实体匹配——Dedupe
用于模糊匹配,记录去重和实体链接的python库
- 指定谓词集合&相似度函数
- 训练Blocking:通过Red-Blue set cover 找到最优谓词集合来分块
- 训练LR模型
- 实体匹配——Limes
基于度量空间的实体匹配发现框架,适合大规模数据链接 //Java - 实体匹配——Silk
Silk 是一个集成异构数据源的开源框架 # python
整体框架:知识库=>预匹配=>链接=>过滤=>输出
典型案例
zhishi.me
等价实体
解决方案:半监督方法,通过迭代,自动发现并修改特定数据集的匹配规则
Workflow - 挖掘等价属性
- 合并现有已匹配的实体对的属性值
- 匹配规则
- 用得到的匹配规则处理未标记的数据生成候选匹配对
- Combiner 用来计算候选匹配对的置信度
Workflow - the Wrapper算法
Wrapper是对EM迭代算法的封装
似然函数
OpenKG的链接百科
LIMES实战演练
对实体计算相似度