前面一篇文章主要简单介绍了一下什么是知识图谱,什么是知识库,以及知识图谱的基本应用。知识表达系统可以说是整个知识图谱应用化的灵魂,本文主要从产品角度去讲解知识图谱的知识表达系统。
三元组的定义
《知识图谱基础(一)-什么是知识图谱》中讲到了以freebase为代表的curated KBs的本质上是三元组,下面会来讲解三元组的基本组成部分。
实体(Entity)
实体是对客观个体的抽象,一个人、一部电影、一句话都可以看作是一个实体。例如:姚明,李安,我不是潘金莲
类型(type)
类型是对具有相同特点或属性的实体集合的抽象。
举例:中国是一个实体,美国是一个实体,法国是一个实体。这些实体都有首都、人口、面积等共同特征,因此例如像中国、美国、法国等都有首都、人口、面积等特征的实体可以抽象为“国家”类型
属性(property)
属性是对实体与实体之间关系的抽象,例如李安是一个实体,李安是一个人物(type),少年派的奇幻漂流是一个实体,少年派的奇幻漂流是一个电影(type),很明显两个实体之间存在着关系即为:李安→导演→少年派的奇幻漂流因此李安与少年派的奇幻漂流之间的关系可以用属性“导演”刻画。那么可以根据属性构建一层关系,人物(type)→导演(property)→电影(type)。
关系(relation)
关系是实体与实体之间关系的抽象,李安(entity)→导演(relation)→少年派的奇幻漂流(entity),导演这个relation则是描述李安和少年派的奇幻漂流的关系。
域(domain)
域是类型的集合,凌驾于类型之上,是对某一领域所有类型的抽象,例如:国家是对中国、美国这样实体的一种抽象,是一种类型,而一个地理位置除了国家类型之外,还包括其他类型:城市、区域、洲等等,而把这些所有类型:洲、国家、城市、区域等类型抽象起来,就形成了地理位置域。
值(value)
值是用来描述实体的,可以分为文本型和数值型,EG:姚明(entity)→身高(relation)→226cm(value)。
根据上面的概念,构建一个基础的图谱
从三元组构建图谱
从图1中可以得出
阿里巴巴是一家公司,一个股票
张勇是一个人物
支付宝是一个产品。
阿里巴巴的CEO是张勇
阿里巴巴的主营产品是支付宝
阿里巴巴员工人数是60000
以上就是最基础的知识表达系统,各家公司会针对公司的业务去构建知识库,一般来说,基础的知识表达概念不会改变,比较复杂的情况会针对以上知识表达系统进行一定的修改,后面的文章会讲到。比较复杂的业务可能会涉及到“状态”,“动作”,“状态转移”等过程,freebase就不太适用了,有兴趣的同学可以去看看"超图"。在freebase的二维图谱基础上添加了“状态”的第三维,“动作”的第四维,不过构建会比freebase复杂的多。