基于规则集,rule-base:
XX 是 XX
XX 类似于 XX
XX 成立于 XX年 XX月
规则集合可以设置一些限制, 比如实体的类型。
- 优点:
- 不需要训练数据。
- 比较准确。
- 缺点:
- low recall 低召回。
- 人力成本。
- 规则本身难设计,容易冲突
基于模型
分类:
- 定义好关系类型
- 定义好实体类型
- 训练数据准备:实体(类型)标记,实体间的关系(人工成本)
(XX,YY) relation
特征工程:
构造两个实体的特征。
- bag of word featrue:
- 词特征。1-gram,2-gram,3-gram。实体前后词。
- 两个实体中间的词。
- pos feature: 词性特征
- 实体类别:实体标签
- 位置信息:
- 比如 两个实体间包含了多个个字
- 这句话在文中的位置(第几句)
- 依存句法分析/句法分析:
- 两个实体间的最短路径(图算法)
- 是否相互依赖(0,1)
特征相关性分析:协方差,皮尔森系数
模型训练方式:
- 方案1:
- K类别+无关系:共K+1的分类模型。
- 方案2:
- 二分类模型+K分类模型。
优点:二分类相对简单,训练数据不大,并且大部分实体是不存在关系的,提升效率。
- 二分类模型+K分类模型。