语义搜索

大纲

语义搜索简介
语义数据搜索
混合搜索
语义搜索的交互范式
实践展示:使用Elasticsearch实现简单语义数据检索

语义搜索简介

不同搜索模式之间的技术差异可分为:
对用户需求的表示(query model);
对底层数据的表示(data model);
匹配方法(matching technique)
信息检索(IR)支持对文档的检索(document retrieval
文档检索vs.数据检索
数据库(DB)和知识库专家系统(Knowledge-based Expert System)可以提供更加精确的答案
语义模型

  • 语义关注的是能用于搜索的资源的含义(meaning)
  • 语言学模型
    对词语级别的关系建模;分类系统,同义词库
  • 概念模型
  • 表达能力
  • 形式化
语义搜索分类
  • DB和KB系统属于重量级语义搜索系统
    对语义显式的和形式化的建模,例如,ER图,RDF(S)和OWL中的知识模型(knowledge model),主要为语义的数据检索系统
  • 基于语义的IR系统属于轻量级的语义搜索系统
    轻量级的语义模型,例如分类系统或者辞典
    语义搜索 - 流程图

    搜索模式趋向一致:结构化和语义数据的可用性越来越高

语义数据搜索

语义Web - 数据Web

利用链接数据进行搜索

三元组存储
  • 基于IR:Sindice,FalconS...
    单一数据结构和查询算法,针对文本数据进行排序检索来优化(倒排序优化);
    高度可压缩,可访问;
    排序是组成部分;
    不能处理简单的select,joins等操作。
  • 基于DB:Oracle的RDF扩展,DB2的SOR
    各种索引和查询算法,以适应各种对结构化数据的复杂查询;
    能完成复杂的selects,joins,(SQL,SPARQL)
    能应对高动态场景(许多插入/删除)
  • 原生存储(Native stores):Dataplore,YARS,RDF-3x
存储和索引
  • IR索引基于以下概念
    文档;
    字段(field),例如,标题,摘要,正文...
    词语(terms);
    Posting list和Position list
  • 增量索引——处理当前索引
    基于的索引扩展
  • 索引构建 vs. 索引更新
  • 四种基本操作
    基础的检索:(f, t)
    归并排序:m(S1, op, S2)
    概念表达式计算(Concept Expression Evaluation)
    关系扩展(Relation Expansion)
排序原则
  1. 质量传播(quality propagation):更新一个元素质量的度量,同时反应该元素的相邻元素的质量
  2. 数量聚合:有更多的邻居,元素排名会更高
高效和可扩展的数据Web搜索

使用结构索引做结构匹配,
在多知识库中查询

索引

特征选择

  • 分块(Blocking)
    直观:共享稀有特征的实体更可能是同一个实体;
    根据文档频率来排序每个实体的特征;
    每个保留的倒排索引列表对应一个分块。
  • 聚类(Clustering)
    紧致集合 Compact Set (CS);
    稀疏邻居 Sparse Neighborhood (SN);
    基于CS&SN原则在每个分块中进行聚类;

混合搜索

结合文本,结构化和语义数据;以整体的方式管理不同类型的资源;支持结果为信息单元(文档、数据)的集成的检索。

DB和IR轻量级集成

资源(查询)图 => 系统架构(CE2) => 查询分解和执行 => 答案合并

语义搜索的交互范式

usability,用户友好

  • 交互范式
    自然语言接口
    基于表单的查询接口
    基于可视化的查询接口
    基于关键词的查询接口
    混合的查询接口,结合自然语言,关键词,表单,facets和形式化查询
    查询,数据和结果可视化
一种基于本体的查询解释的通用方法

1 将关键词映射为本体实体
2 发掘本体实体间的连接,基于元素递归遍历的KB探索
3 从连接中到处DL(描述逻辑)合取查询
对查询排序,路径长度越小越好。

  • Top-k关键词查询 - 工作流程
    线下:汇总,评分,术语扩展;
    线上:查询计算,查询处理

摘要图生成
关键词映射和摘要图扩充
Top-k图探索
将查询图映射到合取查询

  • 评估 - 效果
    路径长度,越短越好;
    关键词匹配分数,越高越好;
    图元素的流行性计算,类似pagerank算法

facet搜索系统

结论

  • 表达式(expressive)关键字查询
    基于本体的查询解析
    Top-k关键字查询在汇总图上的解析
    使用映射信息扩展到多个数据源场景
  • 动态facet计算 w.r.t 结果
    facet 排序和值划分

语义搜索路线图

语义搜索路线图
Facebook Graph Search
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,383评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,522评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,852评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,621评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,741评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,929评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,076评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,803评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,265评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,582评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,716评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,395评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,039评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,027评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,488评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,612评论 2 350

推荐阅读更多精彩内容