五搜索引擎的查询系统

查询系统直接面对用户,在接受用户的查询请求后,通过检索,排序及摘要提取等计算,将结果组织成搜索结果返回给用户

特点:快速,准确,全面(效率,效果)

1.1 信息熵

如数据结构的huffMan编码,为不同词频的词频创建不同长度的前缀编码

信息熵在信息论中称为消息X的熵,其含义是信息集X发出任意一个随机事件的平均信息量
通过熵阐明概率和信息的关系.变量的不确定性越大,熵也就越大,将其搞清楚所需要的信息量也就越大

1.2 检索和查询的区别

查询的结果是搜索结果网页;而检索结果是与查询词相关的文档列表
查询相对查询系统而言;检索相对于索引系统而言

1.3 检索词和查询词的区别

用户输入查询词,通过查询系统分词提交给检索代理"检索分词"

1.4 自动文本摘要

从文档中自动提取一个正文片段

2 网页信息检索

检索数据来源于网页索引库(网页对象被索引入库的全过程),网页信息检索输出是一组文档编号.

2.1 早期检索模型

"布尔模型"(Boolean Models)也称集合模型

采用AND,OR,NOT等逻辑运算符组成的逻辑表达式.通过布尔运算进行检测的简单匹配模型.

易于实现,速度快.但是没有考虑文档和关键词的相关性,没有区分查询词权重问题.放弃了效果(出现次数排序或者优先词问题),仅仅考虑效果

2.2 向量空间模型(Vector Space Models)

向量空间模型主要关心的是效果而非效率.

提出了将查询词和文档按照关键词唯独分别向量化,然后通过计算这两个向量之间夹角的方法得到文档和关键词的相似度.从而优先检索相似度大的文档,并进行排序

三个步骤
(1) 把原始查询和文档看作文本,使用同样的向量化过程分别得到查询向量和文档向量
(2) 通过计算向量相似度的方法计算原始查询和文档的相似度
(3) 按照相似度从大到小进行排序,返回给用户

将不同的关键词看作不同维度,那么每个文档关键词进行高向量化得到向量中的每个分量可以理解为向量在关键词维度上的投影.

三维空间

通过每个关键词出现次数比
走进,搜索引擎,学习 = (1/4,2/4,1/4)

对于文档进行同样的处理,那么得到类似一个空间向量

然后计算夹角,夹角越小,说明相似度越高,排名越高,返回给用户的网页显示也就越靠前

因为这样会产生浮点数计算的问题,所以使用词频进行处理
TF/IDF方法进行向量化工作,然后计算文档和查询词相似度的问题.

可以使用哈希表的方法快速找到两个向量相同分量的非0值进行计算

2.3 关键词权重量化方法 TF/IDF

熵最大限度的压缩冗余信息对于衡量关键词权重具有特殊意义

具体参考自制简单搜索引擎

2.4 搜索引擎采用的检索模型

锁搜引擎采用布尔模型和空间向量空间模型结合的方法进行信息检索,布尔模型高效且易于实现;空间向量模型能提高检索相似度,改善禅寻效果.

一个完整检索过程

2.5 多文档列表求交计算

三种情况
(1) 查询单个词
(2) 查询多个词: 空格隔离
(3) 查询一个词:由于分词形成多词查询

对23情况进行文档求交.

使用"最佳归并树算法"

基本思路:越短的文档列表越早参与文档列表求交过程...
好处:如果在求最短的两个文档列表的交集时发现为空,那么终止这个过程

缺点:
计算有依赖性,难以并发
需要本地空间临时保存求交结果
最后依次求交必然是1个长列表和一个短列表求交

2.6 检索结果排序

对于返回结果,只需要返回前n项即可.称为"top-n查询"也就是采用堆排序方案处理

堆排序除了内存复制少特点,还具有"就地(inplace)"排序的特点

3 中文自动摘要

3.1 自动摘要的含义和实现

自动摘要是从文档中自动提取一个正文片段.
对于同一个文档,其自动摘要对于不同的查询词是不同的.所以,自动摘要的计算是实时的,并且和查询相关,考虑"效率" 和"效果"

摘要必须包含的4层含义:
(1) 摘要指示性:摘要必须出现查询词,指出文档位置
(2) 摘要描述性:如果多个查询词,摘要最好全部显示查询词,即使不能,也应当给出权重更高的查询词
(3) 摘要简介性:长度控制,不长不短
(4) 摘要完整性:句子完整,且从句子首部开始,不允许断句

投票方式+滑动窗口方法.

滑动窗口实现自动摘要的步骤:
(1) 在文档正文中标记查询词出现的位置
(2)从第一个查询词开始,取出滑动窗口长度的正文片段作为第一个候选窗口,接下来,每次窗口滑动到下一个出现的查询词开始.同样取出窗口长度的正文片段作为候选窗口,直到取完所有候选窗口
(3)每个候选窗口包含的正文片段中,累计候选窗口中出现的全部查询词的权重作为候选窗口的评分,最终评分高的候选窗口作为自动摘要提取的结果输出.

滑动窗口类似SIngle算法.

标记查询词在文档中的位置<位置,长度,权重>

通过滑动窗口得到6个候选窗口

微调后的滑动窗口

4 生成搜索结果页

搜索结果页的主体包含与查询相关的网页链接URL和自动摘要

生成搜索结果页的全过程

4.1 生成网页搜索结果页

因为索引系统中的使用局部倒排文件的分布式部署,提高并发性,可靠性.而由于这种存储结构,实际的检索也是在索引节点内完成.

每个索引节点增加一个检索模块从而变成一个检索节点.

主要步骤:
(1) 检索请求发送给检索代理,检索代理进行查询词分词
(2) 查询词分词后的结果同时发往各个检索节点
(3) 检索代理重新排序来自各个检索节点的文档,去除top-n作为结果页拼接的候选文档
(4) 通过自动摘要模块从网页库中去除n个文档的摘要信息
(5) 将3,4的结果合并,动态产生搜索结果页

5 搜索结果页的缓存

在查询系统中,搜索结果页的缓存是对搜索"效率"贡献的最大设计

注:缓存保存前人查询结果.查询时,直接从缓存提取.

结论:

(1) 前20%的查询词的查询次数约总查询次数的80%
(2) 查询具有稳定性,查过的查询词很可能在将来还会被查询.

使用LRU缓存技术

具有搜索结果页缓存功能支持的查询系统

6 推测用户查询意图

日志分析及挖掘的技巧对排名进行干预.

6.1 查询分类

导航类
信息类
事物类

导航类可以充分利用瞄信息,关键词位置,标题/正文,PageRank等信息,eg"南京大学"-->"首页匹配"
而信息类和事物类查询效果不理想.egZ50,3/10的查询有效率

6.2 推测信息类,事物类的查询意图

(1) 从查询日志中得到用户这类查询中实际点击的URL,并进行排名反馈
(2) 在用户的查询序列中分析查询意图,并给出搜索结果

所以:信息类,事物类查询大多数通过事后分析及日志挖掘的技巧将分析结果反馈给排名系统,使得后续搜索效果更好

7 查询系统的当前热点和发展方向

搜索结果是搜索引擎的命脉,改善搜索结果的主要途径是查询系统,所以,查询系统是搜索引中最热门的话题

7.1 当前热点

(1) 推测用户查询意图,查询纠错,查询推荐,相关搜索
(2) 能够在领域进行查询.包括垂直搜索和分类搜索
(3) 查询结果的优化(相似结果聚类,垃圾网页和病毒的甄别)
(4) 提供个性化服务

最后编辑于：2017.12.04 02:27:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,393评论 5赞 467
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,790评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,391评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,703评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,613评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,003评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,507评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,158评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,300评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,256评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,274评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,984评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,569评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,662评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,899评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,268评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,840评论 2赞 339

五 搜索引擎的查询系统