搜索引擎:一种用来在计算机网络,特别是万维网上检索各种文件的计算机程序.
是一种查询系统,也是一个用户自定义的信息聚合系统(根据用户定义的需求,爬取网络上的资源,整个为本地离线信息集合)
三种搜索服务方式
目录式搜索引擎
依赖编辑人员进行筛选,在此基础进行分类,形成分类目录结构.
eg早期雅虎,搜狐搜索:一种类似的黄页查询,搜索信息不全面,更新不及时
全文搜索 引擎
针对万维网所有网页进行全文搜索的搜索引擎.由下载系统以某种策略自动在万维网搜索和发现信息,由搜索引擎为搜索到的信息建立索引,由禅寻系统根据用户的查询输入检索索引库,并返回给用户.
服务方式是面向网页的全文检索服务
优点:信息量大,更新即使,无人干扰.
缺点:返回信息太多,有太多无关信息
元搜索引擎(MetaSearch Engine)
没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交.然后将返回的结果进行重新排除和重新排序等处理后,作为自己的结果返回给用户.
服务方式为面向网页的全文检索
优点:返回结果信息量大
缺点:不能充分使用原搜索引擎的功能,用户需要更多的筛选
代表:webCrawler
搜索引擎的主要需求
快速
全面:查全率(Recall)作为衡量检索是否全面的衡量标准:全部相关网页/查出相关网页-->索引越多,查全率却高
准确:查准率:相关文档数/检索出的文档总数.
可靠:存储,查询,索引中考虑
廉价
搜索引擎的4大系统
下载
负责从万维网上下载各种类型的网页,并且保持对万维网变化的同步分析
抽取下载系统中得到的网页数据,并进行PageRank和分词计算索引
负责将分析系统处理后的网页对象索引入库查询
分析用户提交的查询请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的方式返回用户
注:从整体看,下载,分析,索引组成了搜索引擎的数据制作部分,被称为离线部分
查询系统为搜索引擎的数据服务部分,要求快速响应,被称为在线部分
从细节来看,网页从开始到最后都是网页而在搜索引擎内部会有两种形式:一种网页库的方式存储,一种称为网页对象被存储在索引库中.
搜索引擎的主要数据来自网页,网页处理能力是搜索引擎面对的主要挑战