深入理解 elasticsearch

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

用 elasticsearch 可以做到的有趣功能

multitype index

对同一个字段使用多种分析器产生不同的 index,这样在进行索引和搜索时,都能够更加灵活。
比如说,我们有一些需要索引的文档,包含了标题和内容等信息。在搜索的时候需要优先匹配那些直接命中标题的文章,然后类似的标题,然后是内容的匹配。这里的优先可以灵活的定义。

Pagination

空搜索告诉我们在cluster中有 14 个文档匹配。但是在hits数组中却只有 10 个文档。我们想看到剩下的文档要怎么办?
与 SQL 中类似,使用 LIMIT 关键词来返回一个结果的页面,Elasticsearch 接受 sizefrom 参数:

  • size:表示将会返回的结果的数量,默认为 10
  • from:表示被跳过的初始结果,默认为 0,表示返回所有结果

如果你想要每页显示 5 个结果,那么第1到第3页应该按照下面的方式获取:

GET /_search?size=5
GET /_search?size=5&from=5
GET /_search?size=5&from=10

页数过多或者一次请求太多的结果需要小心。结果在返回之前是排好序的。但是搜索请求经常会遍布在多个 shard 上。每个 shard 产生自己排好序的结果,然后需要通过整体的排序来确保所有结果的顺序的一致性。

分布式系统下的深度分页

为了理解深度分页所遇到的问题,假设我们对�分布在 5 个主 shard 上的一个 index 进行搜索。当我们请求结果的第一页(1 到 10),每个 shard 产生自身前 10 个结果,并返回到请求的节点,然后再在这个节点上对 50 个结果进行重排序以获得最终的前 10 个结果。
现在如果我们请求第 1000 页——从 10, 001 到 10, 010 的结果。所有的方法都是一样的,不过每个shard 就必须产生前 10, 010 个结果。请求节点最终需要对 50, 050 个结果进行排序然后丢弃后面的 50,040 个!
所以在分布式系统中,你可以想象一下随着请求结果页数的增长,需要排序的结果的代价是跟着页数以指数级速度增长的。这也正是搜索引擎不会返回超过 1,000 个记录的原因吧。

另外,在Reindexing Your Data中,我们解释了可以让检索大量文档更有效的方法。

数据重索引

尽管你可以对一个索引增加新的 type,或者对一个 type 增加新的字段,但是并不能对已有的字段添加新的分析器或者做出调整。如果你想这样做,那么就需要重新索引数据,否则搜索会出现差错。
最简单的应用这些操作的方式是重新索引(reindex):使用新的设置的索引并从旧的索引中复制所有的文档到新的索引中。
_source 字段的优势之一是我们已经拥有了在 Elasticsearch 中整个可以获取的文档。所以不需要重新使用数据库进行重建索引,通常会很慢。
为了更快地从旧索引中重索引所有的文档,可以使用 scan-and-scroll 来批量从旧索引中获取文档,然后用 bulk
API
推送进新的索引中。

批量重索引

你可以同时执行多个重索引 job,但是显然也不希望其结果是重叠的。可以使用日期或者时间戳字段进行过滤来重索引:

GET /old_index/_search?search_type=scan&scroll=1m
{ 
  "query": { 
      "range":{
         "date": {
               "gte": "2014-01-01", 
               "lt": "2014-02-01" 
          } 
      } 
  }, 
  "size": 1000
}
> ```
> 如果你继续对旧索引进行改变,那么需要确保已经包含了新的文档在新的索引中。这个可以使用再运行重索引过程,但是同时使用过滤器对日期或者时间进行过滤能够保证只会对那些新的文档进行索引。


**继续补充**
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Solr&ElasticSearch原理及应用 一、综述 搜索 http://baike.baidu.com/it...
    楼外楼V阅读 7,349评论 1 17
  • 这是一个令人震惊的数据:一段仅30秒的色情视频分成3次播放,每次播放就能骗取上百元,一年欺诈近7亿元。 因被色情视...
    黑客与编程阅读 9,188评论 4 4
  • 2017年8月26日 于济南 和朋友们聊天,我经常会问他们这样一个问题,来判断他们对未来的认知程度,这个问题就是...
    春子在北京阅读 470评论 0 1
  • 没有了有 有了没有 没有了有了没有 有了没有了有 ---苍央嘉措的诗。 描述四种人生境界! 没有了~有 有了~没有...
    fx_random阅读 267评论 0 0