Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。
用 elasticsearch 可以做到的有趣功能
multitype index
对同一个字段使用多种分析器产生不同的 index,这样在进行索引和搜索时,都能够更加灵活。
比如说,我们有一些需要索引的文档,包含了标题和内容等信息。在搜索的时候需要优先匹配那些直接命中标题的文章,然后类似的标题,然后是内容的匹配。这里的优先可以灵活的定义。
Pagination
空搜索告诉我们在cluster中有 14 个文档匹配。但是在hits
数组中却只有 10 个文档。我们想看到剩下的文档要怎么办?
与 SQL 中类似,使用 LIMIT
关键词来返回一个结果的页面,Elasticsearch 接受 size
和 from
参数:
-
size
:表示将会返回的结果的数量,默认为10
-
from
:表示被跳过的初始结果,默认为0
,表示返回所有结果
如果你想要每页显示 5 个结果,那么第1到第3页应该按照下面的方式获取:
GET /_search?size=5
GET /_search?size=5&from=5
GET /_search?size=5&from=10
页数过多或者一次请求太多的结果需要小心。结果在返回之前是排好序的。但是搜索请求经常会遍布在多个 shard 上。每个 shard 产生自己排好序的结果,然后需要通过整体的排序来确保所有结果的顺序的一致性。
分布式系统下的深度分页
为了理解深度分页所遇到的问题,假设我们对�分布在 5 个主 shard 上的一个 index 进行搜索。当我们请求结果的第一页(1 到 10),每个 shard 产生自身前 10 个结果,并返回到请求的节点,然后再在这个节点上对 50 个结果进行重排序以获得最终的前 10 个结果。
现在如果我们请求第 1000 页——从 10, 001 到 10, 010 的结果。所有的方法都是一样的,不过每个shard 就必须产生前 10, 010 个结果。请求节点最终需要对 50, 050 个结果进行排序然后丢弃后面的 50,040 个!
所以在分布式系统中,你可以想象一下随着请求结果页数的增长,需要排序的结果的代价是跟着页数以指数级速度增长的。这也正是搜索引擎不会返回超过 1,000 个记录的原因吧。
另外,在Reindexing Your Data中,我们解释了可以让检索大量文档更有效的方法。
数据重索引
尽管你可以对一个索引增加新的 type,或者对一个 type 增加新的字段,但是并不能对已有的字段添加新的分析器或者做出调整。如果你想这样做,那么就需要重新索引数据,否则搜索会出现差错。
最简单的应用这些操作的方式是重新索引(reindex):使用新的设置的索引并从旧的索引中复制所有的文档到新的索引中。
_source
字段的优势之一是我们已经拥有了在 Elasticsearch 中整个可以获取的文档。所以不需要重新使用数据库进行重建索引,通常会很慢。
为了更快地从旧索引中重索引所有的文档,可以使用 scan-and-scroll 来批量从旧索引中获取文档,然后用 bulk
API 推送进新的索引中。
批量重索引
你可以同时执行多个重索引 job,但是显然也不希望其结果是重叠的。可以使用日期或者时间戳字段进行过滤来重索引:
GET /old_index/_search?search_type=scan&scroll=1m
{
"query": {
"range":{
"date": {
"gte": "2014-01-01",
"lt": "2014-02-01"
}
}
},
"size": 1000
}
> ```
> 如果你继续对旧索引进行改变,那么需要确保已经包含了新的文档在新的索引中。这个可以使用再运行重索引过程,但是同时使用过滤器对日期或者时间进行过滤能够保证只会对那些新的文档进行索引。
**继续补充**