探索你的数据
样本数据集
现在我们对于基本的东西已经有了一些感觉,现在让我们尝试使用一些更加贴近现实的数据集。我已经准备了一些假想的客户的银行账户信息的JSON文档的样本。文档具有以下的模式(schema):
{
"account_number": 0,
"balance": 16623,
"firstname": "Bradshaw",
"lastname": "Mckenzie",
"age": 29,
"gender": "F",
"address": "244 Columbus Place",
"employer": "Euron",
"email": "bradshawmckenzie@euron.com",
"city": "Hobucken",
"state": "CO"
}
你可以从这里下载这个样本数据集。将其解压到当前目录下,如下,将其加载到我们的集群里:
curl -H "Content-Type: application/json" -XPOST 'localhost:9200/bank/account/_bulk?pretty&refresh' --data-binary "@accounts.json"
curl 'localhost:9200/_cat/indices?v'
响应是:
health status index uuid pri rep docs.count docs.deleted store.size pri.store.size
yellow open bank l7sSYV2cQXmu6_4rJWVIww 5 1 1000 0 128.6kb 128.6kb
这意味着我们成功批量索引了1000个文档到银行索引中(account
类型)。
搜索API
现在,让我们以一些简单的搜索来开始。有两种基本的方式来运行搜索:一种是在REST请求的URI中发送搜索参数,另一种是将搜索参数发送到REST请求体中。请求体方法的表达能力更好,并且你可以使用更加可读的JSON格式来定义搜索。我们将尝试使用一次请求URI作为例子,但是教程的后面部分,我们将仅仅使用请求体方法。
搜索的REST API可以通过_search
端点来访问。下面这个例子返回bank
索引中的所有的文档:
curl -XGET 'localhost:9200/bank/_search?q=*&sort=account_number:asc&pretty&pretty'
我们仔细研究一下这个查询调用。我们在bank
索引中搜索(_search
端点),并且q=*
参数指示ES去匹配这个索引中所有的文档。sort=account_number:asc
参数指示使用account_number
升序来排序每个文档。pretty
参数,和以前一样,仅仅是告诉ES返回美观的JSON结果。
响应如下(部分显示):
{
"took" : 63,
"timed_out" : false,
"_shards" : {
"total" : 5,
"successful" : 5,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : 1000,
"max_score" : null,
"hits" : [ {
"_index" : "bank",
"_type" : "account",
"_id" : "0",
"sort": [0],
"_score" : null,
"_source" : {"account_number":0,"balance":16623,"firstname":"Bradshaw","lastname":"Mckenzie","age":29,"gender":"F","address":"244 Columbus Place","employer":"Euron","email":"bradshawmckenzie@euron.com","city":"Hobucken","state":"CO"}
}, {
"_index" : "bank",
"_type" : "account",
"_id" : "1",
"sort": [1],
"_score" : null,
"_source" : {"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}
}
]
}
}
对于这个响应,我们看到了以下的部分:
-
took
—— ES执行这个搜索的耗时,以毫秒为单位 -
timed_out
—— 指明这个搜索是否超时 -
_shards
—— 指出多少个分片被搜索了,同时也指出了成功/失败的被搜索的shards的数量 -
hits
—— 搜索结果 -
hits.total
—— 能够匹配我们查询标准的文档的总数目 -
hits.hits
—— 真正的搜索结果数据(默认只显示前10个文档) -
hits.sort
—— 结果的排序键(如果根据score排序就没有) -
_score
和max_score
—— 现在先忽略这些字段
使用请求体方法的等价搜索是:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match_all": {} },
"sort": [
{ "account_number": "asc" }
]
}
'
这里的不同之处在于,并不是向URI中传递q=*
,取而代之的是,我们在_search
API的请求体中POST了一个JSON格式请求体。我们将在下一部分中讨论这个JSON查询。
有一点需要重点理解一下,一旦你取回了你的搜索结果,ES就完成了使命,它不会维护任何服务器端的资源或者在你的结果中打开游标。这是和其它类似SQL的平台的一个鲜明的对比, 在那些平台上,你可以在前面先获取你查询结果的一部分,然后如果你想获取结果的剩余部分,你必须继续返回服务端去取,这个过程使用一种有状态的服务器端游标技术。
介绍查询语言
Elasticsearch提供一种JSON风格的特定领域语言,利用它你可以执行查询。这被称为Query DSL。这个查询语言相当全面,第一眼看上去可能有些咄咄逼人,但是最好的学习方法就是以几个基础的例子来开始。
回到我们上一个例子,我们执行了这个查询:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match_all": {} }
}
'
分解以上的这个查询,其中的query
部分告诉我查询的定义,match_all
部分就是我们想要运行的查询的类型。match_all
查询,就是简单地查询一个指定索引下的所有的文档。
不只是query
参数,我们也传递了另一个影响查询结果的参数。在上面的例子中,我们传递了sort
,这里我们传递size
:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match_all": {} },
"size": 1
}
'
注意,如果没有指定size
的值,那么它默认就是10。
下面的例子,做了一次match_all
并且返回第11到第20个文档:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match_all": {} },
"from": 10,
"size": 10
}
'
其中的from
参数(0-based)从哪个文档开始,size
参数指明从from
参数开始,要返回多少个文档。这个特性对于搜索结果分页来说非常有帮助。注意,如果不指定from
的值,它默认就是0。
下面这个例子做了一次match_all
并且以账户余额降序排序,最后返前十个文档:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match_all": {} },
"sort": { "balance": { "order": "desc" } }
}
'
执行搜索
现在我们已经知道了几个基本的参数,让我们进一步发掘查询语言吧。首先我们看一下返回文档的字段。默认情况下,是返回完整的JSON文档的。这可以通过source
来引用(搜索hits
中的_sourcei
字段)。如果我们不想返回完整的源文档,我们可以指定返回的几个字段。
下面这个例子说明了怎样返回两个字段account_number
和balance
(当然,这两个字段都是指_source
中的字段),以下是具体的搜索:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match_all": {} },
"_source": ["account_number", "balance"]
}
'
注意到上面的例子仅仅是简化了_source
字段。它仍将会返回一个叫做_source
的字段,但是仅仅包含account_number
和balance
两个字段。
如果你有SQL背景,上述查询在概念上有些像SQL的SELECT FROM。
现在让我们进入到查询部分。之前,我们看到了match_all
查询是怎样匹配到所有的文档的。现在我们介绍一种新的查询,叫做match query,这可以看成是一个简单的字段搜索查询(比如对应于某个或某些特定字段的搜索)。
下面这个例子返回账户编号为20的文档:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match": { "account_number": 20 } }
}
'
下面这个例子返回地址中包含mill
的所有账户:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match": { "address": "mill" } }
}
'
下面这个例子返回地址中包含mill
或者包含lane
的账户:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match": { "address": "mill lane" } }
}
'
下面这个例子是match
的变体(match_phrase
),它会去匹配短语mill lane
:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": { "match_phrase": { "address": "mill lane" } }
}
'
现在,让我们介绍一下bool query。布尔查询允许我们利用布尔逻辑将较小的查询组合成较大的查询。
现在这个例子组合了两个match
查询,这个组合查询返回包含mill
和lane
的所有的账户:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"bool": {
"must": [
{ "match": { "address": "mill" } },
{ "match": { "address": "lane" } }
]
}
}
}
'
在上面的例子中,bool must
语句指明了,对于一个文档,所有的查询都必须为真,这个文档才能够匹配成功。
相反的,下面的例子组合了两个match
查询,它返回的是地址中包含mill
或者lane
的所有的账户:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"bool": {
"should": [
{ "match": { "address": "mill" } },
{ "match": { "address": "lane" } }
]
}
}
}
'
在上面的例子中,bool should
语句指明,对于一个文档,查询列表中,只要有一个查询匹配,那么这个文档就被看成是匹配的。
现在这个例子组合了两个查询,它返回地址中既不包含mill
,同时也不包含lane
的所有的账户信息:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"bool": {
"must_not": [
{ "match": { "address": "mill" } },
{ "match": { "address": "lane" } }
]
}
}
}
'
在上面的例子中, bool must_not
语句指明,对于一个文档,查询列表中的的所有查询都必须都不为真,这个文档才被认为是匹配的。
我们可以在一个bool
查询里一起使用must
、should
、must_not
。此外,我们可以将bool
查询放到这样的bool
语句中来模拟复杂的、多等级的布尔逻辑。
下面这个例子返回40岁以上并且不生活在ID(daho)的人的账户:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"bool": {
"must": [
{ "match": { "age": "40" } }
],
"must_not": [
{ "match": { "state": "ID" } }
]
}
}
}
'
执行过滤器
在先前的章节中,我们跳过了文档得分的细节(搜索结果中的_score
字段)。这个得分是与我们指定的搜索查询匹配程度的一个相对度量。得分越高,文档越相关,得分越低文档的相关度越低。
但不是所有的查询都需要产生分数,特别是查询条件仅仅用于“过滤”文档集时。ES检测到这些情况时会自动优化查询执行,避免计算多余的分数。
我们前面介绍的bool query也支持允许使用查询条件去约束被其他语句匹配的文档的filter
语句,而filter
语句不会改变分数的计算方式。举个栗子,让我们来介绍下允许使用范围值来过滤的range query。它通常用来过滤数值和日期。
这个例子用一个布尔查询来返回所有余额在20000和30000之间的账户。换句话说,我们要找到所有余额大于等于20000且小于等于30000的账户。
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"query": {
"bool": {
"must": { "match_all": {} },
"filter": {
"range": {
"balance": {
"gte": 20000,
"lte": 30000
}
}
}
}
}
}
'
分解上面的例子,被过滤的查询包含一个match_all
查询(查询部分)和一个过滤器(filter
部分)。我们可以在查询部分中放入其他查询,在filter
部分放入其它过滤器。在上面的应用场景中,由于所有的在这个范围之内的文档都是平等的(或者说相关度都是一样的),没有一个文档比另一个文档更相关,所以这个时候使用范围过滤器就非常合适了。
除了match_all
, match
, bool
, filtered
和range
查询,还有很多可用的查询类型,我们这里不会涉及。由于我们已经对它们的工作原理有了基本的理解,将其应用到其它类型的查询、过滤器上也不是件难事。
执行聚合
聚合提供了分组并统计数据的能力。理解聚合的最简单的方式是将其粗略地等同为SQL的GROUP BY和SQL聚合函数。在ES中,你可以在一个响应中同时返回命中的数据和聚合结果。你可以使用简单的API同时运行查询和多个聚合,并以一次返回,这避免了来回的网络通信,这是非常强大和高效的。
作为开始的一个例子,我们按照state
分组,按照州名的计数倒序排序:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"size": 0,
"aggs": {
"group_by_state": {
"terms": {
"field": "state.keyword"
}
}
}
}
'
在SQL中,上面的聚合在概念上类似于:
SELECT COUNT(*) from bank GROUP BY state ORDER BY COUNT(*) DESC
响应(其中一部分)是:
{
"took": 29,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"skipped" : 0,
"failed": 0
},
"hits" : {
"total" : 1000,
"max_score" : 0.0,
"hits" : [ ]
},
"aggregations" : {
"group_by_state" : {
"doc_count_error_upper_bound": 20,
"sum_other_doc_count": 770,
"buckets" : [ {
"key" : "ID",
"doc_count" : 27
}, {
"key" : "TX",
"doc_count" : 27
}, {
"key" : "AL",
"doc_count" : 25
}, {
"key" : "MD",
"doc_count" : 25
}, {
"key" : "TN",
"doc_count" : 23
}, {
"key" : "MA",
"doc_count" : 21
}, {
"key" : "NC",
"doc_count" : 21
}, {
"key" : "ND",
"doc_count" : 21
}, {
"key" : "ME",
"doc_count" : 20
}, {
"key" : "MO",
"doc_count" : 20
} ]
}
}
}
我们可以看到AL(abama)有21个账户,TX有17个账户,ID(daho)有15个账户,依此类推。
注意我们将size设置成0,这样我们就可以只看到聚合结果了,而不会显示命中的结果。
在先前聚合的基础上,现在这个例子计算了每个州的账户的平均余额(还是按照账户数量倒序排序的前10个州):
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"size": 0,
"aggs": {
"group_by_state": {
"terms": {
"field": "state.keyword"
},
"aggs": {
"average_balance": {
"avg": {
"field": "balance"
}
}
}
}
}
}
'
注意,我们把average_balance
聚合嵌套在了group_by_state
聚合之中。这是所有聚合的一个常用模式。你可以任意的聚合之中嵌套聚合,这样你就可以从你的数据中抽取出想要的概述。
基于前面的聚合,现在让我们按照平均余额进行排序:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"size": 0,
"aggs": {
"group_by_state": {
"terms": {
"field": "state.keyword",
"order": {
"average_balance": "desc"
}
},
"aggs": {
"average_balance": {
"avg": {
"field": "balance"
}
}
}
}
}
}
'
下面的例子显示了如何使用年龄段(20-29,30-39,40-49)分组,然后在用性别分组,然后为每一个年龄段的每一个性别计算平均账户余额:
curl -XGET 'localhost:9200/bank/_search?pretty' -H 'Content-Type: application/json' -d'
{
"size": 0,
"aggs": {
"group_by_age": {
"range": {
"field": "age",
"ranges": [
{
"from": 20,
"to": 30
},
{
"from": 30,
"to": 40
},
{
"from": 40,
"to": 50
}
]
},
"aggs": {
"group_by_gender": {
"terms": {
"field": "gender.keyword"
},
"aggs": {
"average_balance": {
"avg": {
"field": "balance"
}
}
}
}
}
}
}
}
'
有很多关于聚合的细节,我们没有涉及。如果你想做更进一步的实验, aggregations reference guide是一个非常好的起点。
总结
ES既是一个简单的产品,也是一个复杂的产品。我们现在已经学习到了基础部分,它的一些原理,以及怎样用REST API来做一些工作。我希望这个教程已经使你对ES是什么有了一个更好的理解,跟重要的是,能够激发你继续实验ES的其它特性。