获取索引的mapping
GET [/{type}[/type]]/_mapping
实例:
//获取整个库的mapping
GET /_mapping
//获取website的所有mapping
GET /website/_mapping
//获取website中blog类型的mapping
GET /website/blog/_mapping
测试分析器
GET /_analyze
{
"analyzer": "standard",
"text": "Text to analyze"
}
//result
{
"tokens": [
{
"token": "text",
"start_offset": 0,
"end_offset": 4,
"type": "<ALPHANUM>",
"position": 0
},
{
"token": "to",
"start_offset": 5,
"end_offset": 7,
"type": "<ALPHANUM>",
"position": 1
},
{
"token": "analyze",
"start_offset": 8,
"end_offset": 15,
"type": "<ALPHANUM>",
"position": 2
}
]
}
创建一个索引
到目前为止, 我们已经通过索引一篇文档创建了一个新的索引 。这个索引采用的是默认的配置,新的字段通过动态映射的方式被添加到类型映射。现在我们需要对这个建立索引的过程做更多的控制:我们想要确保这个索引有数量适中的主分片,并且在我们索引任何数据 之前 ,分析器和映射已经被建立好。
为了达到这个目的,我们需要手动创建索引,在请求体里面传入设置或类型映射,如下所示:
PUT /my_index
{
"settings": { ... any settings ... },
"mappings": {
"type_one": { ... any mappings ... },
"type_two": { ... any mappings ... },
...
}
}
如果你想禁止自动创建索引,你 可以通过在 config/elasticsearch.yml 的每个节点下添加下面的配置:
action.auto_create_index: false
删除索引
//删除一个
DELETE /my_index
//删除多个
DELETE /index_one,index_two
//通过通配符删除多个
DELETE /index_*
//删除所有的索引
DELETE /_all
DELETE /*
对一些人来说,能够用单个命令来删除所有数据可能会导致可怕的后果。如果你想要避免意外的大量删除, 你可以在你的 elasticsearch.yml 做如下配置:
action.destructive_requires_name: true
这个设置使删除只限于特定名称指向的数据, 而不允许通过指定 _all 或通配符来删除指定索引库。
设置索引
PUT /{index}
{
"settings" : {
//两个重要的设置项
"number_of_shards" : 5, //主分片数量
"number_of_replicas" : 1 //复制分片份数
}
}
实例:
PUT /blogs
{
"settings" : {
"number_of_shards" : 3,
"number_of_replicas" : 1
}
}
//result
{
"acknowledged": true,
"shards_acknowledged": true
}
主分片的的作用是将数据集进行拆分,当数据量大时可以存放在不同的机器上,且一个分片是一个lucene实例,所以分配多个分片在一定程度上也可提高并发搜索效率。主分片数创建索引时就确定了,后面不能修改,复制分片数可以后期动态修改
动态修改设置项
PUT /{index}/_settings
{
"field": value,
...
}
实例:
//修改复制分片
PUT /blogs/_settings
{
"number_of_replicas" : 2
}
//result
{
"acknowledged": true
}
创建自定义分析器
虽然Elasticsearch带有一些现成的分析器,然而在分析器上Elasticsearch真正的强大之处在于,你可以通过在一个适合你的特定数据的设置之中组合字符过滤器、分词器、词汇单元过滤器来创建自定义的分析器。
一个 分析器 就是在一个包里面组合了三种函数的一个包装器, 三种函数按照顺序被执行:
字符过滤器
字符过滤器 用来 整理 一个尚未被分词的字符串。例如,如果我们的文本是HTML格式的,它会包含像 <p> 或者 <div> 这样的HTML标签,这些标签是我们不想索引的。我们可以使用 html清除 字符过滤器 来移除掉所有的HTML标签,并且像把 Á 转换为相对应的Unicode字符 Á 这样,转换HTML实体。
一个分析器可能有0个或者多个字符过滤器。
分词器
一个分析器 必须 有一个唯一的分词器。 分词器把字符串分解成单个词条或者词汇单元。 标准 分析器里使用的 标准 分词器 把一个字符串根据单词边界分解成单个词条,并且移除掉大部分的标点符号,然而还有其他不同行为的分词器存在。
例如, 关键词 分词器 完整地输出 接收到的同样的字符串,并不做任何分词。 空格 分词器 只根据空格分割文本 。 正则 分词器 根据匹配正则表达式来分割文本 。
词单元过滤器
经过分词,作为结果的 词单元流 会按照指定的顺序通过指定的词单元过滤器 。
词单元过滤器可以修改、添加或者移除词单元。我们已经提到过 lowercase 和 stop 词过滤器 ,但是在 Elasticsearch 里面还有很多可供选择的词单元过滤器。 词干过滤器 把单词 遏制 为 词干。 ascii_folding 过滤器移除变音符,把一个像 "très" 这样的词转换为 "tres" 。 ngram 和 edge_ngram 词单元过滤器 可以产生 适合用于部分匹配或者自动补全的词单元。
PUT /my_index
{
"settings": {
"analysis": {
"char_filter": { ... custom character filters ... },
"tokenizer": { ... custom tokenizers ... },
"filter": { ... custom token filters ... },
"analyzer": { ... custom analyzers ... }
}
}
}
实例:
//此处自定的组件都只能在my_index索引中使用,对其他索引时不可见的
PUT /my_index
{
"settings": {
"analysis": {
//自定义字符过滤器:将&转换为and
"char_filter": {
"&_to_and": {
"type": "mapping",
"mappings": [ "&=> and "]
}},
//自定义此单元过滤器:设置the和a为停用词
"filter": {
"my_stopwords": {
"type": "stop",
"stopwords": [ "the", "a" ]
}},
//自定义分析器:组合上面的自定义字符过滤器与词单元过滤器
"analyzer": {
"my_analyzer": {
"type": "custom",
"char_filter": [ "html_strip", "&_to_and" ],
"tokenizer": "standard",
"filter": [ "lowercase", "my_stopwords" ]
}}
}}}
// 测试自定义分析器
GET /my_index/_analyze
{
"analyzer": "my_analyzer",
"text": "The quick & brown fox"
}
对象映射
根对象
映射的最高一层被称为 根对象 ,它可能包含下面几项:
一个 properties 节点,列出了文档中可能包含的每个字段的映射
各种元数据字段,它们都以一个下划线开头,例如 _type 、 _id 和 _source
设置项,控制如何动态处理新的字段,例如 analyzer 、 dynamic_date_formats 和 dynamic_templates
其他设置,可以同时应用在根对象和其他 object 类型的字段上,例如 enabled 、 dynamic 和 include_in_all
对象属性
文档字段属性的三个重要设置:
type
字段的数据类型,ES支持的核心简单域类型如下:
字符串:text、keyword(ES5之前为string,ES5之后,将string类型被分成Text和Keyword两种类型,keyword类型的数据只能完全匹配,适合那些不需要分词的数据,对过滤、聚合非常友好,text当然就是全文检索需要分词的字段类型了。将类型分开的好处就是使用起来更加简单清晰,以前需要设置analyzer和index,并且有很多都是自定义的分词器,从名称根本看不出来到底分词没有,用起来很麻烦。 )
整数:byte、short、integer、long
浮点数:float、double
布尔型:boolean
日期型:date
以及数组、嵌套对象(嵌套对象如何索引)、ip、geo_point、geo_shape等
index
字段是否应当被当成全文来搜索( analyzed ),或被当成一个准确的值( not_analyzed ),还是完全不可被搜索( no )
analyzer
确定在索引和搜索时全文字段使用的 analyzer
实例:
PUT /gb
{
"mappings": {
"tweet" : {
"properties" : {
"tweet" : {
"type" : "text",
"analyzer": "english", //使用英文分词器
"fields": { //当我们对一个字段分词与不分词都需要时,就可添加fields来实现
"keyword": {
"type": "keyword"
}
}
},
"date" : {
"type" : "date"
},
"name" : {
"type" : "text"
},
"user_type": {
"type" : "keyword"
},
"desc": {
"type" : "keyword",
"index": "no" //不进行索引
},
"user_id" : {
"type" : "long"
}
}
}
}
}
** 修改映射 **
已经存在的数据不能修改映射类型,因为修改后新数据与老数据不一致,这样会导致数据混乱,但我们可以为新增字段添加映射类型
//如添加一个test字段
PUT /gb/tweet/_mapping
{
"properties": {
"test":{"type": "keyword"}
}
}
元数据:_all字段
一个把其它字段值 当作一个大字符串来索引的特殊字段。 query_string 查询子句(搜索 ?q=john )在没有指定字段时默认使用 _all 字段。
//对_all字段进行搜索
GET /_search
{
"match": {
"_all": "john smith marketing"
}
}
如果你不再需要 _all 字段,你可以通过下面的映射来禁用:
PUT /my_index/_mapping/my_type
{
"my_type": {
"_all": { "enabled": false }
}
}
在映射api中我们也可以通过每个字段的属性include_in_all来设置自己是否包含在_all字段中,默认为true。在一个对象(或根对象)上设置 include_in_all 可以修改这个对象中的所有字段的默认行为。
元数据:文档标识
文档标识与四个元数据字段 相关:
_id 文档的 ID 字符串
_type 文档的类型名
_index 文档所在的索引
_uid _type 和 _id 连接在一起构造成 type#id
默认情况下, _uid 字段是被存储(可取回)和索引(可搜索)的。 _type 字段被索引但是没有存储, _id 和 _index 字段则既没有被索引也没有被存储,这意味着它们并不是真实存在的。
尽管如此,你仍然可以像真实字段一样查询 _id 字段。Elasticsearch 使用 _uid 字段来派生出 _id 。 虽然你可以修改这些字段的 index 和 store 设置,但是基本上不需要这么做。
动态映射
默认情况下,当 Elasticsearch 遇到文档中以前 未遇到的字段,它用 dynamic mapping 来确定字段的数据类型并自动把新的字段添加到类型映射。我们可以通过dynamic属性来控制新字段的行为:
true 动态添加新的字段--缺省
false 忽略新的字段
strict 如果遇到新字段抛出异常
实例:
PUT /my_index
{
"mappings": {
"my_type": {
"dynamic": "strict", //根对象索引新字段会抛出异常
"properties": {
"title": { "type": "string"},
"stash": {
"type": "object",
"dynamic": true //内嵌对象可以动态索引新字段
}
}
}
}
}
自定义动态映射
** 日期检测**
当 Elasticsearch 遇到一个新的字符串字段时,它会检测这个字段是否包含一个可识别的日期,比如 2014-01-01 。 如果它像日期,这个字段就会被作为 date 类型添加。否则,它会被作为 string 类型添加。若我们想禁用这种行为,让其默认添加为string类型,可将date_detection 设置为false,关闭日期格式检测。
实例:
PUT /my_index
{
"mappings": {
"my_type": {
"date_detection": false
}
}
}
** 动态模板**
我们可以通过dynamic_templates来控制新检测生成字段的映射。
实例:
PUT /my_index
{
"mappings": {
"my_type": {
"dynamic_templates": [ //遇到新字段从上往下匹配模式
{ "es": {
"match": "*_es", //匹配字段名以 _es 结尾的字段
"match_mapping_type": "string",
"mapping": {
"type": "string",
"analyzer": "spanish"
}
}},
{ "en": {
"match": "*", //匹配其他所有字符串类型字段
"match_mapping_type": "string",
"mapping": {
"type": "string",
"analyzer": "english"
}
}}
]
}}}
match_mapping_type 允许你应用模板到特定类型的字段上,就像有标准动态映射规则检测的一样, (例如 string 或 long)。
match 参数只匹配字段名称, path_match 参数匹配字段在对象上的完整路径,所以 address.*.name 将匹配这样的字段:
{
"address": {
"city": {
"name": "New York"
}
}
}
unmatch 和 path_unmatch将被用于未被匹配的字段。
缺省映射
通常,一个索引中的所有类型共享相同的字段和设置。 default 映射更加方便地指定通用设置,而不是每次创建新类型时都要重复设置。 default 映射是新类型的模板。在设置 default 映射之后创建的所有类型都将应用这些缺省的设置,除非类型在自己的映射中明确覆盖这些设置。
实例:
PUT /my_index
{
"mappings": {
"_default_": {
//在该索引中默认禁用所有类型的_all字段
"_all": { "enabled": false },
//以time结尾的字段都映射成date类型
"dynamic_templates": [
{ "time": {
"match": "*time",
"match_mapping_type": "string",
"mapping": {
"type": "date"
}
}},
]
},
"blog": {
//覆盖默认设置
"_all": { "enabled": true }
}
}
}
重新索引数据
尽管可以增加新的类型到索引中,或者增加新的字段到类型中,但是不能添加新的分析器或者对现有的字段做改动。 如果你那么做的话,结果就是那些已经被索引的数据就不正确, 搜索也不能正常工作。
对现有数据的这类改变最简单的办法就是重新索引:用新的设置创建新的索引并把文档从旧的索引复制到新的索引。
字段 _source 的一个优点是在Elasticsearch中已经有整个文档。你不必从源数据中重建索引,而且那样通常比较慢。
为了有效的重新索引所有在旧的索引中的文档,用 scroll 从旧的索引检索批量文档 , 然后用 bulk API 把文档推送到新的索引中。
索引别名与零停机
在前面提到的,重建索引的问题是必须更新应用中的索引名称。 索引别名就是用来解决这个问题的!
索引 别名 就像一个快捷方式或软连接,可以指向一个或多个索引,也可以给任何一个需要索引名的API来使用。别名 带给我们极大的灵活性,允许我们做下面这些:
在运行的集群中可以无缝的从一个索引切换到另一个索引
给多个索引分组 (例如, last_three_months)
给索引的一个子集创建 视图
有两种方式管理别名: _alias 用于单个操作, _aliases 用于执行多个原子级操作。
实例:
PUT /my_index_v1
//设置别名
PUT /my_index_v1/_alias/my_index
//查看别名执行那个索引
GET /*/_alias/my_index
//查看索引有那个别名
GET /my_index_v1/_alias/*
//原子操作执行别名删除与添加
POST /_aliases
{
"actions": [
{ "remove": { "index": "my_index_v1", "alias": "my_index" }},
{ "add": { "index": "my_index_v2", "alias": "my_index" }}
]
}