文档

概念
-- elasticsearch 是面向文档的，文档是所有可搜索数据的最小单位，对应 RDB 中的一条记录，比如一条日志、一部电影、一篇文章；
-- 文档在保存到 elasticsearch 前会被序列化成 json 格式，json 对象有字段组成（字段类型包括：字符串 / 数值 / 布尔 / 日期 / 二进制 / 范围类型）；
-- 每个文档都有一个 unique ID，这个 ID 可以自己指定也可以有 elasticsearch 自动生成；
案例：
一个 CSV 文件转换成 json 文档后的结果

【TODO】

元数据：【TODO】

在Elasticsearch下，一个文档除了有数据之外，它还包含了元数据(Metadata)；
每创建一条数据时，都会对元数据进行写入等操作，元数据定义了每个添加的doc的处理方式；类似于数据库的表结构数据；
有些元数据是在创建mapping的时候就会设置；
文档有三个必须的元数据元素：
-- _index，文档在哪存放
-- _type，文档表示的对象类别
-- _id，文档唯一标识
-- 注意：elasticsearch 中这三个元数据加在一起，构成了文档在 Elasticsearch 中的唯一标识；
案例：

【TODO】

索引 index

一个索引是拥有相似特征的文档的集合；
index V.S. shard
-- index，体现逻辑空间概念，每个所以都有自己的 mapping 定义；
-- shard，体现了物理空间概念，索引中的数据分散在 shard 上；
索引的 mapping V.S. settings
-- mapping 定义文档字段的类型；
-- settings 定义不同的数据分布；
索引库是多个 type 的集合；
对文档进行 CRUD 时需要使用索引名称；
mysql：一个应用对应一个数据库，一对一；
ES：一个应用可以对多个具有相似特征的对象构建索引，如用户索引、订单索引等，一对多；
类型 type
-- 相当于 RDB 的表；
-- 一个类型是索引的一个逻辑上的额分区；
-- ES 5.x 一个索引中可以创建多个 type；
-- ES 6.x 兼容之前的一个索引对多个 type，但是不能创建多个 type；
-- ES 7.x 一个索引不能创建多个 type，只能创建一个 type；
字段 field
-- 相当于 RDB 数据表中的字段；
-- 对同一个文档，根据不同属性（字段）进行分类；
映射 mapping
-- 对应 RDB 的表结构定义；
-- mapping 定义了映射关系；
-- mapping 定义每个 type 中有哪些 field 字段、字段名称、是否分词、是否索引、是否存储等；
文档 document
-- 文档是一个被索引的信息单元；
-- 文档以 json 格式表示；
-- 一个 index / type 里面可以存储任意多的文档；
接近实时 NRT
-- 从开始索引一个文档，到文档被搜索到，延时通常在 1s 以内；
集群 cluster
-- 多个节点组织在一起，共同持有整个数据，提供索引和搜索功能；
-- 一个集群有一个唯一的名字标识，一个节点只能通过指定某个集群的名字，加入这个集群；

节点

概念
-- 一个节点就是一个 elasticsearch 实例，本质是一个 Java 进程；
-- 一台机器上可以运行多个 elasticsearch 进程，生产环境一般建议一台服务器上只运行一个 elasticsearch 实例；
-- 每个节点在启动之后，都会被分配一个 UID，保存在 data 目录之下；
节点类型
-- master-eligible nodes & master node；
-- data node；
-- coordinate node；
-- hot & warm node；
-- machine learnning node；
-- trible node；
节点 & 集群
-- 一个集群可以拥有任意多个节点；

image.png

-- 每个节点都有自己的名称，一个节点可以通过配置节点名称的方式，加入一个集群；
-- 任意一个节点启动以后，都会创建并加入一个叫做 elasticsearch 的集群中；

image.png

master-eligible nodes & master node
-- master-eligible，表示有资格参加选举成为 master node；
-- 每个节点启动后默认就是 master-eligibel node，有资格参加选举成为 master-node；
-- 集群中的第一个节点启动后，会默认选举自己作为 master node；
-- 集群中每个节点都保存了集群状态信息；
-- 只有 master node 才能修改集群的状态信息（cluster state），如创建或删除索引，跟踪哪些节点是集群的一部分，以及决定将哪些分片分配给哪些节点；
-- 集群状态（cluster state），维护了一个集群中必要的状态信息，包括所有的节点信息、所有的索引和相关的 mapping 与 setting 信息，以及分片的路由信息；
-- 集群中如果任意节点都能修改信息，则会导致数据不一致性；
data node
-- 用于保存数据的节点成为 data 节点；
-- 一个节点可以是 master/master-eligible 节点，也可以是 data 节点，也可以同时为 master/master-eligible 和 data 节点；
节点配置
-- 开发环境中，一个节点最好只承担一种角色；
-- 职责明确、管理方便；
-- 不同角色的节点，配置不同的硬件，达到性能最优；【TODO】
-- 通过节点参数配置节点角色，如 node.master = true、node.data=fales；

分片

概念
--
分片类型
-- 主分片（primary shard） & 分片副本（replica shard）；
主分片（primary shard）
-- 主分片，解决数据水平扩展问题，通过主分片可以将数据分散到集群内的所有节点；
-- 主分片数量在索引创建时指定，后续不允许修改，除非 reindex；
副本（replica shard）
-- 副本，解决的是数据的高可用问题；
-- 副本是主分片的拷贝；
-- 副本数量可以动态调整；
-- 增加副本，在一定程度可以提高服务的可用性，提高数据读取吞吐量；
分片设定
-- 如果分片数设置过小，会导致后续无法增加节点，进而无法进行水平扩展；
-- 吐过分片数设置过大，会导致数据重新分配，耗费大量时间，同时会影响排名、打分等数据的统计；
-- 默认情况下，elasticsearch 中的每个索引会被分成 5 个主分片和 1 个复制，如果集群中有 2 个节点，那么集群将会有 5 个主分片、5 个复制分片，每个索引共 10 个分片；
--

Elasticsearch：Elasticsearch 中索引、节点、集群、分片等关键名词全解读

Elasticsearch：Elasticsearch 中索引、节点、集群、分片等关键名词全解读

文档

元数据：【TODO】

索引 index

节点

分片