海量数据下Elasticsearch搜索引擎分析与搭建

前言

伴随着业务的迭代,我们能预见到的第一个问题往往是来自数据库。

在Elasticsearch没出现之前,如果MySQL数据库的某张表的数据量涨到1亿,复杂的查询条件下总是返回TimeOut,你只能尝试分库,分表,分区,添加索引,迁移数据到 PostgreSQL或MariaDB,添加缓存……忙忙碌碌10多天发现效果并不理想,最终只能寻求业务上的妥协。

所有开发人员都在寻找一种轻松应对海量数据管理的工具,Elasticsearch为此而生。

一. 问题

监控平台上显示有接口标红(耗时26秒),进一步排查发现主要耗时在SQL执行层。具体信息如下:

  1. 该表有4亿数据,占用90G磁盘(InnoDB引擎)。

  2. SQL语句中用到了avg,sum等计算,基于MySQL优化的空间非常小。

  3. 项目中使用了大量的ORM和原生SQL,修改项目代码的风险较大。

最初我希望找到一种方案实现“透明”优化(不改代码逻辑),在尝试多种方案后放弃。最后选择 Elasticsearch 实属无奈,大量ORM和原生SQL需要重写。引入新技术是为了解决主要问题,新技术肯定会带来新的问题,如何抉择?每次我都会想到马车和汽车,汽车比马车速度快,能解决人们出行的主要问题,即使汽车带来了污染,维修,事故,拥堵等,最终汽车敲开了新世界的大门。

Tips: 官方提供了 elasticsearch-sql 工具,可将SQL转换成elasticsearch的查询DSL,节约开发时间。

二. Elasticsearch使用效果

使用Elasticsearch后,对于单Type(Elasticsearch中Type等同于表)4亿数据,各种复杂的搜索条件都能1秒内返回。具体架构如下


image

如果服务器9200端口无法访问,可以通过Nginx做一次转发。对于客户端来说所有操作都能通过http接口实现。对于Elasticsearch集群来说,只需要添加机器、摘除机器。所有数据同步、负载均衡等操作都由Elasticsearch的内部机制实现。

三. Elasticsearch内部结构

第一次接触Elasticsearch,很多名词不好理解,可与MySQL类比加深印象:

Elasticsearch MySQL
Cluster(集群) 数据库集合
Node(节点) 服务器
Index(索引) Database(数据库)
Type(分类) Table(数据库表)
Document(文档) Data(数据)
图片说明

图片说明:

  1. Node(节点)表示Elasticsearch服务进程,一台物理机上可以启动一个或者多个Node(Elasticsearch服务进程)。Node中存放着一个或者多个分片,每个分片都是一个独立的Lucene 搜索引擎(下面会谈到)。

  2. Index(索引)等同于MySQL的Database,每个Index下都有一个或者多个分片(系统默认分配5个),下图是索引与节点的关系图

    节点与索引的关系
  3. Type(分类),等同于MySQL的Table,很容易理解。处理数据时需要指定Index和Type,与MySQL执行需要指定数据库和表名一样。

  4. Document(文档)等同于MySQL的一行数据,同样需要设置属性名和数据类型。不过Document中的属性用Field表示,使用Json格式,每个Document都可能会有不同的Field集合这与MySQl的属性概念差别非常大。

  5. Shard(分片)在上文Node和Index中都提到了分片信息,他是Elasticsearch特有的结构。通过分片能实现水平扩容,分布式部署达到提高性能/吞吐量。

四. Luncene介绍

Elasticsearch能搭建高性能可扩展的集群,离不开Lucene搜索引擎,在学习Elasticsearch时一定要对Lucene有所了解。

Lucene是一个成熟的、高性能的、可扩展的、轻量级的,功能强大的搜索引擎。类似于Sphinx、Xapian。

image

如图所示:

  1. Lucene 能够为文本类型的数据建立索引,只要源数据的格式能转化为文本格式,Lucene 就能进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引,只需要把 HTML 文档和 PDF 文档转化成文本格式,然后将转化后的内容交给 Lucene 进行索引, Lucene会把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。

  2. 索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想你现在要在大量的文档中搜索含有某个关键词的文档,那么如果不建立索引的话你就需要把这些文档顺序的读入内存,然后检查这个文章中是不是含有要查找的关键词,这样的话就会耗费非常多的时间,想想搜索引擎可是在毫秒级的时间内查找出要搜索的结果的。这就是由于建立了索引的原因,你可以把索引想象成这样一种数据结构,他能够使你快速的随机访问存储在索引中的关键词,进而找到该关键词所关联的文档。Lucene 采用的是一种称为反向索引(inverted index)的机制。反向索引就是说我们维护了一个词 / 短语表,对于这个表中的每个词 / 短语,都有一个链表描述了有哪些文档包含了这个词 / 短语。这样在用户输入查询条件的时候,就能非常快的得到搜索结果。

Elasticsearch的搜索速度能如此快,得益于 Lucene 的反向索引机制,也叫倒排索引(inverted index)。

与Lucene一样,Elasticsearch 同样会将索引文件保存到内存中,由于JVM heap分配不能超过32GB的内存(超过32GB以后,JVM的对象指针压缩失效,实际可能内存反而更小),所以一个Elasticsearch节点最大只能将32G的数据放入内存。如果机器是128G的,最好启用3个Elasticsearch节点;

五. Elasticsearch平台搭建

Linux和Windows上都能搭建Elasticsearch,搭建成本非常低。这里举例通过CentOS的yum安装java1.8

$ yum install java-1.8.0-openjdk.x86_64
$ wget https://download.elastic.co/elasticsearch/release/org/elasticsearch/distribution/tar/elasticsearch/2.3.4/elasticsearch-2.3.4.tar.gz
$ tar zxvf elasticsearch-2.3.4.tar.gz
$ cd elasticsearch-2.3.4
$ ./bin/elasticsearch -d

使用 2.3.4 版本是因为从MySQL实时同步数据到 Elasticsearch 需要使用JDBC importer,JDBC importer 最高只支持elasticsearch-2.3.4。如果你的系统不需要使用JDBC importer可安装更高版本的Elasticsearch 。

假如你需要从MySQL同步数据到elasticsearch使用JDBC importer将非常方便。

Elasticsearch可以开箱即用,当然也可以针对自己的服务器环境做一些初始化设置。修改Elasticsearch的配置文件 config/elasticsearch.yml,设置集群名称,存储路径。添加新服务器,只需要重复如上步骤,拷贝配置文件 config/elasticsearch.yml到新服务器再做如下简单修改

# 修改0.0.0.2服务器上的配置文件
node.name: node2
network.host: 0.0.0.2

# 修改0.0.0.3服务器上的配置文件
node.name: node3
network.host: 0.0.0.3

为了方便管理 Elasticsearch 集群,建议在本地安装一个Chrome扩展 ElasticSearch Head

六. 使用技巧

  1. Document(文档)的json结构需要尽量统一,能提高搜索速度;

  2. 分片一定要有1个或者多个复制分片;

    为什么需要多个复制分片?不是会有大量冗余吗?

    Elasticsearch的性能提升与水平扩容主要是通过复制分片实现。创建索引时就已经确定了分片的数量(默认是5),这个参数后期无法再修改。前面提到过一个分片就是一个Lucene搜索引擎,当数据量达到PB级别,5个搜索引擎肯定承受不了。在无法添加分片的情况下,我们可以动态添加复制分片,比如为每个分片设置6个复杂分片,再添加6台机器,这样数据就备份了6份,每一份单独运行在一台机器上,理论上搜索性能可提升6倍;6个复制分片就是6份全量备份,冗余很严重,空间换时间不要太在意冗余。

  3. 主分片与复制分片不能在一个节点上,否则毫无意义。一是机器硬件出问题,数据会全部丢失。二是分片和复制分片共用内存和磁盘,机器慢所有分片都会慢。

  4. 索引下的分片也不能太多,数据同步非常耗性能,默认的5个分片是官方经过测试后给的最优方案;

  5. 冷数据存储需要做特殊处理,减少机器的负担;

  6. 关于节点和分片数的配置遵循如下公式: 节点数 = (复制分片+1)* 分片

如果你喜欢我的文章,请关注我的博客查看更多内容 海量数据下Elasticsearch搜索引擎分析与搭建

喜欢编程的朋友可以关注我的个人公众号,保证每周三篇原创。
程序员编程日志
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • Solr&ElasticSearch原理及应用 一、综述 搜索 http://baike.baidu.com/it...
    楼外楼V阅读 7,247评论 1 17
  • 博客原文一博客原文二 翻译作品,水平有限,如有错误,烦请留言指正。原文请见 官网英文文档 起步 Elasticse...
    rabbitGYK阅读 3,227评论 0 68
  • 今天体检,要空腹,早晨买了双夹和豆浆,放在暖气上,随后拿上体检单,直奔三楼体检区。 单位每年组织一次体检,基本都在...
    空思我阅读 242评论 0 0