当ES向logstash发出reject

背景:使用了自定义插件之后,出现了数据无法写入es的问题。


查看日志后发现如下信息:

[2019-xxx][INFO ][logstash.outputs.elasticsearch] retrying failed action with response code: 429 ({"type"=>"es_rejected_execution_exception", "reason"=>"rejected execution of processing of [1406096379][indices:data/write/bulk[s][p]]: request: BulkShardRequest [[logstash-xxx][0]] containing [3000] requests, target allocation id: 5nHO5QaBQ36pxxxx, primary term: 1 on EsThreadPoolExecutor[name = data-xxx/write, queue capacity = 200, org.elasticsearch.common.util.concurrent.EsThreadPoolExecutor@25eb117b[Running, pool size = 24, active threads = 24, queued tasks = 200, completed tasks = 621218675]]"})

查阅相关资料,了解到出现"es_rejected_execution_exception"是因为logstash写入es速度小于logstash读取数据速度,导致logstash频繁给es发送bulk reuqest,从而导致es集群的网络io过载,进而产生以上的问题提示,表明elasticsearch无法继续接收数据。
可以通过调整logstash.yml的pipeline.workers,pipeline.output.workers ,pipeline.batch.size,pipeline.batch.delay,或者output plugin的flush_size, idle_flush_time参数来进行优化,经过试验后发现7.3.1版本的output plugin中flush_size,idle_flush_time已经不可用。
调整pipeline.batch.size=3000,pipeline.batch.delay=100后,正常运行了几小时后又出现了上述问题。
查阅官方文档后,找到一个output plugin配置项sniffing_delay与上述idle_flush_time类似。
怀疑是用了自定义插件导致处理速度过慢,但是经过验证发现处理速度与使用自定义插件之前并没有差距。
问题解决:pipeline.batch.size调整为2000后,logstash能流畅处理,并未产生拥堵。所以,产生这个问题的原因还是进入logstash的速度大于logstash输出的速度导致堵塞。在进行logstash性能优化时,不同的处理流程可能需要设置不同的控制参数才能达到较优的性能。
说明:这个错误的问题的产生与logstash的bulk request息息相关,es_rejected_execution_exception正是logstash像es发出请求后,若bulk queue已满,es就会向logstash返回该应答。


bulk request详解

Why am I seeing bulk rejections in my Elasticsearch cluster?

当我们发送一个bulk indexing request给ES集群时,ES集群做了什么?
当一个bulk request(该请求中包含待处理的文档)到达es集群时,该请求会被放入bulk queue中,并由bulk thread pool中的bulk thread处理,收到请求的节点为协调节点,因为该节点将会管理该请求的生命周期,并且负责响应请求。
请求处理的第一步是将bulk request按照文档将要被分配到的分片进行分割。每一个sub-request就会被发送到分片所在的节点,并加入该节点的bulk queue中。如果该节点的bulk queue已满,那么协调节点将会收到bulk sub-request被拒绝的消息。bulk queue中的请求将被bulk thread pool处理,并将文档当做处理的一部分发送到副本分片。当bulk sub-request处理结束后,该节点将向协调节点返回响应。
当所有bulk sub-request被处理或被拒绝,协调节点将向客户端返回响应,这其中有可能有些文档是被拒绝了的。
bulk queue被设置为有最大限制是因为,如果没有限制的话,将会很容易通过恶意的行为或者仅仅是无心之失从而让es集群变得不稳定或不可靠。这个限制通过大量应用实例的经验总结而来,所以通常来说是不需要修改的。
使用HTTP或其他协议的接口时,当收到429响应,就表示bulk request被拒绝了。这时一般的做法是重试这个请求,logstash和filebeat的做法就是这样。

那么请求被拒绝的频率与什么有关呢?
该文通过试验得出的结论是:

  • 当分片数与索引数越多,请求被拒绝的频率就越大
  • 当集群节点越多,请求被拒绝的频率就越小

能通过提高bulk queue size来解决这个问题吗?

  • 提高bulk queue size能做到的只是延迟问题到来的时间,并不能解决问题
  • 有可能增大jvm heap占用,从而导致集群不稳定

能通过设置专用的协调节点解决问题吗?

  • 增加专用协调节点只是让数据节点能专心处理被分配到的子请求,对于有些用例可能有效,但是大多数时候是没有什么大的效果的。

我们能做什么?
并没有一个一劳永逸的方法,我们能做的是在问题发生时,尝试了解原因,看看是单节点还是整个集群出现拒绝的情况。如果集群无法处理负载,请确认集群负载是否均匀。如果负载均衡不能解决问题,能做的可能就是增加集群节点数量了,这将会增加队列的容量,减少队列被填满的可能性。

关于分片

How many shards should I have in my Elasticsearch cluster?

Elasticsearch 中的数据会整理为索引。每个索引又由一个或多个分片组成。每个分片都是一个 Lucene 索引实例,您可以将其视作一个独立的搜索引擎,它能够对 Elasticsearch 集群中的数据子集进行索引并处理相关查询。
每个分片都有一部分数据需要保存在内存中,这部分数据也会占用堆内存空间。这包括存储分片级别以及段级别信息的数据结构,因为只有这样才能确定数据在磁盘上的存储位置。这些数据结构的大小并不固定,不同用例之间会有很大的差别。段相关开销有一个重要特征,那就是其并不与段的大小呈严格正比关系。这意味着,与较小的段相比,对于较大的段而言,其单位数据量所需的开销要小一些。二者之间的差异可能会十分巨大。
在 Elasticsearch 中,每个查询都是在单个分片上以单线程方式执行的。然而,可以同时对多个分片进行处理,正如可以针对同一分片进行多次查询和聚合一样。这意味着,最低查询延时(假设没有缓存)将取决于数据、查询类型,以及分片大小。尽管查询很多个小分片会加快单个分片的处理速度,但是由于有很多任务需要进入队列并按顺序加以处理,所以与查询较少的大分片相比,这种方法并不一定会加快查询速度。如果有多个并发查询,拥有很多小分片还会降低查询吞吐量。


ELK系统之logstash问题:retrying failed action with response code: 429
logstash output plugin 官方文档
Why am I seeing bulk rejections in my Elasticsearch cluster?
How many shards should I have in my Elasticsearch cluster?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351