开箱即用分布式存储的情况简直不要太理想。比如ceph为大规模集群设计,一些参数的配置等也是考虑到大规模设备的使用,部署在小的集群性能效果就不甚理想。
均衡
使用小集群,对于ceph性能非常重要的一个环节是均衡。理由有二:
- 分布式系统在一些场景下存在短板效应(weakest-link-in-the-chain phenomena),系统的性能往往会受到短板的限制。
- 单一组件的任务过载也会造成性能短板,从而造成全局性能限制
ceph的均衡可以理解为PG的均衡(PG,OSD上实际的资源消耗者,其将逻辑池划分。写向池里的数据首先映射到的是按照2的幂次方划分的众多PG中的一个,然后PG会根据crush算法对应到OSD上)。平衡PG的规则可以划分为三种:
- 每个OSD上相同数目的PG
- 存储设备按照相同的利用率平衡,但面对异构的设备则并不理想
- 每个OSD上拥有相同数目的primary pg(ceph的复制方式采用主从复制,相对于primary的是secondary,读写的都是由primary为处理),但目前尚未实现
均衡手段
目前ceph处理平衡的手段有4种,大多数都是基于第一种平衡规则(每个OSD上相同数目的PG):
- Balancer。N版本新增加的功能,可以优化全局PG分布的情况,达到OSD之上PG相差1左右的效果。使用“ceph mgr module enable balancer”开启组件,然后使用“ceph balancer on”开启功能,最后设置工作模式“ceph balancer <mode>”,crush-compat兼容老的客户端,unmap针对新的客户端。
除此之外balancer还可评估目前的分布状态,特定池的分布状态、创建一个分布计划、评估该计划、执行该计划。
- OSD Crush reweight。该命令接口提供调整CRUSH规则默认的权重能力。可以对单独的OSD重新设置权重,也可以对所有OSD设置。但是不适合给大规模集群使用,将要被balancer代替。reweight也可以根据设备利用率来调整。
- PG autoscaler。一个自动为每个池设定PG数的工具,可以根据池中数据情况进行改变。pg数目在之前版本不可以减少,N版本之后PG数目可以增加和减少。autoscaler提供自动扩展(on)和告警(warn)模式。
autoscaler按照默认pg和osd的比例调整,但是该比例也可以修改“ceph config set global mon_target_pg_per_osd 100”,当然PG的增多对于OSD和MON机器的处理能力(内存、网络、CPU)有更高的要求。
除此之外,用户可以设置池的限制,来引导或限制pg的调整。比如设置池的目标容量或占用存储比例、最小的pg数目来为autoscaler提供参考,这样可以避免pg调整造成数据迁移带来的开销。
autoscaler的开启方式:ceph mgr module enable pg_autoscaler。在需要高性能的情况下要小心使用。
- 修改pool的PG的数量。增加或者减少(在N版本中支持)PG的数量,同时修改pg和pgp的量。具体使用“ceph osd pool set xxx pg_num yyy”命令。提高PG数量可以分散的更加均衡。一些测试结果表明pg数目越大标准差约小,对于带宽有相应的提升。
PG的均衡往往伴随着数据的迁移和响应对性能的影响,需要谨慎评估再实施。
均衡效果确认
以下途径确认调整之后均衡的效果:1、使用ceph -s查看集群整体情况,以及pg的大致状态;2、ceph osd df可以查看目前平衡情况的标准差;3、自实现统计primary pg的脚本,简单的shell脚本即可(读写负载较重的场景,primary pg分散的不够开,造成某些节点负载过大。)。
总之,为了达到较好的效果一定要让集群平衡平衡再平衡。另外,除了PG之外其他一些限制也会对性能产生影响,比如objecter组件由于限流的设计对ops和双向传输的数据量存在限制(文件存储、对象存储都已经体验过)。性能限制还要根据IO路径具体分析。
参考资料
主要参考:https://static.sched.com/hosted_files/cephalocon2019/10/Optimizing%20Small%20Ceph%20Clusters.pdf
pg数目的计算工具:https://ceph.com/pgcalc/
pg的官方运维参考:https://docs.ceph.com/docs/master/rados/operations/placement-groups/