随着网络技术的不断发展,大量分布式系统被部署在网络中,常见的如Web应用、Web Service等。分布式系统不同于一般软件系统,它通常由物理分布的多个子系统组成,这些子系统通过相互间的协作完成计算任务,具有物理分布、并发访问、时序敏感、平台异构等特点。此外,分布式系统中的诸多子系统在触发方式、工作方式等方面往往也不属于同一类型,比如,通过网络协议传递消息的子系统和利用本地接口进行方法调用的子系统等。 因此,对分布式系统的测试也不同于一般软件系统的测试,需要采用分布式测试。
一、什么是分布式测试
分布式测试是指通过局域网和Internet,把分布于不同地点、独立完成特定功能的测试计算机连接起来,以达到测试资源共享、分散操作、集中管理、协同工作、负载均衡、测试过程监控等目的的计算机网络测试。
二、分布式测试系统的特点
分布式测试系统是传统网络化测试系统的进一步发展,具有以下主要特点:
(1)网络化。网络化的目的是实现多个测试节点间基本的互连、互通功能,实现资源共享,是分布式测试系统的底层支撑结构。
(2)分布性。分布式测试系统不仅在地域上分布,而且在计算上也应是分布的。这对测试系统提出了一些更高的要求,如测试子系统间协同工作、整体视图、负载均衡、具有可扩展性和高可用性等。同时,分布式测试系统对用户具有位置透明性,测试信息“唾手可得”。
(3)开放性。开放性包含四个方面的特征,即可移植性、可互操作性、可伸缩性、易获得性。分布式测试系统能够采用各种COTS(Commercial-Off-The-Shelf,商业上现成的产品和技术)软/硬件模块,给系统的构造带来诸多便利。
(4)实时性。分布式测试系统本质上是一个实时系统,任务间协同工作处理各种测试信息都必须是实时的,对过程之间的同步、操作的时限有着严格要求。
(5)动态性。测试系统可以动态地运行操作,支持测试过程中的所有的管理和测试活动,能灵活地根据测试实施方案,进行测试过程对象和活动的映射。
(6)处理不确定性。分布式测试环境的初始状态是确定的、已知的,但随着系统的运行,各种动态实体在环境中变化,同时对环境产生影响,使得环境也发生某些变化,这种动态变化带来了不确定性,分布式测试系统必须具有处理这种不确定性的能力。
(7)容错能力强,可靠性高、安全性好。
三、分布式测试系统关键技术
(1)分布式环境
对分布式测试而言,测试过程是一种对流程控制要求很高的活动,因此系统需要适时地获取全局状态以正确地指导流程;其次,在测试过程中,系统要能够方便地监视和操纵测试过程。因此,分布式测试系统适合采用集中式的分布式策略,即,由一台中心计算机控制若干台受控计算机的执行,整个测试过程和资源管理由中心来完成,它掌握整个分布式测试环境的状态,从而发出控制命令。
(2)分布式环境下的节点通信
分布式测试环境中的活动均带有很强的流程性,某一步操作的失败会导致整个测试流程的中断和异常,因此需要一个稳定的通信环境。同时,通信主要是在中心节点和执行节点之间进行,两种节点的主要工作都集中在测试活动并且在逻辑上中心节点和执行节点相互并发,具有一定的独立性。因此,分布式测试系统相对于提供服务的分布式系统而言,适合用基于消息通信的方式来实现。
(3)测试任务调度
分布式测试的优点是测试人员可以事先定制任务执行的时间表,如在指定时间、指定设备上执行指定的测试任务。但同时也面临一个问题,在硬件和软件资源有限的情况下,如何以最有效的方式完成测试任务?其中关键的问题就是测试调度。分布式测试调度是指把组成测试任务的一组测试用例,分配到分布式测试系统的不同执行节点上,并按照一定的测试时序调度执行,以满足事先制定的测试需求。分布式测试调度方法可分为静态调度、动态调度和混合调度三类。静态调度是指假设系统的拓扑结构和性能参数固定不变,设计调度算法时只考虑当前系统状况,并针对当前状况尽量优化调度性能。动态调度则是指在测试执行过程中,根据系统的运行状况(如执行节点加入或退出、执行节点资源使用情况等),动态地决定各个用例的执行节点和相应的执行时间。动态调度比静态调度更加灵活,但也会带来更多的调度开销,有可能影响最终的调度性能。混合调度是静态调度和动态调度二者的组合方法,一般来说,它根据测试用例和系统的特点,对部分用例采取静态调度策略,对另一部分用例则采取动态调度策略。这三种方法各有利弊,需要测试人员根据具体测试情况来选择使用哪种调度方法。
以上对分布式测试系统的特点和部分关键技术进行了简单分析。随着越来越多的领域活动依赖于分布式应用,分布式测试将受到人们更大的关注,测试系统实现技术也将不断发展成熟,以便快速高效地发现软件中存在的功能和性
分布式系统在越来越多的公司和产品系统中应用,作为分布式系统要求高扩展,高稳定,高可靠,高可用,并且部署复杂、软件角色多、硬件依赖强,对于测试来说,分布式系统的测试面临以下难点:
1 分布式事务:多机、多角色协作,测试场景多且复杂
2 多线程:多线程场景难模拟
3 多系统:关联的外围系统多,而且又都是分布式
4 一致性要求:强一致、弱一致、最终一致
5 稳定性要求:如何保证7*24小时系统稳定
6 可用性要求:各种系统异常场景,软件、硬件因素
7 兼容性要求:多客户端服务端版本,多服务方式(REST、JavaClient)
8 性能要求:吞吐量和响应时间,软硬件因素
如何来应对这个难题,可以从如下几个方面来应对:
(1)多层次测试保障。将测试分为不同的层次,在每个层次注重不同的测试重点。
a)单元测试:开发人员完成,覆盖基本逻辑
b)白盒异常测试:有针对的对各个系统异常进行代码级模拟,验证系统是否有能力处理并保持可用
c)接口测试:保证服务的各个对外接口符合预期,基本功能验证
d)集成测试:高压力、高并发、多种系统协作的基本功能和异常场景测试(软件、硬件异常)
e)稳定性测试:高压力模拟常见应用和故障的混合场景,多种方式并行进行。
f)仿真测试:建立客户应用回归环境,仿真客户使用场景
(2)低成本测试。所谓低成本测试就是在测试过程中采取一系列的策略,降低测试成本,包括在前期参与设计方案评审和Code Review。明确不可靠模块的应用风险,核心模块的持续投入,自动化回归和多环境并行测试,并且参与线上应用情况的分析和线上故障的排查,做好bug的应对方案。
(3)高效定位问题。从测试用例出发,确定出现bug的特定场景,根据完善的日志和监控体系来进一步分析出现问题的条件,从而能逐级缩小测试用例,从黑盒的测试用例转入白盒测试用例,另外可以利用自动化测试分析工具来进行分析。最核心的还是要对产品本身有深入的了解,产品的需求和产品的实现都要理解。
(4)DST,分布式系统测试工具。
DST拥有以下的强大功能:
1 支持编写测试用例实现多机并行测试
2 可集成多种已有的测试工具及用例
3 可配置的监控数据自动收集与展示
4 日志自动分析与查看
5 可扩展的任务执行控制功能
6 性能、功能结果对比
7 测试报告自动生成
DST的整体框架:
其中WebServer主要提供了测试管理的功能,包括用例场景,实验室,集群管理和监控日志查看,和测试报告生成的功能。
测试集群完成了测试用例的分发和执行,并且通过TestCaseRunner来集成多种测试工具。
数据分析平台则主要完成监控数据和日志数据的存储和分析,并将分析结果推送给WebServer以供用户查看。
DST的页面图
除了以上几点,神秀还分享了一些在分布式系统测试中积累的一些经验:
(1)分布式事务最难搞。需要注意的点有三个:
a)单系统、单机出现异常不能影响事务正确性
b)不可过分信任依赖系统
c)系统设计时的检查更为重要,多系统异常难模拟,难考虑完整。在系统设计时的reivew更能提前发现问题,避免后续测试出现问题再排查浪费时间。
(2)性能的小问题不容忽视。主要体现在以下几个方面:
a)关键性能指标看不到是系统稳定性的地雷
b)通过关注测试系统的性能表现可以快速发现线上系统隐患
c)测试人员比开发人员对线上性能更有发言权
d)及时的给出测试数据和改进意见是测试价值的体现
e)关注线上性能表现可以完善测试用例,更贴近实际
(3)GC是性能的重要因素。可以参考的点:
a)减少GC暂停时间是优化的目标
b)避免内存碎片对应用的影响
c)观察线上系统GC状况避免故障(内存泄露、FullGc)
d)Gc日志和gc监控帮助我们发现最合理的配置
(4)线上最容易发现隐患,测试人员要多参与线上应用情况和线上问题的分析。
(5)有bug也不能影响系统稳定,系统不可能没有bug,往往出了bug如何处理比bug本身更重要,这对系统的健壮性和系统的自我调节和报警能力提出了更高的要求。
大规模分布式系统性能测试实践:
http://www.uml.org.cn/test/201902212.asp
一、云时代的应用性能测试挑战
二、华为云性能测试实践方案如何更加系统的开展性能测试活动
被测对象分析
测试场景分析建模
测试需求分析
工具选型与搭建
测试执行
性能测试分析与调优
1. 被测对象分析(某社交类APP)
从系统架构分析可能出现的瓶颈点,作为重点测试场景
Feed流会频繁操作后台的Redis等服务,每次操作会产生100+次网络操作,200+次key/Value运算,因此会成为系统的主要性能瓶颈
备注:Feed是将用户主动订阅的消息源组合在一起形成内容聚合器,帮助用户持续地获取最新的订阅源内容,在社交类应用中被广泛使用若干
2. 测试场景分析建模
业务特点:用户增长迅速、突发事件高流量并发
Step1:以使用场景为主线,构建性能模型(使用角色、使用阶段等)
Step2:分析每个操作场景的影响因子,如好友、关注数量等,建立每个场景的测试模型
单场景一级接口测试
单场景二级接口测试
如需测试某个对性能的影响,可递增方式改变因子值进行测试
按照页面权重分配压力模型,实际在生产环境比例会不断变化,因此在性能摸底过程中需要不断调整摸底
示例:全页面混合压测模型
3. 测试工具需求分析
识别关键场景测试需求
HTTP协议/Rest接口
用户登陆认证 ,模拟多用户操作
支持接口串联场景,需要上下文关联
性能暂无基线,需要支持递增模式快速摸底
各页面用户量未知,需要灵活调整混合模型配比
由于社交类应用业务增长迅速,因此需要支持按需使用,随时扩大工具的并发量
需要支持10万以上的并发
测试结果易于观察、保存
提供监控能力,便于快速定位
4. 测试服务选型与搭建
测试服务选项原则:功能满足、效率高(即开即用)、成本低
云服务更适合测试高扩展性的大规模分布式系统
5. 测试执行
分层开展性能测试,在集成阶段确保性能测试活动可开展
测试执行的一些典型问题
性能是一个逐步提升的过程,测试过程中需要找到扩容的模型,从不足50的TPS提升至万级
6. 测试结果分析
1.1 如何从测试工具侧快速分析被测对象可能存在的问题
· 存在部分响应超时:
a) 服务器繁忙,如某个服务节点CPU利用率高
b) 网络IO超过VM/EIP带宽
c) 等待后端微服务、数据库的超时时间设置过长
· 运行一段时间后全部响应超时或者检查点校验不通过:
a) 大压力导致系统中某个微服务奔溃
b) 后端数据库无响应
· TPS未随着并发数增长而上升:
a) 系统性能到达瓶颈,持续并发加压过程中响应时延增加(可观察响应区间统计)
b) 可通过进一步加压是否会出现非正常响应验证
· TP90响应时延较短,TP99时延高:
a) 系统性能接近瓶颈
b) 可通过进一步加压是否会出现非正常响应验证
1.2 一些通用优化建议
扩容,链路中的某一应用可能出现cpu使用率较高或者连接池资源不够用(rpc、jdbc、redis连接池等)但本身对于拿到连接的请求处理又很快,这一类需要横向扩展资源。
应用逻辑优化,比如存在慢sql、 逻辑的不合理如调用db或者redis次数过多、没有做读写分离造成写库压力过大。
超时时间的合理设置,对于应用之间的rpc调用或者应用与其他基础组件之间的调用,均需要设置合理的超时时间,否则过长的等待将造成整个链路的故障。
缓存的应用,请求尽可能从前端返回,而不是每一个都要让后端应用处理后再返回,减轻后端应用及数据库压力,提高系统吞吐能力。
限流,对于超出承载能力的QPS或并发,可以进行拦截并直接返回提示页面。
降级,对于非核心链路上的应用,允许故障关闭而不影响核心链路
扩容和优化也是有限度的,在评估容量内,保障核心交易链路正常是重中之重,对于非核心功能模块考虑降级场景
三、某互联网平台案例
业务特点:突发事件高流量突发,如瞬间由百级用户增长到万级
对于网络架构复杂的应用,可以通过网络架构上的分段验证,如分别从最外端的CDN入口(1)中间的ELB(2)业务层(3)分别做测试,验证网络架构上的瓶颈和影响
应用内部的性能瓶颈如何提升定位效率?
四、性能测试的最后一公里
集成APM,解决性能问题定位最后一公里问题,大幅提升性能测试效率
如:xxx并发情况下,服务A调用服务B的事务1出现问题,并直接定位至出错函数
在上线和活动前期通过云性能测试服务进行压力测试,发现部分接口的响应时间比较长,会出现比对失败和响应超时,通过APM的调用链分析,发现有部分SQL语句比较耗时,针对这些SQL查询语句,建立了索引,快速定位问题并迅速解决。
最终经过两轮测试优化后,官网首页访问响应超时与正常返回比提升了43.3%,预约试驾场景响应超时与正常返回比降低到0,提升了100%。
性能瓶颈定位时间,从官网未使用APM时需要1周,缩短到俱乐部使用APM后的0.5天,效率提升90%
应用拓扑
事务监控
调用链跟踪
五、性能测试服务关键能力要求