现象:在项目维护过程中,使用了Quartz框架,也就是定时执行任务的功能。但是,在多节点多并发的过程中,出现了一个问题,同一个trigger被多个机器重复的触发了。
Quartz的运行流程:
当任务达到触发条件的时候(当这条任务满足qrtz_cron_triggers表中定义的相关的时间表达式的时候)
qrtz_triggers表对应的这条记录的状态发生改变,同时下次触发时间根据时间表达式做出改变,同时根据sched_name找到qrtz_job_details
表中的具体job去执行
网上的解决办法:
- 使用 zooKeeper的注册机制.
当任务进入job之后用job id(同时触发的这几个job的id是一样的)去向zookeeper完成注册,由于id是一样的那么只能有一个注册成功,只要在注册成功的条件下我才允许task。这样就保证了不做重复的运算。
public class PlatformQuartzJobBean extends QuartzJobBean {
private String path = "/zk_triggerID";
private String lock = "/zk_lock";
private static ZooKeeper zk = null;
static{
try {
zk = new ZooKeeper(PropsUtil.get("zooKeeperUrl")+":"+PropsUtil.get("zooKeeperPort"), 50000,new ZKWatcher());
} catch (IOException e) {
logger.error(e.getMessage(),e);
}
}
//任务执行的具体逻辑
protected void executeInternal(JobExecutionContext jobexecutioncontext)
throws JobExecutionException {
Trigger trigger = jobexecutioncontext.getTrigger();
String triggerName = trigger.getKey().getName();//triggername是唯一的
boolean createSuccess = false;
boolean doTask = false; //不对zookeeper注册执行任务
int childrens = 0;
List<String> children = null;
boolean onDelete = false;//是否获取删除节点的权限
try {
zk.create(path+"/"+triggerName, triggerName.getBytes(),
Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL);//如果注册出现问题说明节点存在是重复的任务
createSuccess = true;
children = zk.getChildren(path, false);
if(children != null){
childrens = children.size();
}
if(childrens>99){//节点个数达到100个就执行删除操作
try {
zk.create(lock+"/dodelete", "dodelete".getBytes(),
Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL);
onDelete = true;
} catch (KeeperException e1) {
if(e1 instanceof NodeExistsException){
logger.info("already on delete!");
}else{
logger.error(e1.getMessage(),e1);
}
} catch (InterruptedException e1) {
logger.error(e1.getMessage(),e1);
}
}
//执行具体的任务
execuTask(trigger,triggerName,jobexecutioncontext,af);
} catch (KeeperException e) {
if(e instanceof NodeExistsException){
logger.info("already on do");
}else if(e instanceof ConnectionLossException){
logger.info("ConnectionLoss ,do task without registered!!");
doTask = true;
}else if(e instanceof SessionExpiredException){
logger.info("session expired ,do task without registered!!");
doTask = true;
try {
zk = new ZooKeeper(PropsUtil.get("zooKeeperUrl")+":"+PropsUtil.get("zooKeeperPort"), 50000,new ZKWatcher());
} catch (IOException e1) {
logger.error(e1.getMessage(),e1);
}
}else{
logger.error(e.getMessage(),e);
}
} catch (InterruptedException e) {
logger.error(e.getMessage(),e);
}
if(createSuccess && onDelete){//如果创建成功并且root下有执行删除的权利
try {
for(String str:children){
zk.delete(path+"/"+str, -1);
}
} catch (KeeperException e1) {
logger.error(e1.getMessage(),e1);
} catch (InterruptedException e1) {
logger.error(e1.getMessage(),e1);
}finally{
if(onDelete){
try {
zk.delete(lock+"/dodelete", -1);
} catch (InterruptedException e) {
logger.error(e.getMessage(),e);
} catch (KeeperException e) {
if(e instanceof ConnectionLossException){
logger.info("ConnectionLoss ,reconnect zk!!");
try {
zk.close();//人为失效,删除dodelete节点
zk = new ZooKeeper(PropsUtil.get("zooKeeperUrl")+":"+PropsUtil.get("zooKeeperPort"), 50000,new ZKWatcher());
} catch (InterruptedException e1) {
e1.printStackTrace();
} catch (IOException e1) {
e1.printStackTrace();
}
}else{
logger.error(e.getMessage(),e);
}
}
}
}
}
//如果出现connectloss和sessionexpired 可能是网络有点问题找不到zookeeper就不管重复问题了完成任务为最重要的
if(doTask){//如果出现connectloss和sessionexpired 就直接执行任务
execuTask(trigger,triggerName,jobexecutioncontext,af);
}
}
}
整个过程就是:当job开始的时候去向zookeeper申请注册,只有当注册成功的时候才执行业务,失败则退出job。同时由于我这里是每天循环的
定时任务所以当zookeeper下的节点数目达到一定的个数的时候加一个删除锁(就是向zookeeper create一个ondetele节点),同时删除之前
的triggername节点,这样保证了明天这些任务可以继续完成。至此,任务重复执行的问题就解决了。
2.网上有网友解释:如果我在10:00:00执行了一个任务,下次就是15s,但是如果服务器挂掉,我在10:00:50重新启动服务器,由于任务间隔是15s,所以从00-50s中间会有三个任务超时没有执行(本来应该分别是在15s,30s,45s执行),而超时的时间均小于1min,所以服务器启动以后会立即开启三个quartz线程来执行超时的任务。
方法1、通过改TOMCAT的配置文件server.xml配置
方法2、先把quartz配置信息提取出来,单独存成一个文件,比如applicationContext-quartz.xml 然后修改web.xml,让web容器启动时,可以加载该文件 。(此文没对此方法进行深入探究)
参考链接:https://my.oschina.net/EugeneQiu/blog/265040?p=1