使用TransactionTemplate不当,导致事务异常的问题
最近上线有个异常,常见的MYSQL等待锁超时异常。出现的情况很奇怪:
- 有些机器异常,有些机器不可以。
- 重启后,异常消失
- 运行一段时间后,都出现异常
根据数据库连接的日志,发现TransactionTemplate
使用了一个新数据库连接,和外层方法中使用的不是同一个数据库连接。
外层方法有注解事务,会更新A记录,TransactionTemplate
中的模板方法也会更新A记录
TransactionTemplate
默认的传播特性是PROPAGATION_REQUIRED
,所以A方法上有注解事务,在同一线程调用栈中,肯定使用的是同一个连接和同一个事务。
按照理论来说,不应该在模板方法中会存在锁等待。
线上偶然发升,时间久了必然发生,本地简单测试无法复现。
经过查看TransactionTemplate
源码,发现重新获取连接有两种情况: - 当前线程没有绑定事务
- 当前线程绑定了事务,但是传播行为
PROPAGATION_REQUIRES_NEW
在绑定事务的方法中,使用的ThreadLocal来操作的,而且Spring的事务这块理论不可能出问题。
经过2天的源码分析,猜测出问题只能是传播行为变了。
TransactionTemplate
继承于DefaultTransactionDefinition
,默认的传播特性是PROPAGATION_REQUIRED
要改变其值,需要调用setPropagationBehavior
TransactionTemplate
默认由spring容器初始化,并且是单例模式。
在整个项目中搜索,setPropagationBehavior
方法的代码,果不其然,有如下一段代码:
@Autowired
private TransactionTemplate template;
private void requireNewTransaction(Consumer<TransactionStatus> action) {
int originalPropagationBehavior = template.getPropagationBehavior();
int originalIsolationLevel = template.getIsolationLevel();
try {
template.setIsolationLevel(TransactionDefinition.ISOLATION_REPEATABLE_READ);
template.setPropagationBehavior(TransactionDefinition.PROPAGATION_REQUIRES_NEW);
template.executeWithoutResult(action);
} finally {
template.setIsolationLevel(originalIsolationLevel);
template.setPropagationBehavior(originalPropagationBehavior);
}
}
大致用途 就是想要在编程事务的时候,新开事务去保存,先落库。
砸一下看,好像没问题。
仔细分析一下,发现template是单例模式,多线程情况下去修改单例模式的属性,然后在还原,又没有加锁,必然会出现竞争导致后面的线程获取到不正确的值。
这就是解释了为啥有些机器不会出问题,可能是有些机器,线程并发时还没有导致传播行为错误
也解释了为啥在运行长一段时间后,所有机器都会出问题。
注解事务和编程事务可以一起使用没有问题,他们底层都会使用Spring的事务同步器进行同步。
如果要在模板事务中新开事务进行操作,可以不用单例模式的TransactionTemplate
。如下操作依然可以实现:
private void requireNewTransaction2(Consumer<TransactionStatus> action) {
TransactionTemplate template = new TransactionTemplate(transactionManager);
template.setIsolationLevel(TransactionDefinition.ISOLATION_REPEATABLE_READ);
template.setPropagationBehavior(TransactionDefinition.PROPAGATION_REQUIRES_NEW);
template.executeWithoutResult(action);
}
总结
通过上面的场景分析,如果一个异常有如下情况,可以尝试考虑多线程共享数据一致性问题:
- 不是所有的实例都会出现错误
- 出现错误的问题偶发,并且某一台实例出现错误后,会一直错误
- 长时间运行后,所有实例都会出现错误