谈如何处理分布式事务

只要你系统不是一个独立(不和其他进程交互)的单体应用，那就存在分布式事务。

什么是分布式事务？

在一次调用中，针对多个数据源中的数据进行的修改，要么全部成功，要么全部失败。也就是一致性问题。

根据CAP定理，我们知道这个一致性通常我们是不能保证的。
又通过BASE理论指导，我们可以做到最终一致性。

在我们的业务开发中，从应用层面来看，我们的应用一般都是无状态的，我们无需不存在分区隔离性。

所以C和A都可以满足。

但是强一致性有一个问题，就是吞吐不高，所以我们也不会选择强一致的解决方案。

那么最终一致性的分布式事务的痛点在于什么？
对外部服务调用的失败。由于这个失败的起因可能是超时，所以我们无法确定失败的背后是真失败还是假失败。

处理这个调用失败有两种方式

保证最终全部成功

保证全部成功我们需要第三方服务有幂等保证，然后我们通过重试来保证最终成功。

那现在问题简化为如何重试？

重试也不是万能的，也不能一直重试，所以也还是有漏网之鱼，所以我们需要有个兜底方案，检查各个系统的数据一致性，进行修复或告警。

经过群友讨论，实战中对重试有以下优化点

一旦我调用一个第三方服务失败后，我需要让之前调用的其他第三方服务都失败(也就是回滚)，我需要通知他们。这时候我可能掉他们回滚接口，但是回滚接口也有可能失败。还是需要重试机制和幂等保证。

上上选依然是消息。

那么我们应该选择哪种方式？从用户的角度看，用户是希望操作成功。从开发的角度看，回滚接口可能还需要额外开发。所以我们优先选择的是保证最终全部成功的方式。

有些特殊场景下，我们严格依赖接口的返回，可能下一个接口依赖上一个接口的返回，这种场景，我们只能保证最终全部失败。

在开发中，我们还是要根据实际情况做抉择。我写这篇文章的目的是，读者心中要对问题有本质的理解，看穿本质一切问题都不是问题。

比如下单流程中，有本地事务，订单服务调用，支付单服务调用，优惠券服务调用。

如果使用优惠券失败了(已经被使用了，或者其他原因)，其实我采取的是第二种方式，但是我也不需要进行全部回滚，我重试调用更新订单接口逻辑删除订单，支付单用户是完全感知不到的，我不需要进行处理，支付中心进行定期清理过期即可。

其实这边又可以有另外一个概念，用户感官一致性，让用户感受到一致，不影响核心业务运行即可。内部的不一致事后解决。

最后编辑于：2019.12.21 01:02:47