支付宝上有一种保险叫做全民保·终身养老金。
看其宣传的各项保障和待遇非常不错,可是人们往往沉浸于表面。大家可以看一下下图中我用红线圈出的地方:增加保险金额协议、付款授权、投保须知、产品说明书、保险条款、平台服务协议。
有几个人认真看过,读懂了,理解透了?仅仅凭借表面,来参加保险是一种大忌。
参加全民保终身养老金,有15天的犹豫期,犹豫期内我们可以全额退保,交多少钱退多少钱。犹豫期以后,能退多少钱就需要按照有关条款来执行了。按照保险的说法,是可以退保单的现金价值。
保单的现金价值是什么?保单的现金价值跟我们投资理财可是完全不一样的。我们投资理财也好,存款也罢,缴纳的钱本金是属于我们的。但是,我们缴纳的保费并不是存款和理财金。保费是由保险公司支配的。如果我们购买一份意外险,规定期限内没有发生意外,所有的保费都不会退款。商业养老分红保险也是这样,不过保费并不会全部扣除,而是扣除一定的保险公司必须费用,比如账户管理费用、风险保险费、销售渠道费用或代理人佣金等等。产品介绍中有这么一类演示:
30岁一次性趸交保费1万元,等到60岁时,每年可以领取保险金额1010元。
一次性趸交保费以后,退保金也就是保单的现金价值只有8160元。而且所有的保单现金价值,都是以8160元按照3%左右的保本利率年年进行增涨。不过值得安慰的是还有一定的浮动分红,从0%~3%,这一点不能保证。如果单纯3%的收益率的话,确实没有多少吸引力我们投资理财,现在要想实现4%~5%的收益率,还是非常简单的。
很多人如果从这种不确定性的角度出发,参保意愿就会大大降低。毕竟现在30岁存下1万元,60岁以后一年才领取1010元,30年后的购买力究竟有多少?让人深表怀疑。所以,保险的特点就是长期稳定,各种待遇基本上都能在保险合同中进行约定,未来是长期不变的,这样保险公司才能够通过各种金融手段实现长期目标,稳定挣钱有收益。
与商业养老保险相对,社会养老保险有其自身的特点。社会保险是以国家法律为强制推行手段,有国家进行管理、收缴费甚至补贴。为了避免让养老金流于形式,国家要确保退休人员的待遇跟经济社会发展相一致。所以,很多国家采取的是现收现支的养老保险模式,最大的优势是能够确保购买力上的稳定。然后国家通过各种手段形成养老保险稳定基金结余,用于调节保险基金收支的波动。2018年,全国基本养老保险基金收入51168亿元,支出44645亿元,养老保险基金累计结余突破了5万亿元。可能过去参加保险的老人只交纳了一点养老保险,而且很多视同缴费年限期间的保险费都是国家代缴,但是现在每月养老金三四千元,非常划算了。不要认为国家代缴就是没人掏钱,2017年政府补贴基本养老保险基金8004亿元。2019年国家中央财政安排补贴养老保险基金5600多亿元,这还不考虑各项人员场所等支出。所以,我国的养老保险是一项非常亏本的买卖,但这也是国家为了社会的福利。
这样说商业养老保险不划算吗?实际上商业养老保险最大的特性并不是投资,而是稳定。如果我们的收入很不稳定,比如现在可能一年收入上百万,而未来说不定就失业了,这种情况购买商业养老保险就很有必要。以收入高的时候参加养老保险,对于平衡未来收入的现金流是一种非常有益的保障。李嘉诚就为他的每一个孙子孙女购买了1亿港币的养老分红保险,能够确保这些孩子们一辈子衣食无忧,每月都至少有几十万元港币的分红收入。至于几十年后这几十万元购买力如何,这是不需要考虑太多的。
综上所述,商业养老保险有其特定的作用,如果我们把它当成一种存款或投资理财,实际上是认识有所偏颇。好了,回归到今天的主题,今天分享一下支付系统中异常一些处理方式。
其实这些处理方式并不只是局限于支付系统,也可以适用于其他系统,大家可以借鉴,应用到自己系统中,提高自己系统的健壮性。
异常是系统运行不可避免会发生的问题,如果一切都正常,我们的系统设计将会相当简单。
但是可惜没有人能做到这一点,所以为了处理异常可能导致的问题,我们不得不需要加上很多额外的设计,用来应对这些异常。
可以说系统设计中,异常处理需要我们着重思考,将会占据我们大部分的精力。
下面我们先来看下支付系统中最常见的异常:「掉单」
掉单异常
一个最常见的支付平台架构关系如下所示:
我们以携程为例,在其上面发起一笔订单支付,将会经过三个系统:
- 携程创建订单,向第三方支付公司发起支付请求 第三方支付公司创建订单,并向工行发起支付请求 工行完成扣款操作,返回第三方支付公司 第三方支付完成订单更新并返回携程 携程变更订单状态
上面的流程,简单如下图所示:
在这个过程就可能会碰到,用户工行卡已经扣款,但是携程订单却还是待支付,我们通常将这种情况称为「掉单」。
上述掉单的场景,多数是因为「③、⑤」环节信息丢失导致,这种掉单我们将其称为「外部掉单」。
还有一种极少数的情况,收到 「③、⑤」环节返回信息,但是在「④、⑥」环节内部系统更新订单状态失败,从而导致丢失支付成功的信息,这类掉单由于是内部问题,我们通常将其称之为「内部掉单」。
外部掉单
外部掉单是因为没有收到对端返回信息,这种情况极有可能是网络问题,也有可能对端处理逻辑太慢,导致我方请求超时,直接断开了网络请求。
增加超时时间
对于这种情况,第一个最简单的解决办法,「适当的增加超时时间」。
不过这里需要注意了,在我们增加网络超时时间之后,我们可能还需要调整整个链路的超时时间,不然有可能导致整个链路内部差事从而引起内部掉单。
第二个办法,接收渠道异步回执通知信息。
一般来说,现在支付渠道接口我们都可以上送一个异步回调地址,当渠道端处理成功,将会把成功信息通知到这个回调地址上。
这种情况下,我们只需要接收通知信息,然后解析,再更新内部订单状态。
支付系统异常处理-支付异步通知
这种情况下,我们需要注意几点:
- 对于异步请求信息,一定需要对通知内容进行签名验证,并校验返回的订单金额是否与商户侧的订单金额一致,防止数据泄漏导致出现“假通知”,造成资金损失。 异步通知将会发送多次,所以异步通知处理需要幂等。
掉单查询
有的渠道可能没有提供异步通知的功能,只提供了订单查询的接口,这种情况下,我们只能使用第三种解决办法,定时掉单查询。
我们可以将这类超时未知的订单的单独保存到掉单表,然后定时向渠道端查询订单的状态。
若查询成功或者明确失败(比如订单不存在等),可以更新订单状态,并且删除掉单表记录。
若查询依旧未知,这时我们需要等待下次查询的结果。
支付系统异常处理-定时查询
这里我们需要注意了,有些情况下,有可能无法查询返回订单的状态,所以我们需要设置订单查询的最大次数,防止无限查询浪费性能。
对账
最后,极少数的情况下,订单查询与异步通知都无法获取的支付结果,这就还剩下最后一种兜底的解决办法,对账。
如果第二天渠道端给的对账文件有这一笔支付结果,那么我们可以根据这个记录更新直接更新我们内部支付记录。
之前小黑哥写过一篇对账文章,感兴趣的可以再看一下:聊聊对账系统的设计方案
那如果第二天也没有这笔记录的结果,这种情况下,我们可以认为这笔是失败的。如果用户被扣款,渠道端内部将会发起退款,将支付金额返回给用户。所以这种情况可以无需处理。
内部掉单异常
支付公司内部订单关系
接下来我们讲下内部掉单异常,首先我们来看下为什么会发生内部掉单的异常,这其实跟我们系统架构有关。
如上图随所示,第三方支付公司内部表通常为支付订单与渠道订单这样一种 1 比 N 的关系。
支付订单保存着外部商户系统的订单号,代表第三方支付公司内部订单与外部商户的订单的关系。
而渠道订单代表着第三方支付公司与外部渠道的关系,其实对于外部渠道系统来讲,第三方支付公司就是一个外部商户。
为什么需要设计这种关系那?而不是使用下面这种 1 对 1 关系的那?
如果我们使用上图 1 对1 的订单关系,如果第一次支付支付失败,外部商户可能会再次使用相同订单号对第三方支付公司发起支付。
这时如果第三方支付公司也拿相同的内部订单去请求外部渠道系统,有可能外部渠道系统并不支持同一订单号再次请求。
那其实我们也有其他办法,生成一个新的内部单号,更新原有支付订单上内部记录,然后去请求外部渠道系统。但是这样的话就会丢失上次支付失败记录,这就不利于我们做一些事后统计了。
那其实第三方支付公司也可以不支持相同的订单号再次发起请求,但是这样的话,就需要外部商户重新生成的新的订单号。
这样的话,第三方支付公司是系统是简单了,全部复杂度都交给了外部商户。
但是现实的情况,很多外部商户并不是那么容易更换生成新的订单号,所以一般第三方支付公司都需要支持同一外部商户订单号在未成功的情况下,支持重复支付。
在这种情况下,就需要我们上面的 1:N 的订单关系图了。
内部掉单异常的原因
当我们收到外部渠道系统的成功的返回信息,成功更新了渠道订单表的记录。但是由于渠道订单表与支付订单表可能不是同一个数据库,也有可能两者并不在同一个应用中,这就有可能导致更新支付订单表的更新失败。
由于支付订单是表保存着外部商户订单与内部订单关系,支付订单未成功,所以外部商户也无法查询得到成功的支付结果。
此时渠道订单表已经成功,所以上面外部掉单的方法并不适用内部掉单。
内部掉单异常解决办法
「第一种解决办法,分布式事务。」
内部掉单异常,说白就是因为支付订单表与渠道订单表无法使用数据库事务保证两者同时更新成功或失败。
那么这种情况下,我们其实就需要使用分布式事务了。
不过我们没有采用这种分布式事务,一是因为之前开发的时候市面上并没有开源成熟分布式事务框架,第二自己自己开发难度又很大。
所以对于分布式事务这一块,并没有什么使用经验。如果有使用分布式事务解决这类的问题同学,留言去可以评论一下。
「第二种解决办法,异步补偿更新。」
当发生内部掉单的情况,即更新支付订单失败等情况,可以将这里支付订单保存到一张内部掉单表。
但是这里可能会有一个问题,我们无法保证保存到内部掉单表这一步骤也一定成功。
所以说,我们还需要定时查询,查询一段时间内支付订单未成功,而渠道订单表已成功的支付订单记录,然后也将其插入到内部掉单表。
另一个系统应用,只需要定时扫描内部掉单表,将支付订单成功,然后再删除内部掉单记录即可。
这里需要注意了,当支付订单表数据量很大之后,定时查询可能会慢,为了防止影响主库,所以这类查询可以在备库进行。
总结
今天主要介绍了支付系统中的掉单异常,这类异常往往会导致用户实际已经被扣钱,但是商户订单还是等待支付的情况。
这个异常如果没有很好处理,将会导致客户用户体验很不好,还有可能收到客户的投诉。
掉单的异常,通常可以外部系统与内部系统。而大部分的掉单都是因为外部系统导致,我们可以增加超时时间,掉单查询,以及接受异步通知解决 99% 的问题,剩下 1% 的掉单只能通过次日的对账来兜底。
内部系统导致掉单异常是典型的分布式环境数据一致性的问题,这类问题我们可以不需要追求强一致性,只要保证最终一致性即可。我们可以使用分布式事务解决这类问题,也可以定时扫描状态不一致的订单,然后在做批量更新。
最后,这次只是介绍支付系统中一类掉单异常,下一篇文章中,再给大家介绍一下支付系统的其他异常,敬请期待!