天弘基金韩海潮:能支撑1.8亿用户的金融服务系统如何在云端布局

钛媒体  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

钛媒体注:昨天520,用户一个送红包表白的行为,使天弘基金的技术部门从凌晨2点忙到下午7点。所以天弘基金副总经理周晓明认为,互联网金融的考验不是在前台,而是在后端。

目前天弘基金的系统能够支撑超过1.8亿人的金融服务,每天为8000万用户进行收益分配,最大的交易做到每秒5000笔,作为金融产品,每晚上的清算时间小于60分钟。

韩海潮是天弘基金的运营总监兼技术部总经理,5月21日,在ITValue主办的《证券业CIO对话天弘基金》的主题沙龙上,他认为,余额宝创新有三点:一是余额宝让T+0基金发挥到极致的一个产品;二是余额宝的嵌入式直销;三是从2014年9月起,余额宝系统从传统的IOE架构升级到阿里云上,成为了金融云平台上的第一个金融行业的核心业务系统,也是行业里第一个去IOE的系统。

余额宝是如何在云端去运营和布局的?如何能做到快速高效地支撑大量的互联网长尾用户进行基金交易?5月21日,在ITValue主办的“证券业CIO对话天弘基金”的主题沙龙上(ITValue+产业互联网系列论坛),韩海潮对此发表了演讲(编辑时有删节):

第一阶段:传统架构

余额宝在2014年9月时,将后台系统从传统的IOE架构升级到了阿里云上,成为了金融云平台上的第一个金融行业的核心业务系统,也是行业里头第一个去IOE的系统,我们现在的处理能力已经达到一级的处理能力。

余额宝刚上线时,因为对云、大数据实际上并不了解,所以我们一期架构还是按照传统的,基于供应商的架构去做,这套系统架构支撑的技术能力对于传统行业来说,已经非常强大了,它是金正的架构,当时一期系统解决的问题主要是这几点:

一是让余额宝有金融属性。

二是余额宝转入转出功能等业务创新的一些东西,通过技术来实现它,我们当时并没有考虑太多的性能问题,因为也不知道余额宝到底会发展成一种什么样的量级,所以我们一期系统主要是基于业务创新的一种支持所完成的系统。

余额宝一期推出以后,马上面临很多问题,当时我记得是17天还是10天,我们的客户就达到了100万,我们一期系统设计能力客户只有一千万,对IT部门来说,是非常严峻的考验,因为即使十天达到一百万,达到一千万也要有三个月的时间。事实就是这样,我们三个月就达到一千万的客户,我们一期系统的生命周期只有三个月。

第二阶段:余额宝系统上云

2013年9月27日上午十点,我们从一期系统切到二期系统。一期系统是在天津本地机房,而我们的前端是在阿里的平台上,我们通过两条专线,连到天津,所以这个网络链路非常长,对天弘端的基础环境要求非常高。

另外是我们传统架构的扩展能力还是不足,尤其是余额宝的数据库层面非常依赖于Oracle,架构也是传统架构,没有做分布式的处理,资源消耗非常大,对单点的资源。当时我们业务需求是这样的,业务需求我们不断地要推出各种创新模式和方法,所以对我们的系统要求也非常高,我们的数据量刚才讲十天达到了一百万,数据量成倍式的往熵增加,我们的在线交易的并发数也随着客户量的增加,并发数也越来越大,系统面临非常大的压力。

而当时余额宝IT部的现状是,传统架构的资金投入非常巨大,余额宝第一期的投入光硬件和软件就是400万人民币,如果我们基于传统架构去横向做架构上的扩展,当时预计有两套方案,一套是在传统的架构上扩展,一套是上云。

如果基于传统架构的扩展去做,预计了一下可能要将近上亿的资金投入,才能把双十一大规模爆发增长的数据量拿下,所以这种巨额的投资非常大,对于我们公司当时的现状来说,根本就不可能的。所以我们选择了上云,而且要去IOE的系统,难度非常大。

第三阶段:云直销系统的设计原则

云直销系统的一个设计原则,第一个就是总控设计,第二个是分库分表,第三个是文件处理(如图)。

这种架构上按节点分步分秒来实现,负载平均到各个节点上,包括消息机制,因为分布封点以后,并不是所有的完全没有联系了,简单汇总数据还是需要一些消息机制的互动,然后数据的核对,我们如何设计总控,我们收益分配是如何分到这些子节点上,给我们的是一个大的当日的收益,我们要分到所有的分节点上,我们先第一步,要把总的收益分到每一个节点上,每一个节点再具体分给客户,这些设计,包括我们分库分点,我们数据库如何分,最后你是按照什么样的一个标签。

这个是我们在云上的一个架构,其实这个还是我们基于传统的RS的云使用,我们仅仅是把传统的这种架构搬到了云上,我们还是有消息中间件,包括业务中间件,包括我们数据库,包括我们前端的SLB,还有文件服务器那边我们单独做了一个工具,对文件进行分发,

另外和我们天津的数据中心,刚才讲的把历史数据要拉过来,当然我们现在天津数据中心也挪到了云上。这是上云前后的一个对比,例如,我们一期系统做清算,达到了11099秒,大概八个小时,我们最长的系统清算都清算到下午两三点钟了,实在撑下去了,而我们迁到云上以后,我们基本上是,当时刚上线的时候还快点,现在也是一个小时之内全部把清算都能搞定。

(文/ITValue郭娟 本文根据韩海潮在ITValue主办的“证券业CIO对话天弘基金”沙龙上的演讲整理而成)

【ITValue是中国最大的技术高管实名社区。这里提供互联网时代,最全面权威、也最前沿有趣的企业级2B市场信息解读。微信公众号:ITValue】

随意打赏

提交建议
微信扫一扫,分享给好友吧。