中国工商银行灾备架构

1 背景



银行业是国民经济命脉的关键载体,数据不丢失、业务不中断是商业银行开展业务的两条红线,因此银行信息系统的灾备架构必须要满足业务连续性保障需求,达到灾难恢复等级要求和容灾建设目标。

信息系统的灾备能力主要包括生产中心的高可用、灾备中心的灾难接管,保障系统遭遇自然灾害、设备故障、人为灾难等突发性事件时,可以通过灾难恢复或应急切换,支撑系统正常运行。

本文将从银行业监管要求、商业银行典型灾备架构阐述商业银行灾备架构设计要点,分享工商银行的灾备架构规划和管理经验。


2 银行业监管要求



2007年11月,灾备行业第一部国家标准《信息系统灾难恢复规范》(GB/T20988-2007)正式发布。该标准将灾难恢复能力划分为6个等级,并提出信息系统的灾备要求和RPO/RTO要求,作为国内信息系统灾难恢复的整体框架,指导各行业制订相应的灾难恢复能力等级要求和指标体系,以及信息系统灾难恢复的规划、审批、实施和管理流程。



2008年2月,为了规范和引导银行业信息系统灾难恢复工作,中国人民银行在继承国家标准的基础上,针对银行业信息系统、业务流程、组织体系、监管要求的特点,制定并发布金融行业标准《银行业信息系统灾难恢复管理规范》(JR/T 0044-2008),从组织机构、灾难恢复需求、灾难恢复策略、灾备系统、灾备中心运维等七个主要方面进行系统地说明和规定,是我国银行业信息系统灾备体系建设的重要指导性文件。

2010年4月,中国银监会发布《商业银行数据中心监管指引》,对数据中心风险管理、灾难恢复管理等方面提出了明确要求,如商业银行应于取得金融许可证后两年内,设立生产中心;生产中心设立后两年内,设立灾备中心;总资产规模一千亿元人民币以上且跨省设立分支机构的法人商业银行及省级农村信用联合社应设立异地模式灾备中心,重要信息系统灾难恢复能力应达到《信息系统灾难恢复规范》 中的灾难恢复等级第5级(含)以上。

2011年12月,中国银监会正式发布《商业银行业务连续性监管指引》,对商业银行及相关金融机构的业务连续性管理工作提出了明确的要求,规定了银行业务的灾难恢复目标,如重要业务RTO不得大于4小时,重要业务RPO不得大于半小时。


3 商业银行典型灾备架构



银行业的灾备能力建设通常包括存储、计算和网络的设计,需要根据数据中心部署结构,结合不同系统对高可用和灾备能力的诉求进行灾备方案选型。

典型的数据中心部署结构包括两地三中心、多地多中心等。

3.1 数据中心部署结构

(1)两地二中心:以生产中心、和异地灾备中心组成“两地二中心”灾备架构。



(2)两地三中心:以生产中心、同城容灾中心和异地灾备中心组成“两地三中心”对部署结构可以支撑较高的业务连续性保障水平,该结构可以解决单机房在电力、面积等方面的限制,规避园区级灾难。


(3)多地多中心:多个(三个及以上)数据中心,每个数据中心地位对等的部署架构。其中每个数据中心均可以正常处理业务,并对关键业务或者全部业务进行接管。



3.2 系统分层分级灾备架构设计

1、信息系统分层分级

商业银行一般会根据业务中断影响、业务连续性保障目标,将信息系统划分成不同的等级,以便于分类施策。参考《银行业信息系统灾难恢复管理规范》,可分为三类系统:

(1)一类系统
对于短时间中断将对国家、外部机构和社会产生重大影响的系统,或者短时间中断将严重影响单位关键业务功能并造成重大经济损失的系统,单位和用户对系统短时间中断的容忍度较低,应具有最高级别的业务连续性、数据安全性和灾难承受能力,应具有良好的访问时延和高并发能力。常见的有运维工具及办公类应用。常见的有结算系统、支付系统等。
(2)二类系统
对于短时间中断将影响单位部分关键业务功能并造成较大经济损失的系统,单位和用户对系统短时间中断具有一定容忍度,此类系统应具有较高级别的业务连续性和灾难承受能力,具有一定的可用性、可靠性保障。常见的有信贷系统、客服系统、中间业务等。

(3)三类系统

对于短时间中断将影响单位非关键业务功能并造成一定经济损失的系统,业务功能容许一段时间中断的系统。常见的有运维工具及办公类应用。

2、灾难恢复能力等级设计

按照系统的等级,完成灾难恢复能力等级和灾难恢复目标设计,如:

(1)一类系统:灾难恢复能力最低达到5 级,RTO<6 小时,RPO<15 分钟;
(2)二类系统:灾难恢复能力最低达到3 级,RTO<24 小时,RPO<120 分钟;
(3)三类系统:灾难恢复能力最低达到2 级,RTO<2天,RPO<7天;

3、灾备架构设计

按照系统的等级和灾难恢复能力等级,结合数据中心的部署结构,形成灾备参考架构。

(1)一类系统

该类系统对于高可用及灾备接管的要求最高,可采用“同城双活+异地灾备”、或“异地多活”架构,可应对园区级和城市级灾难。



2)二类系统

该类系统对于高可用及灾备接管的要求较高,具有良好的可靠性和性能。可采用“同城热备”或者“异地热备”架构,可应对园区级或城市级灾难。
(3)三类系统
该类系统对于高可用及灾备接管的要求较低,可采用“同城冷备”或者“异地冷备”架构。对于无园区级灾难备份要求的系统,可采用“单园区部署”架构。

4 工商银行灾备架构



4.1 工商银行灾备架构演进

1 两地二中心架构
工商银行在2002年完成全行数据大集中后,立即开展了核心主机异地灾备体系建设,仅用时一年就在同业中率先建成了上海与北京之间的千公里级异地灾备体系,在国内银行业中开启了异地灾备体系建设先河。
2 两地三中心架构
随着技术发展和金融服务需求不断提升,银行业务结构和业务系统复杂度的日益提高,工商银行在2009年率先提出了建设“两地三中心”的战略构想,通过两年时间的广泛调研和技术研究,2011年8月最终确定了技术路线和方案,随后在一年时间内完成关键技术和方案原型的测试验证工作。2014年3月嘉定同城中心园区和机房基础设施建设完毕,2014年6月完成同城系统迁移、成功实施同城双中心核心业务分钟级切换和回切,实现高等级开放平台应用全部双活部署和切换运行,标志着“两地三中心”新架构基本建成。
3 适配云原生分布式体系的两地三中心架构

2015年,工商银行正式启动IT架构转型,运用企业级架构设计方法,积极推进主机集中式架构向开放平台云原生分布式架构转型,并同步开展生态级业务架构落地。2022年,工商银行已基本构建起基于云原生分布式体系的开放平台核心银行系统,建立了覆盖本地、同城、异地的三级开放平台高可用体系,保障主机业务下移后,开放平台在重大故障场景下具备不低于主机系统的高可用性。在本地高可用方面,重点加强节点故障自隔离能力;在同城双活方面,实现 MySQL 数据库集群园区级一键切换,切换时间缩短至1分钟以内;在异地灾备方面,构建了面向分布式架构的异地灾备切换体系。同时,以单元化架构为基础,通过落实单元划分、物理部署优化,稳步提升生产运维实战能力。

4.2 工商银行灾备架构管理

1 规范与指引建设
对标银行业灾备监管要求,工商银行形成了自己的企业级规范体系,按照应用分级、灾备分级的原则形成9类等级,并探索形成不同灾备等级配套的高可用最佳实践和参考架构,指导应用侧落地架构设计,实现了精细化的业务连续性管理,有针对性地强化运营监控和应急能力建设,提升了IT资源投入产出效益。

2 架构资产数字化管理

为加强架构资产的数字化管理,工商银行基于架构资产管控平台,将应用高可用架构进行建模抽象,形成“应用-子系统-逻辑节点-物理设备”的多级管控体系,在多个维度建设高可用设计的系统硬控制和质量门禁措施,从而实现信息系统灾备架构管理线上化和可视化,为研发提供了架构决策依据、为运维提供了生产管控视图,实现了灾备架构管理的降本增效。

3 专项检查与成熟度评价

针对信息系统高可用灾备能力的端到端保障,工商银行形成了常态化的企业标准专项检查制度,监督信息系统的设计、研发、测试、运维全流程高可用设计的合规性。同时,建立多层次评估机制,基于应用成熟度的动态指标和静态指标,协同运用设备、系统、网络、应用等各个专业领域的监控手段,进行周期化的评价考核,保障灾备架构管理机制的闭环。

5 结语

完善的灾备架构是商业银行业务连续性的核心保障,也是业务创新发展的有力支撑。在商业银行加快将核心业务向开发生态系统迁移、推进关键基础设施自主可控的形势下,灾备架构也将随之更新迭代、升级转型,工商银行将从分享行业经验、参与行业标准建设、输出架构设计理念和实施工艺等方面不断贡献力量。

声明:文字来源于网络,仅以传递信息为目的,侵权请联系删除,谢谢!