1 背景
银行业是国民经济命脉的关键载体,数据不丢失、业务不中断是商业银行开展业务的两条红线,因此银行信息系统的灾备架构必须要满足业务连续性保障需求,达到灾难恢复等级要求和容灾建设目标。
信息系统的灾备能力主要包括生产中心的高可用、灾备中心的灾难接管,保障系统遭遇自然灾害、设备故障、人为灾难等突发性事件时,可以通过灾难恢复或应急切换,支撑系统正常运行。
本文将从银行业监管要求、商业银行典型灾备架构阐述商业银行灾备架构设计要点,分享工商银行的灾备架构规划和管理经验。
2 银行业监管要求
2007年11月,灾备行业第一部国家标准《信息系统灾难恢复规范》(GB/T20988-2007)正式发布。该标准将灾难恢复能力划分为6个等级,并提出信息系统的灾备要求和RPO/RTO要求,作为国内信息系统灾难恢复的整体框架,指导各行业制订相应的灾难恢复能力等级要求和指标体系,以及信息系统灾难恢复的规划、审批、实施和管理流程。
2008年2月,为了规范和引导银行业信息系统灾难恢复工作,中国人民银行在继承国家标准的基础上,针对银行业信息系统、业务流程、组织体系、监管要求的特点,制定并发布金融行业标准《银行业信息系统灾难恢复管理规范》(JR/T 0044-2008),从组织机构、灾难恢复需求、灾难恢复策略、灾备系统、灾备中心运维等七个主要方面进行系统地说明和规定,是我国银行业信息系统灾备体系建设的重要指导性文件。
2010年4月,中国银监会发布《商业银行数据中心监管指引》,对数据中心风险管理、灾难恢复管理等方面提出了明确要求,如商业银行应于取得金融许可证后两年内,设立生产中心;生产中心设立后两年内,设立灾备中心;总资产规模一千亿元人民币以上且跨省设立分支机构的法人商业银行及省级农村信用联合社应设立异地模式灾备中心,重要信息系统灾难恢复能力应达到《信息系统灾难恢复规范》 中的灾难恢复等级第5级(含)以上。
3 商业银行典型灾备架构
银行业的灾备能力建设通常包括存储、计算和网络的设计,需要根据数据中心部署结构,结合不同系统对高可用和灾备能力的诉求进行灾备方案选型。
典型的数据中心部署结构包括两地三中心、多地多中心等。
(1)两地二中心:以生产中心、和异地灾备中心组成“两地二中心”灾备架构。
(3)多地多中心:多个(三个及以上)数据中心,每个数据中心地位对等的部署架构。其中每个数据中心均可以正常处理业务,并对关键业务或者全部业务进行接管。
1、信息系统分层分级
商业银行一般会根据业务中断影响、业务连续性保障目标,将信息系统划分成不同的等级,以便于分类施策。参考《银行业信息系统灾难恢复管理规范》,可分为三类系统:
(3)三类系统
对于短时间中断将影响单位非关键业务功能并造成一定经济损失的系统,业务功能容许一段时间中断的系统。常见的有运维工具及办公类应用。
2、灾难恢复能力等级设计
按照系统的等级,完成灾难恢复能力等级和灾难恢复目标设计,如:
(1)一类系统:灾难恢复能力最低达到5 级,RTO<6 小时,RPO<15 分钟;
(2)二类系统:灾难恢复能力最低达到3 级,RTO<24 小时,RPO<120 分钟;
(3)三类系统:灾难恢复能力最低达到2 级,RTO<2天,RPO<7天;
3、灾备架构设计
按照系统的等级和灾难恢复能力等级,结合数据中心的部署结构,形成灾备参考架构。
(1)一类系统
该类系统对于高可用及灾备接管的要求最高,可采用“同城双活+异地灾备”、或“异地多活”架构,可应对园区级和城市级灾难。
2)二类系统
4 工商银行灾备架构
2015年,工商银行正式启动IT架构转型,运用企业级架构设计方法,积极推进主机集中式架构向开放平台云原生分布式架构转型,并同步开展生态级业务架构落地。2022年,工商银行已基本构建起基于云原生分布式体系的开放平台核心银行系统,建立了覆盖本地、同城、异地的三级开放平台高可用体系,保障主机业务下移后,开放平台在重大故障场景下具备不低于主机系统的高可用性。在本地高可用方面,重点加强节点故障自隔离能力;在同城双活方面,实现 MySQL 数据库集群园区级一键切换,切换时间缩短至1分钟以内;在异地灾备方面,构建了面向分布式架构的异地灾备切换体系。同时,以单元化架构为基础,通过落实单元划分、物理部署优化,稳步提升生产运维实战能力。
2 架构资产数字化管理
3 专项检查与成熟度评价
5 结语
完善的灾备架构是商业银行业务连续性的核心保障,也是业务创新发展的有力支撑。在商业银行加快将核心业务向开发生态系统迁移、推进关键基础设施自主可控的形势下,灾备架构也将随之更新迭代、升级转型,工商银行将从分享行业经验、参与行业标准建设、输出架构设计理念和实施工艺等方面不断贡献力量。
声明:文字来源于网络,仅以传递信息为目的,侵权请联系删除,谢谢!