扫一扫
关注微信公众号

数据备份压倒“灾难”
2008-05-14   

对于电力企业而言,网络系统的核心是数据,如果没有数据或者数据不安全,就谈不上电力应用。容灾备份是保证电力系统正常运营的灵丹妙药。

人为的操作错误、软件缺陷、硬件故障、计算机病毒、黑客攻击、自然灾难等诸多因素,均有可能带来数据的丢失,从而给整个电力企业带来无法估量的损失。

笔者曾经参与了一个安全咨询项目:某省电力公司需要建立公钥基础设施(Public Key Infrastructure,PKI)系统,通过发放PKI数字证书(可以形象地称为网络身份证),验证每位员工的身份。

PKI系统建成后,该电力公司将门禁、计算机系统登陆、食堂用餐、电力超市消费等与数字证书关联起来。随后,该电力公司产生一个疑惑:数字证书信息、密钥信息等非常重要,一旦遭受攻击或自然灾害,非常容易丢失,这时怎么办?

应该进行远程容灾备份。

远程容灾备份是保护数据信息的重要手段,利用它,用户可在遭受攻击或遭遇自然灾害引发数据丢失时,快速恢复数据和系统服务。

个性化需要

在电力企业中,有很多应用系统和重要数据。比如能量管理系统、电量计量、电力市场系统、水调系统、调度生产管理系统、财务管理统、用电营销系统、办公自动化系统、PKI系统等。这些数据大多分布在内部系统的多台服务器上,需要容灾备份的工作量比较大。

电监会电力二次系统(除PKI系统以外的容灾备份系统)安全防护条文规定:电力应用系统可划分为生产控制大区和管理信息大区。生产控制大区又可分为控制区(安全区I)和非控制区(安全区Ⅱ);在不影响生产控制大区安全的前提下,根据各企业不同的安全要求,管理信息大区又可划分安全区。

规定还要求,应用系统必须避免不同安全区的纵向交叉连接。有鉴于此,建立异地容灾备份系统,一定要考虑好系统边界的防护问题,切勿跨越安全区。

由于业务系统关联程度比较高(例如电力市场系统可能涉及到能量管理系统、电量计量系统等),当电力系统要做应用级的容灾备份时,需将所有的系统都复制一份,还要求到各个厂、站的所有通讯两路都响应容灾。所以,无论在技术上还是投资规模上,应用级的容灾备份方案实现起来较为困难。

笔者建议电力系统采用同城数据容灾备份的方式。

PKI式容灾备份

针对上面提及的电力用户,建成后的PKI电力网上身份认证生产系统(即数字证书认证中心CA和密钥管理中心KM),必须具有较高的可用性和可维护性。

一方面,如果系统发生故障或遇到灾难,要保证及时恢复生产系统。

此外,考虑到灾难发生的突然性,电力用户所选用的灾难备份和恢复系统,必须具有简单、快速的易操作性,能够以最短的时间处理故障,恢复系统的运行,并在故障消除后,将系统运行恢复原状。

另一方面,在特殊情况下,需要对CA中心进行必要的监管和维护。这就要求系统在具有容灾能力的同时,具有远程管理和维护能力。

图1为PKI生产系统容灾备份中心的示意图。

从图1中可以看出,PKI生产系统容灾备份中心包括CA容灾备份系统与KM容灾备份系统两部分。两个系统各自采用PKI网关等安全设备,通过备份专用通道与相应的生产系统(即CA和KM)相连。

数据备份通过专用的远程备份服务系统加载安全备份软件来实现。备份专用通道以专线形式,采取安全拨号、VPN、IP宽带网等方式,提供生产系统与容灾备份中心之间的安全连接。

为保证PKI生产系统能够正常不间断地进行生产服务,在PKI生产系统容灾备份中心,CA备份系统与电力CA系统的组成需要保持一致,都应该能够复制远程生产系统,包括Web服务系统、目录服务系统、证书业务管理与处理系统、证书签发服务系统、备份服务系统、数据库服务系统。

CA备份系统的各个系统均建立在信任服务基础平台之上,由相应的功能服务模块构建而成,各功能服务模块之间的相互协调与调度机制与生产系统相一致。

同样,PKI生产系统容灾备份中心的KM备份系统也是电力KM系统的复制,以确保紧急情况下的替换和接管。

在PKI生产系统容灾备份中心的系统结构里,采用独立的远程备份服务系统,是因为其运行不会影响生产系统服务模块的运行。

运行备份服务模块上的安全备份软件不占用正常生产系统的资源,惟一的影响是对网络资源的占用,因为生产系统中产生的日志必须通过网络不断地传送到备份服务模块。若采用可移动介质,不会对网络产生任何影响。

PKI生产系统的备份策略和流程为:采用全备份—差分备份方式。首先对所有的操作系统、数据库、应用程序等进行完全备份。定期进行完全备份,包含所有的系统和数据。

在其他时间采用差分备份,一方面可以节省备份窗口,另一方面也保证能够及时恢复数据。同时,可移动介质要放入保险柜,由专人使用,且使用时至少有两人在场。

由于PKI生产系统容灾备份中心具有远程监管及维护功能,在CA备份系统和KM备份系统中,都设有各自独立的远程管理和维护座席群。

#p#副标题#e#

各单位CIO在准备建设远程容灾备份系统前,考虑好哪些数据需要进行容灾,哪些数据需要进行整个系统的全备份(像前面PKI生产系统的远程灾备那样);是否需要采用SAN架构(像一般的电力二次系统的容灾备份那样);是否要对数据库、文件和日志等进行全备份。

通常,容灾备份策略遵循以下原则:

◆ 对所有关键的业务,应至少保证各种必要的热备份机制,包括双机热备、磁盘镜像等。

◆ 对于所有业务,应提供磁带备份和恢复机制,保证系统能根据备份策略恢复至指定时间的状态。

◆ 数据备份采用全备份、增量备份或者结合两种方式。

全备份即备份所有文件,它的特点是恢复简单,全备份的缺点是备份时间长,介质浪费;增量备份是只备份新创建或者修改过的文件,它们一般和完整备份结合使用,从而极大的减少了备份时间,节省了备份介质。

一般结合这两种备份形式指定所需要的备份策略。

定期的系统恢复验证

远程容灾备份的目的在于:当业务系统出现故障时,能够及时、准确地恢复。因此,恢复的方式十分重要。

对于电力系统中的服务器,可以通过有如VERITAS Bare Metal Restore(裸机恢复)的功能,简化服务器的恢复过程,以完成系统的快速灾难恢复。

这样,当系统数据完全丢失时,系统管理员通过一个启动命令,就可以进行系统数据的完整恢复,不必进行操作系统重新安装、硬盘重新分区、IP地址重新设置以及备份软件重新安装等复杂操作。

远程容灾备份的定期恢复验证也非常必要。一方面,它可以验证容灾备份数据的可用性,没有经过验证的备份风险非常大,这样就可以发现备份有没有完成或者备份错误等;另一方面,也可以锻炼系统管理员的灾难处理能力,免得在出现故障时无从下手。

笔者建议,电力用户可以再配置一台服务器,安装所有系统涉及的应用软件(数据库、中间件等),专门用来做数据恢复的验证工作。同时,在容灾阵列上也要配置一定的空间,配合恢复操作。

详细的灾难恢复过程

当业务系统发生故障时,依据故障点的不同,有不同的恢复方式。但启动恢复过程有手工和自动两种。

自动恢复看起来是最为理想的解决办法,不需要人为的干预,可以及时地保证系统重新运行。

但是,对于一个重要的应用系统来说,尤其涉及到核心数据库的操作时,情况就变得复杂了,自动恢复有可能就适用。

例如,PKI生产系统发生数据库挂起故障时,正常的Shutdown无法执行,恢复自然无法进行;还有更严重的是数据库的崩溃,在没有验证数据的完整性之前,不能让用户继续使用,否则可能造成更严重的损坏。

笔者建议,恢复过程最好在分析出系统问题的基础上,判断对系统的影响程度之后,采用手工方式进行。

例如,在一般电力二次系统容灾备份系统中,连接到SAN上共用同一存储系统的业务系统(如电力市场和PC Server集群),由于可以实现同步的数据复制,其故障恢复过程如下:

◆ 一台服务器故障,另一台服务器接管应用;

◆ 磁盘阵列故障,手工切换到容灾系统的磁盘阵列;

◆ 数据库崩溃,数据不可用,利用备份磁带恢复。

链接

容灾备份的内涵

容灾备份有多种解决方案,随着系统重要程度的不同而不同。从距离上说,要实现容灾备份,容灾备份中心和生产中心间的距离就不能很近。

例如,15km的距离对雷击、火灾等有一定作用,但对于地震、洪水等自然灾害,容灾备份地点的物理距离还要加大。

目前,容灾备份系统基本可以分为数据容灾备份和应用容灾备份两种。采用哪种方式主要取决于企业对故障停机时间的设计要求,即对灾难发生后系统恢复时间的要求。

如果要求系统恢复时间很短,就要采用应用级的容灾备份,同时也要做好网络链路的冗余,以及与应用的异地接管。如果企业能够容忍较长一点的系统恢复时间,可以采用数据级的容灾备份。

从对数据一致性的要求上来说,容灾备份实现数据传输的方式又可分为同步和异步两种。同步数据复制将严格保持生产系统和备份系统之间数据的同步,灾难发生后,几乎没有数据的丢失,但对容灾备份距离和系统性能会有一定的影响。

异步数据复制将保持生产系统和备份系统之间数据在一定时间点的一致性,灾难发生后,数据有部分的丢失,但对容灾备份距离和系统性能的影响相对于同步要小。

由于传输带宽和响应时间的限制,同步复制选择容灾备份的地点和传输方式也十分重要。

例如,在距离为60km/1Gb的光纤传输条件下,数据库写操作的性能下降大于7倍以上。另一方面,当复制带宽远远小于I/O峰值时,容灾备份端数据滞后会较大。同时,系统的投资也会随着距离的增加而增加。

热词搜索:

上一篇:数据容灾备份的等级和技术
下一篇:双机热备与数据备份的关系

分享到: 收藏