昆明义正科技有限公司
产品搜索
在线客服
 工作时间
周一至周五 :9:00-18:00
周六至周日 :9:00-17:00
 联系方式
客服热线:0871-65119156
解疑咨询

联系人       电 话

段振虎            13888668282

舒应勇            13888471537
刘见良            13629447661

杨 涛            15368808450

邮 箱:318469840@qq.com

地 址:昆明市鼓楼路184号林海3A数码城8楼8015


新闻详情

QNAP企业容灾备份方案

                          QNAP 企业数据容灾方案

                              (二级备份)

           

                           QNAP 企业数据容灾方案

一、前言

1.1 企业需求

  企业的核心业务系统,担负着企业关键业务的数据中心和应用中心的职责,是一个具有高可用性的系统。高可用系统虽然能够做到本地系统的高可用性,但如果发生不可抗拒的灾难事件如火灾,地震,水灾等,还是会导致企业关键业务的长时间中断。

  对于特别的企业如银行,电信等这种关键业务,任何原因的短时间停顿都是不允许的,因此,有必要建设一个具有容灾功能的容灾系统,当数据中心发生故障时,可由容灾系统接管所有的业务处理。

1.2 方案目标

  整个解决方案应按以下目标进行建设:

   1. 灾难恢复。当生产系统发生灾难事件时,能在短时间内由容灾中心接管生产中心的业务,确保系统服务持续、稳定。通过容灾备份恢复生产系统,并确保业务数据的一致性。

   2. 二级容灾(在 A 点建立同城同步容灾,在 B 点建立远程异步容灾)。当企业 A 点生产中心系统出现故障时,本地容灾中心系统可以快速接管应用,并保证数据安全、完整存储;而当大面积灾难时,B 点的远程容灾中心接管所有 A 点的服务保障企业业务持续运营。

   3. 离线备份。在容灾系统中接入离线备份系统,确保数据进行容灾备份的同时,提供离线备份服务,保障数据安全。

1.3 关键优势

QNAP 企业数据容灾方案由数据复制方案和广域 Cluster 方案组成。方案利用高可靠性数据备份软件,结合高性能的 QNAP NAS,充分利用企业现有的资源,建立一个低成本、高可靠性容灾方案,为企业的关键业务提供持续、稳定,可靠服务。该解决方案具有以下优势:

  • 高性能,采用成熟的 Volume Manager 技术,优化主机及 I/O 资源

     VERITAS Volume Replicator 紧密地集成于 VERITAS Volume Manager 内。VERITAS  Volume Manager 是大型系统存储管理的事实行业标准,可大大提高存储系统的性能和可管  理性。Volume Replicator 与 Volume Manager 结合,可以只复制改变过的数据块,大大减少  了复制数据量,因此提高了复制性能。同时,Volume Replicator 对系统 CPU 的占用也很少,  基本小于 3%。对于容灾技术性能的评估,应从复制技术对应用的影响来计算。经过多次测  试,采用 VERITAS Volume Replicator 的复制速度在同步和异步复制模式下都比磁盘硬件复  制方式性能高出许多。

  • 可扩充性好,不局限于某一品牌磁盘

   产品QNAP 企业数据容灾方案的数据复制是基于操作系统的复制,对磁盘阵没有任何品牌或型号上的特殊要求,也不要求复制的数据全部在共享磁盘阵列上。

  • 可使用标准 IP 网络,不需要专用硬件设备,大大节约实施成本

     QNAP 企业数据容灾方案的数据复制技术使用 IP 网络,对底层的网络设备没有任何特殊要求。

  • 支持多点到一点的复制,多个节点的数据也可同时复制到一点进行集中

   对于企业的中心系统,主要需要的是数据库数据及其他相关数据的复制,而在应用服务器上,可以也需要一些数据的复制,例如变动的程序、参数等。可以针对不同的系统进行不同的复制方式,或选择复制或不复制,多台服务器的数据可以复制到容灾中心的同一服务器上,即保证了数据可以得到保护,又可以对容灾中心的规模加以控制。

  • 对复制数据的定义非常灵活,易于扩充

     QNAP 企业数据容灾方案的数据复制是以数据逻辑卷为单位的,因此用户可以非常灵活地设定哪些数据进行复制,而不像大多硬件方式进行数据复制的技术,可复制的数据范围在设备出厂时就必需设定好。

  • 同步模式容忍网络延迟,避免对应用的影响

   在同步数据复制模式下,应用系统会等本地和远端数据全部写完成后才返回“写操作完成”信号。若网络发生中断或容灾中心的设备发生故障造成复制无法进行,应用系统会变成等待状态。而 VERITAS 的解决方案在这种下可将同步复制自动切换到异步模式,当网络恢复后,再自动重新同步,从而对生产中心的应用影响最小。

  • 高可用,灾难事件的自动监控和快速切换

     QNAP 企业数据容灾方案是一个完整的高可用性容灾方案,数据复制技术 VERITAS  Volume Replicator 与 VERITAS Cluster Server(VCS)及 Global Cluster Manager(GCM)结  合,可以对生产系统和容灾中心的异常事件进行监控。当灾难事件发生时,GCM 可以自动  或提示管理员进行切换。

  • 集中管理

     GCM 提供 WEB 方式对生产中心和容灾中心的系统状况、应用状况、复制状况进行监控和切换管理。管理员可以在 WEB 管理界面进行单键(one-button)控制的主动切换或灾难接管。

  • 复制数据的高可靠性,保证数据一致的异步复制

     QNAP 企业数据容灾方案的数据复制技术使用复制日志(Storage Replication Log,SRL),保存了 I/O 的顺序。异步复制情况下,不能及时复制的数据可以存放在复制日志中。由于保存了 I/O 顺序,复制到容灾节点的数据一定是按照原有 I/O 顺序写入的,数据的一致性可以得到保护。

二、相关技术

2.1 软件相关

2.1.1 软件说明

   Veritas Volume Replicator(VVR)是一款优秀的异地备份软件,它为异地镜像数据组提  供了一个可靠、有效、低成本的解决方案。VVR 可在多种存储硬件平台上运行,如果把它  与 Veritas Volume Manager 集成在一起,就可通过 IP 网络将卷组复制到安全区域。此外,VVR  的远程数据复制功能使得用户可通过广域网向远程备份系统同步进行逻辑卷复制,确保系统  数据的高度可用。

    VVR 与 Storage Foundation 完全集成在一起。用 Storage Foundation 管理界面和命令统  一配置管理;由于 VVR 仅仅将 Volume 上每次 I/O 的实际数据实时复制到远程节点,所以在  网络线路上传输的数据量很少。VVR 软件系统架构如下图所示。

               

2.1.2VVR 软件特性

1、 最高支持 32 个远程节点,可以通过基于 IP 的 LAN 或者 WAN 网络;

2、 通过对逻辑卷的同步和异步复制模式,保证数据的完整性和一致性;

3、 确保备用节点和主节点的数据具有相同的写入顺序;

4、 支持对网络带宽的管理和定义,支持多链路的连接;

5、 支持对备用节点的脱机操作,以便在备用节点进行查询(例如 DSS 决策支持系统)  或者数据备份;

6、 易管理:同时支持命令行和图形界面(VEA);

7、 主备节点之间支持多种异构存储;

8、 支持不同操作系统平台之间的复制;

9、 支持主流关系数据库系统,包括 Oracle,DB2,Sybase 和 Informix,数据文件的存放格  式包括逻辑卷(裸设备)或者文件系统;  

10、 支持共享的集群环境中的逻辑卷复制,比如 Oracle RAC (Real Application Clusters);  

11、 支持 Veritas volume set;  

12、 支持 PDC (Portable Data Container)环境的数据复制;


2.2 VVR 数据复制技术

2.2.1 VVR 数据复制系统组成

  • Replicated Volume Group (RVG) 复制卷组

     RVG 是位于 VxVM 磁盘组(DG)内的一组逻辑卷,RVG 隶属于磁盘组的一部分,  通过定义这些逻辑卷,应用对逻辑卷的写操作都可以保持以主节点上同样的顺序,来写  到备用节点上。对于多数数据库系统来说,都是由一些特定的进程完成对磁盘的写操作,  比如 Oracle 系统中的 LOWR 和 DBWR 进程,而这些写操作总是依照着一定顺序,从  而来保证实例恢复中数据的一致和完整。比如数据库变化通常在写入日志文件后才会写  入数据文件,所以当日志文件和数据文件属于要复制的不同逻辑卷的时候,它们必须被  定义到同一组RVG 中。每组 RVG 最多可以包括 2048 个数据卷。 下面介绍 SRL 和  RLINK,它们也包括在 RVG 中。

  • Storage Replicator Log (SRL)

   SRL 用于记录 RVG 中数据写操作的日志,并循环被使用。每个 RVG 包括一个 SRL。数据在写入 RVG 中的卷之前,首先要写到主节点的 SRL 中。从 VxVM 的角度来看,SRL 是一个单独的卷,因为所有的写操作首先要写到 SRL 中,这个卷需要有较好的写性能,所以多数情况下需要对这个卷进行条带化,并且在不同的盘上 mirror 以保护数据,同时数据卷和 SRL 卷最好分布在不同的物理磁盘上以得到更好的性能。不允许人工直接对 SRL 进行访问。

  • Replication Link—RLINK

   用于连接主 RVG 和备用 RVG 之间的一个“链接”,一个主的 RVG 最多可以有32 个 RLINK。可以定义 RLINK的多个属性来调整数据复制的参数,比如指定复制的网络。

  • Data Change Map (DCM)

   与主节点的 RVG 相关,它其中的内容是位图信息,记录某一时间点后修改过的数据块位置。DCM 在正常情况下不使用,在 SRL 满后记录变化的数据块的块号,当恢复正常复制后,等 SRL 中的数据传送完后,将 DCM 中记录的块传送到异地。灾难恢复后的反向复制也用到 DCM。

  • Replicated Data Set (RDS)

   一个 RDS 包括了所有的主节点和备用节点的复制卷组(RVG)。RDS 不是一个具体存在的对象,而是一个 VVR 复制技术中的一个概念。

2.2.2 VVR 数据复制技术实现

    Veritas Volume Replicator(VVR)支持的实时数据复制技术有两种:一种是同步复制,另一种是异步复制。

  • 在异步模式下 VVR 的数据复制和数据流向

                 


  • 在同步模式下 VVR 的数据复制和数据流向

                                     



三、企业容灾系统实现

2.1 容灾系统的影响因素

  在建立容灾中心时,主要需考虑以下关键因素给系统带来的影响:

  • 容灾中心与生产中心在距离上要足够远,使得当生产中心遭受灾害破坏时,不会影响到容灾中心

  • 必须保证容灾中心与生产中心的数据同步及数据的一致性

  • 容灾中心的所有应用系统必须经过严格的测试,确保业务系统能够正常运行;任何对生产中心应用的改变,都需要对整个容灾系统进行测试

  • 容灾中心与生产中心间为保持数据同步而需传输的数据量,以及两地间的网络带宽,也即网络带宽必须能够保证两地间数据的顺畅同步

  • 容灾中心的计算机系统有足够的处理能力来接管业务中心的业务

  • 生产中心与容灾中心的应用切换快速可靠,并可进行自动和手工切换

另外,还需要考虑到投资和成本,尽量利用到原有的硬件设备。

2.2 同城容灾系统

   距离不超过 20 公里,通过 Volume 镜像实现(如需要,异地采用 Volume Replicator 进行异步数据复制,手工进行灾难切换)。也可以只采用 VERITAS Volume Manager 进行同城数据同步(镜像)和 VERITAS Volume Replicator 进行远程异步数据同步,当出现灾难事件时,通过指令对数据进行切换,并手工启动相关应用及修改网络设置等。

2.2.1 同城容灾系统实施

  同城容灾系统实施如下:

   1、 生产中心与同城容灾中心建立一个在同一个 SAN 环境中,不同位置的两套磁盘阵列连接在该 SAN 环境中

   2、 生产中心及同城容灾中心的主机 OS 上安装 VERITAS 的 Volume Manager 及 Volume  Replicator  

   3、 所有外置磁盘划分后通过 VxVM 进行管理

   4、 生产中心的磁盘与同城容灾中心的磁盘在操作系统级通过 VxVM 建立镜像(可实现  同城数据同步)

   5、 建立生产中心与远程容灾中心的 IP 网络

   6、 设置生产中心与远程容灾中心的复制链路,并设置哪些数据进行复制(最小单位为  单个逻辑卷)

2.2.2 同城容灾系统拓扑图

  同城容灾中心与生产中心其组成了一个 Cluster 系统,如下图所示:

                                 

2.2.3 同城容灾系统软件配置

               

               

2.2.4 同城容灾系统切换

   生 产 中 心 的 服 务 器 同 时 访 问 生 产 中 心 及 同 城 容 灾 中 心 的 磁 盘 ,整 个 生 产中心的切换与传统 Cluster 系 统 相 同 ,无 需 容 灾 数 据 的 状 态 改 变 。灾 难 切 换 如下 :

     1. 生产中心主机故障时 , 由 Cluster 软件(如 VERITAS Cluster Server)将 应 用 及 数 据 库 切 换 到 同 城 容 灾 中 心 , 磁 盘 数 据 不 变 。( 注 , 如 果 有本 地 Cluster, 先 切 换 到 本 地 的 正 常 服 务 器 )

                                     

    2. 生产中心磁盘故障时,无需切换,应用不受影响,生产中心的服务器只存取同城容灾中心的磁盘。

                                     

    3. 生产中心灾难时 , 由 Cluster 软 件 将 应 用 及 数 据 库 切 换 到 同 城 容 灾 中心,只访问同城容灾中心的磁盘。

                                     

2.3 远程容灾系统

   同城容灾距离不超过 20 公里,通过 Volume 镜像实现;异地采用 Volume Replicator 进行异步数据复制,并利用广域 Cluster 技术进行自动应用级灾难监控及切换。

2.3.1 远程容灾系统实施

   远程容灾系统实施如下:

     1. 同城容灾系统建设,请参考本方案 2.2.1

     2. 远程容灾中心主机、网络、存储系统的构建,以及应用系统的安装,这些可基本上与生产中心的环境一致

        a) 远程容灾中心的主机应具有运行应用和数据库的能力

        b) 远程容灾中心的存储可采用任意磁盘阵列,容量应满足复制容量要求

        c) 远程容灾中心的 OS 上安装 VERITAS 的 Volume Manager 及 Volume Replicator

     3. 建立基于广域网的集群系统,使得生产系统和远程容灾系统可以在广域网上进行切换

        a) 在生产中心和容灾中心安装 VERITAS Cluster Server 及 Global Cluster Manager

        b) 在 GCM 中定义灾难的条件及切换步骤

2.3.2 远程容灾系统拓扑图

                   

2.3.3 远程容灾系统软件配置

                 

                 

2.3.4 远程容灾系统切换

   生产中心发生灾难时,可以首先切换到同城容灾中心。这时,同城容灾中心升级为生产中心。当再次发生灾难,或当 A 点本地发生严重灾难时,远程容灾中心会发生作用。

   以下我们将对企业生产系统可能发生的情况来说明远程容灾系统的操作及与生产系统的关系。(为便于理解,以下讨论中忽略同城容灾中心)

2.3.4.1 生产中心单服务器发生故障时的系统切换

  当生产中心某一服务器发生故障(如操作系统 crash、硬件故障、数据库故障等),生产中心的数据库或应用突然无法服务。QNAP 企业数据容灾方案按以下步骤进行处理:

   1. VCS 监控到另一服务器的系统状态或数据库/应用状态变为“Failed”

   2. 如果该故障服务器上只是某一资源发生故障(例如数据库进程出现故障),VCS 将把其它资源安全停止下来(例如相关文件系统、逻辑卷、磁带组)

   3. 另一正常的服务器将故障服务器的资源按顺序进行启动(例如 DiskGroup、Volume、FileSystem、IP、数据库 Instance)

   4. 复制服务(VVR)也被接管过来,继续进行新数据的复制

   5. GCM 管理界面上可以监控到生产中心的一个 System Failed,另一 System Online。无需手工干预


  发生故障时,前端客户机的应用连接被中断;应用重新连接时,因为 IP 地址已切换,或 hostname 对应的 IP 地址已发生变化,前端客户机将连接到生产中心的另一台服务器。

2.3.4.2 灾难发生时的系统切换

  灾难的发生有很多情况,例如操作系统 crash、硬件故障、自然灾害等,生产中心突然无法服务。方案按以下步骤进行处理:

   1. GCM 监控到生产中心的系统状态变为“down”

   2. 如果设定容灾切换需人工干预,管理界面向管理员发出警报信息,并询问管理员是否“Approve”容灾系统 takeover(接管)应用系统

   3. 当管理员点击“Approve”按钮后,将应用系统在容灾中心启动起来。以下步骤由VCS/GCM 自动完成,其中包含了多项内容:

     a) 将容灾中心的 RVG 从接受数据状态转为正常状态

     b) 如果是文件系统,系统对其进行文件系统修复

     c) 启动相关应用(数据库或中间件),在启动过程中应用系统会对相关数据进行修复

     d) 进行网络设置,以便原有业务终端可以连接到容灾中心。有多种方式实现:将生产中心相关系统的 IP 地址接管理过来,或更新 DNS,              将 hostname 对应新的容灾中心的 IP 地址

  发生灾难事件时,前端客户机的应用连接被中断;应用重新连接时,因为 IP 地址已切换,或 hostname 对应的 IP 地址已发生变化,前端客户机将连接到容灾中心的服务器。

2.3.4.3 故障恢复应用切回

  当生产中心的服务器修复好以后,由于生产中心的服务器型号规格和性能要优于容灾中心的服务器,需要在生产中心修复好之后将应用迁回到生产中心。这个过程是一个由VVR/VCS/GCM 控制的迁回过程:

生产中心的数据未被破坏

   1、 将生产中心的 VVR 状态更新为 seconday

  由于生产中心异常故障,修复好之后,它的 VVR 复制服务仍认为自已是主节点(primary),而认为容灾中心是次节点(secondary),所以第一步是将生产中心的 VVR 状态更新为 seconday,由一条指令完成。

   2、 将在容灾中心修改的数据复制回生产中心,由一条指令完成。

    容灾中心在接管应用之后,用 DCM(Data Change Map)记录修改过的数据块,VVR将会把 DCM 记录的新修改的数据复制到生产中心。

   3、 将应用切回到生产中心,由 VCS/GCM 自动完成,用户只需点击“Migrate”按钮,系统完成如下操作:

       a) 容灾中心的应用 shutdown

       b) 生产中心的 VVR 改为 primary,容灾中心的 VVR 改为 secondary,开始生产中心向容灾中心的复制。

       c) 生产中心启动应用

生产中心的数据已被破坏

   1. 重新在生产中心设置 VVR/VCS/GCM 的环境,手工进行

   2. 从容灾中心向生产中心进行数据的完全复制,一条指令完成

   3. 将应用切回到生产中心,由 VCS/GCM 自动完成,用户只需点击“Migrate”按钮,系统完成如下操作

   a) 容灾中心的应用 shutdown

   b) 生产中心的 VVR 改为 primary,容灾中心的 VVR 改为 secondary,开始生产中心向容灾中心的复制。

   c) 生产中心启动应用

2.3.4.3 系统维护时的系统切换

  当需要进行系统维护时,容灾节点可以在 VVR/VCS/GCM 的控制下将应用切换到容灾节点。由 VCS/GCM 自动完成,用户只需点击“Migrate”按钮,它包含了以下过程:

   1、 生产中心的应用 shutdown

   2、 生产中心的 VVR 改为 secondary,容灾中心的 VVR 改为 primary,开始容灾中心向生产中心的复制。

   3、 容灾中心启动应用


  生产中心即可以被 shutdown 进行维护。注意:如果生产中心维护时间较长,可能容灾中心会有大量数据被存放在 SRL(复制日志区)中,要注意 SRL 的大小设置。当修改的数据超过 SRL 时,VVR 可以采用 DCM(Data Change Map,位图方式)对修改过的数据进行标记。在所有新的数据同步完成前,复制是无法保证数据一致性的(因为无法保证 I/O 顺序)。