为服务器故障制定灾难恢复计划:最大限度地减少业务中断

您是否只选择最好的服务器组件并将所有系统设计为尽可能冗余并不重要,对于任何长时间运行的系统,您始终可以指望的一件事是硬件故障。 IT 系统中有多个组件,当涉及到系统和业务功能时,每个组件都与下一个组件一样重要。 因此,每个企业都需要通过灾难恢复计划为灾难发生做好准备。


如果您的业务发生这种情况,您希望建立快速恢复以维持业务运营。 您还需要有一个灾难恢复团队,负责重新访问您的备份数据和最关键的系统,同时保持与客户的沟通。

在发生中断时将业务连续性计划作为灾难恢复计划的一部分将有助于减轻灾难性中断的损失。

什么是灾难恢复计划?
DR 计划包含多个部分或部分,在当今依赖信息的社会中,每个企业都需要一个 IT 灾难恢复计划。任何企业的停机时间,无论规模大小,都是代价高昂的,而且会影响利润。灾难恢复计划或 DRP 是一份书面计划,概述了企业将如何应对导致技术停机的各种灾难。

DRP 制定及时恢复硬件、数据和应用程序以满足特定业务需求的策略,优先考虑恢复操作并将人员分配到特定角色或任务。本质上,为业务连续性安装备份系统,等待恢复。

在制定灾难恢复计划时,您将进行业务影响分析,以了解特定灾难对业务的影响。业务影响分析确定潜在风险的可能性,然后评估可以采取的避免或减轻风险的步骤,确定响应的优先级,并估计对业务的财务影响。

在 DRP 中应考虑哪些情况?
灾难恢复计划不需要仅限于灾难性数据故障,例如整个数据中心因自然灾害而离线。它还可能包括长时间的 DDoS 攻击,导致关键客户系统脱机、设备故障以及任何其他可能导致业务紧急情况的情况。 DRP 越详细,探索的场景越多,它影响业务运营的可能性就越小。

支撑任何 DRP 的核心研究必须是业务影响分析,它考虑到数据或硬件的所有潜在危险,例如:

数据丢失
硬件故障
网络中断
停电
漏水
长时间的网络攻击
自然灾害
灾难恢复计划是否只专注于应对灾难?
灾难恢复计划的一个重要方面也是调查如何避免上述灾难,或在灾难确实发生时如何减轻其损害。有一系列用于数据保护的缓解措施,但是,最好的方法是数据备份策略。数据备份和灾难恢复策略首先确定要保留的最重要数据,然后选择和实施备份程序。应定期验证例行备份的计划和有效性,以确保不会丢失数据。

灾难恢复计划步骤
为了使工作更轻松,DRP 模板在线存在以帮助组织灾难响应过程。尽管有多种模板可用,但 IBM 开发了一个特别有用的灾难恢复模板,可以为您的业务复制或复制。

以下步骤可帮助指导您制定自己的灾难恢复计划:

第 1 步:概述 DRP 的主要目标
通常对任何业务都很重要的目标包括 IBM DRP 模板中列出的目标,它们是:

尽量减少对正常操作的干扰。

限制中断和损坏的程度。

尽量减少中断对经济的影响。

提前建立替代操作方式。

对关键人员进行应急程序培训。

提供平稳、快速的服务恢复。

第2步:清点所有 IT 系统硬件和应用程序
作为灾难​​恢复解决方案的一部分,您应该维护最关键系统的最新清单:硬件(设备)和软件(应用程序)。这应包括开始维修所需的必要规范,包括供应商支持联系信息以及供应商的紧急情况和日间联系电话。清单应包括硬件制造商的名称、型号和序列号、成本以及租赁或所有权状态。

DRP 提示:联系您的云基客户经理,以获取与我们一起提供的服务器的详细清单。

第 3 步:对您公司的系统进行彻底的风险分析
一个好的灾难恢复计划包括审查从数据丢失到网络攻击再到自然灾害的所有潜在风险。

随附整个企业使用的硬件和应用程序清单,并评估可能影响每项 IT 资产运营的潜在危险。 (一些危害可能因地点而异,例如可能的漏水。)分析电气和其他因素。为硬件故障以及每组应用程序和数据确定可接受的恢复点目标 (RPO) 和恢复时间目标 (RTO)。

第 4 步:制定预算
您的业​​务连续性计划涉及对缓解和灾难恢复的潜在和实际成本的实际评估,决策由高层管理人员与 IT 和会计部门共同制定。

如果您当前的服务器环境不提供灾难恢复解决方案,您将需要持续为实际服务提供商分配预算,以帮助减轻业务损失并帮助您快速恢复业务流程。发展危机管理团队可以包括公司内部的人员,但是,您可能希望考虑聘请或保留专家在关键领域发挥领导作用。

许多组织都受益于灾难恢复服务。这些公司被称为 DRaaS(灾难恢复即服务),提供了一系列可缩短恢复时间的产品。第三方提供商可以为您的数据存储安排一个“热门站点”。热点站点从您的主数据中心获取数据并创建备份站点,以实时复制您现有的网络环境。它们通常以云服务的形式出现,其目标是维护您的业务运营并提供数据保护。

如果发生灾难,他们将在那里协助恢复过程以恢复正常运营。它们通常可以帮助您恢复可能已损坏的数据、恢复丢失的数据并提供危机管理。价格取决于您的服务水平。

第 5 步:制定三级灾难恢复计划并确定其优先级
DRP 的第一层应关注硬件、应用程序和数据,这些硬件、应用程序和数据已被评估为对业务运营至关重要且最迫切需要。第二个恢复层涉及硬件和应用程序,它们也是必不可少的,但如果没有它们,业务可以存在 10-24 小时。第三层是剩余的硬件资产和应用程序,公司需要提高效率,但可以在几天内恢复而不会产生明显影响。

第 6 步:关注灾难恢复团队人员
DRP 中应包含组织结构图。有必要建立一支训练有素、能够对任何灾难做出快速响应、分配了角色和职责,并且完全熟悉 DRP 中概述的恢复脚本的恢复团队。您的团队可以由组织内的人员以及能够在关键领域发挥领导作用的外部专家组成。

因为你不知道会发生什么样的灾难,所以也应该训练后备人员在灾难发生的时候介入。