最小可行性计划的终极指南
了解最小可行性计划的概念,以及我们的解决方案如何在您旅程的每个阶段发挥作用。

概述
本期指南的内容
最糟糕的情况发生了。您的企业遭受了灾难或网络攻击。您的数据和应用程序被清除。现在该怎么办?至少需要恢复到什么程度,才能维持业务的正常运转,接受订单和/或满足业务的基本需求?如何实现?

阅读全部内容:
- 为什么需要最小可行性计划
- 制定恢复和弹性计划
- 最小可行性计划的恢复工作流程
- 最小可行性计划的推荐实践
- Commvault 如何帮助客户实现最小可行性计划
为什么是最小可行性计划?
为什么是最小可行性计划?
网络攻击的兴起迫使企业重新思考其恢复策略。虽然检测威胁仍然至关重要,但一个更重大的挑战已经出现:确保受保护数据的清洁和可用性,使公司重新上线。
随着攻击者战略性地渗入系统、长时间不被发现并造成大范围的重复破坏,安全和 IT 团队已开始关注先进的实践,以最大限度地减少停机对其最重要的关键业务资产的影响。
最小可行性计划 - 有时也称为 "最小可行性企业" - 意味着要敏锐地了解最关键的资产,以及在网络攻击或事故发生后恢复其运行所需的条件。
制定计划
制定最小可行性计划
制定最小可行性计划要在攻击发生之前就开始。从高层次上讲,这些做法涉及确定最小可行性计划对企业的意义,以及在发生攻击时如何实现最小可行性:
对核心流程和依赖系统进行准确和统一的查看
这些系统需要最大限度地减少停机时间,以便企业能够在中断最少的情况下恢复执行其任务(例如,照顾病人、服务市民、教育学生、支持客户等)。
企业通常按照业务的优先级对应用程序和服务进行分级。例如,ServiceNow 的业务连续性管理模式将应用程序分类为
关键业务
没有这些(如 Active Directory、订单管理系统),什么都做不了。
关键任务
需要全面恢复电子邮件和会计业务。
非关键
所有其他系统。
美国国家标准与技术研究院(NIST)提供了一个业务影响分析模板,以帮助进行规划。
了解这些核心资源的停机成本
这通常以每分钟/小时/天的成本、客户忠诚度、患者护理、品牌影响、监管罚款等来衡量。企业管理协会(Enterprise Management Associates)2024 年的一份报告指出,停机的平均成本为每分钟 14,056 美元。
恢复关键系统、数据和流程的清晰可行计划
这包括关注网络弹性和恢复,从而保持连续性和信任。重点关注谁做什么以及团队如何协同工作。
请注意,不能依靠灾难恢复计划来弥补网络攻击造成的损失。在我们的 "就绪差距:为什么网络恢复需要一种不同于灾难恢复的方法" 报告中,我们调查了 500 位 IT 和安全领导者,以了解企业如何处理灾难恢复与网络恢复,92% 的受访者表示他们遭受过明确针对备份的攻击。
71% 的受访者表示,这类攻击占所有攻击的一半或更多。这种情况以及其他因素使得网络恢复变得更加复杂。
是什么增加了网络恢复的难度?
68%
涉及不同的流程和工作流
68%
涉及不同的技术和功能
58%
涉及不同的人员和技能组合
54%
更复杂
网络恢复的难度有多大?
技术更加复杂
(N: 340)很难找到并留住技术熟练的员工
(N: 289)过程和工作流程更加困难
(N: 342)更难满足服务水平协议
(N: 226)
以网络弹性为重点,实现最小可行性计划的实践能力
光有计划是不够的。正如迈克-泰森(Mike Tyson)的名言:"每个人都有一个计划,直到他们的嘴巴被打了一拳"。
作为最小可行性计划的一部分,企业必须具备自动化、测试、审计和持续改进快速恢复的能力,以确认他们已准备好在面对不断变化的威胁时保持弹性。这可以是桌面演练、模拟以及对相关技术的实际测试,以便了解最坏情况发生时的预期。
对威胁进行补救并清除后门,可防止进一步的破坏
还可防止坏人重新进入环境,从而在不中断的情况下进行干净的恢复操作。
如果在恢复后不进行适当的威胁修复、威胁扫描和一段时间的可观察性,恢复之前的状态意味着您的系统可能会再次被利用。必须对数据进行检查,并清除应用程序中的潜在后门和漏洞,因为这些后门和漏洞可能会让攻击者在您认为已经恢复的情况下再次入侵。
网络恢复为何比传统灾难恢复更具挑战性
需要花费大量的时间和精力进行取证分析,以确定感染的全部范围。
在没有建立洁净室环境的情况下进行恢复,会造成再次感染的重大风险。
匆忙从网络事件中恢复往往会毁掉如何实施攻击的证据,使企业容易受到攻击。
下一代网络恢复架构
可实现加密、不变性/不可扩展性、加固、任意对任意的可移植性和动态扩展,从而提高整体灵活性。
如今,当停机的成本(包括经济成本和声誉成本)非常高昂时,建立一个强有力的最小可行性计划尤为重要。
修复工作流程
恢复最小可行性计划的工作流程
在《就绪差距》报告中,2.3 倍的受访者表示网络恢复流程和工作流比灾难恢复更困难,近 2 倍的受访者表示 SLA 更难满足。最小可行性计划是更广泛的事件响应和网络恢复流程的一部分,那么如何克服这些挑战呢?最小可行性计划的工作流程可以提供帮助:
威胁的补救措施
在限制传播和保存证据的同时,将损失降到最低。识别威胁可让您评估范围、受影响的系统、数据和业务功能。遏制威胁可以采取缓解措施消除威胁。根除威胁将消除威胁和恶意软件,弥补安全漏洞,并将攻击者驱逐出系统。
恢复安全访问
通过恢复干净、可信的目录和身份服务(如 Active Directory、Azure Entra ID 和 AWS IAM),验证员工能否安全地访问关键系统和数据。
AD 不仅仅是用户无法登录工作站或访问电子邮件的问题。当 AD 出现故障时,关键基础设施无法上线,应用程序无法启动,业务停滞不前。Cloud IAM 受到破坏时,复杂的角色和权限会进一步阻碍恢复过程。
建立安全通信
利用 Microsoft 365 (M365) 和 Google Workspace 等服务提供安全的电子邮件、信息传递、日历和文档协作。这应被视为主要通信方式之外的次要通信方式。
电子邮件和协作工具对现代企业至关重要,可让团队随时随地协同工作。当这些服务瘫痪时,生产力就会大幅下降。安全通信可防止窃听和多种攻击载体。如果 M365 遭到破坏,坏人就会以各种方式访问它,因此一个辅助的安全通信渠道至关重要。
重建基础设施
快速恢复重要的 IT 基础设施和应用程序的运行状态。
恢复应用程序意味着重建每个分布式组件以及底层基础架构。这样做可以快速、干净利落地恢复关键和核心功能。
恢复数据
有效恢复干净、可信的数据,最大限度地减少中断造成的影响。
数据是现代企业的命脉。在许多情况下,可靠地访问数据是企业最基本运作的必要条件。网络攻击或安全事故发生后,恢复干净的数据对于恢复运营、避免服务中断和降低再感染风险至关重要。
建议的做法
实现最小可行性计划的建议做法
1. 气隙隔离副本
在至少一个气隙隔离的云环境中保存不可变、不可篡改的关键数据副本。
网络攻击经常以备份环境为目标,传播恶意代码并阻止轻松恢复。一旦被攻破,这些网络中的所有数据都将面临高风险。不可变和气隙隔离的副本通常是恢复的最后一道防线。
2. 频繁测试
除了检查表和模拟之外,还要对最小可行性所需的应用程序、基础设施和数据进行自动化的网络恢复操作测试。网络恢复是一个复杂、资源繁重的过程,会影响所有 IT 操作。
要做好应对漏洞的准备,必须对流程进行大规模测试,找出差距和风险,调整计划并重复进行。这包括测试事件响应计划、灾难恢复计划和网络恢复计划,以及参加桌面演习。
3. 最后已知的良好
建立并测试实践、流程和自动化,以验证关键应用程序、基础设施和数据的干净恢复点。发生漏洞后,恢复干净的数据至关重要。每一分钟的停机时间都可能造成数千美元的损失,因此再次感染对企业来说可能是灾难性的。快速准确地识别和恢复干净数据可将影响降至最低,并有助于在发生不可挽回的损失之前恢复运行。
4.隔离取证
自动执行快速隔离取证的恢复流程,包括关键安全和网络恢复工具的访问和可用性。
取证对于了解安全事件、减轻损害或防止其再次发生至关重要。隔离这些取证环境可以进行深入分析,而不会有再次感染或横向移动的风险。它还能释放生产环境,使其能够并行恢复、重建和快速恢复操作。
5.加固的基础架构
通过减少漏洞、最小化攻击面和提高抵御网络威胁的能力来加强整体安全性。
加固的基础架构可保护敏感数据,实现系统稳定,并最大限度地降低漏洞风险,因为漏洞可能导致代价高昂的停机时间和声誉损失。
6.隔离恢复环境 (IRE)/洁净室
可作为企业的安全网,为恢复操作和系统提供受控的安全空间,避免进一步污染的风险,并为取证提供受控环境。
如果企业的网络受到恶意软件或勒索软件的破坏,隔离恢复环境仍可免受这些攻击。这样,企业就可以安全地恢复系统和数据。洁净室是一个受控环境,受感染的系统可以在这里进行安全分析、进行清洁和恢复,然后再重新接入网络。
您可能不需要针对每起事件采取所有步骤,但了解并实践这些步骤非常重要。我们的 "就绪差距" 调查显示,在超过一半的报告事件中,网络恢复计划被部分援用。
网络恢复需要全面恢复与部分恢复
只需调用部分恢复计划的事件百分比。
需要全面恢复的事件百分比。
如需帮助,请联系我们
我们如何帮助客户实现最小可行性
Commvault 提供各种功能,可帮助企业尽快恢复到最小可行性状态,并进一步提升恢复程度。这些功能包括:
AD 变化分析和森林恢复
支持大规模的活动目录(AD)的无故障恢复,这是快速建立最小可行性所必需的。活动目录的自动化、林级恢复消除了复杂性和人为错误的风险,并加快了关键身份和访问管理服务恢复在线的速度。这意味着关键任务基础设施和应用程序可以上线,用户和客户可以访问服务,并且企业可以恢复和重启运营。
Commvault 提供自动的、森林级的 AD 恢复功能,包括自动生成自定义运行书和简单的点击操作,可在几分钟或几小时内恢复复杂的 AD 环境,而不是几周。
洁净室恢复和 Air Gap Protect
借助自动化技术,实现向云端安全且隔离的位置进行按需恢复,用于测试、取证,以及直接从云的不可变和不可篡改的存储中进行初始生产恢复。
洁净室恢复允许持续测试和改进网络恢复流程,帮助在隔离的云环境中提供关键应用程序的清洁恢复。利用云的弹性规模来存储数据、练习恢复并进行隔离取证分析,以调查和修复威胁。
云规模的恢复
利用云技术(即使是本地环境)快速恢复大型数据集。网络攻击后恢复关键数据需要一系列复杂繁琐的操作。然而,现代云技术 - 从基于微服务的并行性到无服务器规模 - 可以帮助简化大型恢复流程,使企业快速、可靠地恢复在线。
Commvault 提供自动化的云恢复功能。从利用无服务器功能恢复云数据存储中的数十亿个对象,到使用容器化微服务为内部部署恢复带来云速度和规模,Commvault 为客户提供云恢复功能,以实现可靠、快速的大规模恢复。
恢复即代码
自动重建云应用程序和基础设施堆栈(网络、DNS、计算),加快恢复最低可行性。
Commvault Cloud Rewind 可持续发现云应用工作负载,自动映射相关的网络和安全依赖性,并在一个气隙隔离的环境中保护这一切。将应用栈回滚至发生漏洞或配置错误之前的时间点,通过代码恢复重建环境,可轻松集成到 CloudOps 流程或 CI/CD 管道中。
快速恢复 AI 工作负载
驻留在对象存储中,如亚马逊 S3 和基于 S3 的数据湖。这种存储需要一套新的保护和恢复功能来处理必要的规模。恢复数十亿个对象,并帮助验证所有对象都已正确恢复并与之前的时间点相关联,是一系列复杂且计算密集的操作。
Commvault 的 Clumio Backtrack 可为 S3 中的新兴工作负载提供保护,从而能够准确、可靠地恢复数十亿个对象,并以必要的速度迅速让业务快速恢复到最小可行状态。
通过资源发现和映射实现云安全
查找企业使用的数百甚至数千种云资源,包括无服务器和容器化计算、NoSQL 数据库、机器学习和 AI 服务、虚拟网络等。未受保护的云资源、依赖关系和配置会延长在中断或攻击后恢复关键云基础设施的时间,而自动云资源发现、映射和配置保护可以避免这种风险。
最小可行性
结论
对于任何企业来说,在遭受网络攻击后,识别并恢复到最小可行状态对于快速恢复以及维持关键业务运营来说至关重要。拥有正确的工作流程并遵循最佳实践是成功的关键。
Commvault 解决方案
了解 Commvault 如何保护数据免受未来的威胁
Commvault 的全面解决方案,从目录变更分析到洁净室恢复和云回滚功能,提供了帮助实现这一目标的必要工具。通过实施这些实践,企业可以增强其恢复能力,最大限度地减少停机时间,并有效保护其关键资产。

洁净室恢复和气隙

Cloud Rewind
