Часто используемые вместе термины «непрерывность бизнеса» (BC) и «восстановление после сбоя» (DR) сильно различаются. BC относится к способности бизнеса продолжать критические функции и бизнес-процессы после возникновения сбоя, тогда как DR относится конкретно к ИТ-функциям бизнеса, хотя и является подмножеством BC. [1] [2]
Метрики
Основная цель — защитить организацию в случае, если все или часть ее операций и/или компьютерных служб станут частично или полностью непригодными для использования .
Метрики DR
Минимизация времени простоя и потери данных во время аварийного восстановления обычно оценивается с точки зрения двух ключевых концепций:
процедуры, указанные в плане BCP и DR, фактически соответствуют реальной практике
конкретное лицо в организации, которое может именоваться ответственным за восстановление после сбоев, посредником по восстановлению после сбоев, координатором по восстановлению после сбоев или иметь какую-либо другую подобную должность, имеющее технические навыки, подготовку, опыт и способности анализировать возможности членов команды для выполнения поставленных задач
более одного человека обучены и способны выполнять определенную функцию во время учений DR. Тесты и опросы персонала могут помочь в достижении этой цели.
Документация
План восстановления после стихийных бедствий
План восстановления после сбоя ( DRP ) — это документированный процесс или набор процедур для выполнения процессов восстановления после сбоя организации , а также восстановления и защиты ИТ- инфраструктуры бизнеса в случае сбоя . [3] Это «всеобъемлющее изложение последовательных действий, которые необходимо предпринять до, во время и после сбоя». [4] Сбой может быть природным , экологическим или техногенным . Техногенные катастрофы могут быть преднамеренными (например, акт террориста) или непреднамеренными (то есть случайными, такими как прорыв искусственной плотины или даже «толстые пальцы» — или ошибочные команды, введенные — в компьютерную систему).
Типы планов
Хотя универсального плана не существует, [5] существуют три основные стратегии: [3] [5]
профилактика, включая надлежащее резервное копирование, наличие фильтров и генераторов
обнаружение, побочный продукт плановых проверок, который может обнаружить новые (потенциальные) угрозы
исправление [6]
Последнее может включать в себя обеспечение надлежащих страховых полисов и проведение мозгового штурма по «извлеченным урокам». [3] [7]
Лучшие практики
Чтобы максимизировать свою эффективность, DRP наиболее эффективны при частом обновлении и должны:
быть тщательно проверенным, а не просто неиспользуемой бюрократической документацией
Организация должна хранить адекватные записи. Аудитор проверяет записи , счета и контракты , чтобы убедиться, что записи ведутся. Одной из таких записей является текущий список поставщиков оборудования и программного обеспечения организации . Такой список составляется и периодически обновляется для отражения меняющихся деловых практик и является частью системы управления ИТ-активами . Его копии хранятся на месте и за его пределами и предоставляются или доступны тем, кому они требуются. Аудитор проверяет процедуры, используемые для достижения этой цели, и определяет их эффективность.
Связь с BCP
Восстановление после сбоя является подмножеством непрерывности бизнеса. В то время как DRP охватывает политики, инструменты и процедуры, позволяющие восстановить данные после катастрофического события, BCP подразумевает поддержание всех аспектов функционирования бизнеса независимо от потенциальных разрушительных событий. Таким образом, план обеспечения непрерывности бизнеса является всеобъемлющей организационной стратегией, которая включает DRP, а также предотвращение угроз, обнаружение, восстановление и возобновление операций в случае утечки данных или другого катастрофического события. Таким образом, BCP состоит из пяти компонентов планов: [8]
План возобновления бизнеса
План действий в чрезвычайных ситуациях для жильцов
Первые три компонента (возобновление бизнеса, чрезвычайная ситуация для жильцов и планы непрерывности операций) не имеют отношения к ИТ-инфраструктуре. План управления инцидентами (IMP) имеет отношение к ИТ-инфраструктуре, но поскольку он устанавливает структуру и процедуры для реагирования на кибератаки на ИТ-системы организации, он, как правило, не представляет собой агента для активации DRP; таким образом, DRP является единственным компонентом BCP, представляющим активный интерес для ИТ. [8]
Тестирование
Общая категоризация тестов основана на функциональности и обсуждении. Типы тестов включают: настольные упражнения, [9] контрольные списки, симуляции, параллельную обработку (тестирование сайта восстановления, пока основной сайт находится в работе) и тесты полного прерывания (переключения при отказе). [10] [11] Они применимы как к BC, так и к DR.
Преимущества
Как и в случае с любым страховым планом, существуют преимущества, которые можно получить при правильном планировании обеспечения непрерывности бизнеса, в том числе: [4] Исследования показали взаимосвязь между более высокими расходами на аудиторские сборы и более низкими показателями инцидентов . [12]
Минимизация риска задержек
Гарантия надежности резервных систем (даже автоматизация обнаружения сбоев и восстановления в определенных сценариях)
По словам Джеффри Х. Уолда из журнала Disaster Recovery Journal, весь процесс разработки плана восстановления после стихийных бедствий состоит из 10 шагов: [4]
Проведение оценки риска : Комитет по планированию готовит анализ риска и анализ влияния на бизнес (BIA), который включает ряд возможных катастроф. Каждая функциональная область организации анализируется для определения потенциальных последствий. Традиционно пожар представляет наибольшую угрозу. Тщательный план предусматривает «худшие» ситуации, такие как разрушение главного здания.
Сбор данных : сюда входят различные списки (список резервных должностей сотрудников, список критических телефонных номеров, главный список вызовов, главный список поставщиков, контрольный список уведомлений), инвентари (коммуникационное оборудование, документация, офисное оборудование, формы, страховые полисы , компьютерное оборудование рабочей группы и центра обработки данных, аппаратное и программное обеспечение микрокомпьютеров , канцелярские принадлежности , оборудование для хранения вне офиса, телефоны и т. д.), распределительный регистр, графики резервного копирования/хранения программного обеспечения и файлов данных, спецификации временного расположения, любые другие подобные списки, материалы, инвентари и документация. Для упрощения процесса сбора данных часто используются предварительно отформатированные формы.
Организация и документирование письменного плана
Разработка критериев и процедур тестирования : причины тестирования включают:
Определение осуществимости и совместимости резервных средств и процедур.
Определение областей в плане, требующих изменения.
Проведение обучения руководителей и членов команды.
Демонстрация способности организации к восстановлению.
Обеспечение мотивации для поддержания и обновления плана восстановления после сбоев.
Тестирование плана : Первоначальный « сухой прогон » плана выполняется путем проведения структурированного сквозного теста. Необходимо провести фактический тестовый прогон. Проблемы устраняются.
Первоначальное тестирование может быть запланировано, проводится по секциям и после обычных рабочих часов, чтобы минимизировать перерывы. Последующие тесты проводятся в обычные рабочие часы.
Предостережения/споры
Из-за высокой стоимости различные планы не обходятся без критики. Dell выделила пять «распространенных ошибок», которые организации часто допускают при планировании BCP/DR: [13]
Отсутствие поддержки : когда высшее руководство рассматривает планирование DR как «еще одну фальшивую учебную тревогу по землетрясению» или генеральные директора не считают планирование и подготовку DR приоритетом
Неполные RTO и RPO : Невозможность включить каждый важный бизнес-процесс или блок данных. Рябь может продлить влияние катастрофы. Расчет заработной платы изначально может не быть критически важным для миссии, но если оставить его в покое на несколько дней, он может стать важнее любой из ваших первоначальных проблем.
Системная близорукость : Третья точка отказа заключается в сосредоточении только на DR без учета более масштабных потребностей в непрерывности бизнеса. Потерянное в результате катастрофы корпоративное офисное пространство может привести к мгновенному появлению пула удаленных работников, что, в свою очередь, может перегрузить VPN компании за одну ночь, перегрузить персонал ИТ-поддержки в мгновение ока и вызвать серьезные узкие места и монополии в системе коммутируемой АТС.
Слабая безопасность : когда происходит катастрофа, данные и бизнес-процессы организации становятся уязвимыми. Таким образом, безопасность может быть важнее, чем чистая скорость, включенная в RTO плана восстановления после катастрофы. Наиболее важным соображением тогда становится обеспечение безопасности новых конвейеров данных: от новых VPN до подключения к внешним службам резервного копирования.
В случае катастроф планирование посмертной судебно-медицинской экспертизы
Блокировка или удаленное стирание данных с утерянных портативных устройств
Решения и стратегии
Назначение площадки : выбор резервной площадки . Горячая площадка полностью оборудована для возобновления работы, в то время как холодная площадка не имеет такой возможности. Теплая площадка имеет возможность возобновления некоторых, но не всех операций.
Периодические тесты и испытания проверяют жизнеспособность и эффективность плана. Аудитор изучает вероятность того, что операции организации могут поддерживаться на уровне, который предполагается в плане, и способность организации фактически установить операции на месте.
Аудитор может проверить это с помощью бумажной и безбумажной документации и фактического физического наблюдения. Безопасность места хранения также подтверждается.
Резервное копирование данных : аудит процессов резервного копирования определяет, (a) являются ли они эффективными, и (b) фактически ли они реализуются вовлеченным персоналом. [14] [15] План аварийного восстановления также включает информацию о том, как лучше всего восстановить любые данные, которые не были скопированы. Вводятся средства контроля и защиты, чтобы гарантировать, что данные не будут повреждены, изменены или уничтожены во время этого процесса.
Учения : Практические учения, проводимые периодически, чтобы определить, насколько эффективен план, и определить, какие изменения могут потребоваться. Основная забота аудитора здесь — убедиться, что эти учения проводятся должным образом и что проблемы, выявленные в ходе этих учений, решаются.
Аудитор определяет адекватность страхового покрытия компании (в частности, страхование имущества и страхование от несчастных случаев ) посредством обзора страховых полисов компании и других исследований. Среди пунктов, которые аудитор должен проверить, есть: область действия полиса (включая любые заявленные исключения), что сумма покрытия достаточна для покрытия потребностей организации и что полис является актуальным и действующим. Аудитор также устанавливает посредством обзора рейтингов, присвоенных независимыми рейтинговыми агентствами, что страховая компания или компании, предоставляющие покрытие, имеют финансовую жизнеспособность для покрытия убытков в случае катастрофы.
Эффективные планы DR учитывают объем ответственности компании перед другими субъектами и ее способность выполнять эти обязательства, несмотря на крупную катастрофу. Хороший аудит DR будет включать обзор существующих MOA и контрактов , чтобы гарантировать, что юридическая ответственность организации за невыполнение обязательств в случае катастрофы или любых других необычных обстоятельств сведена к минимуму. Соглашения, касающиеся установления поддержки и помощи в восстановлении для субъекта, также изложены. Методы, используемые для оценки этой области, включают проверку обоснованности плана, определение того, учитывает ли план все факторы, и проверку обоснованности контрактов и соглашений с помощью документации и внешних исследований.
Проблемы со связью
Аудитор должен убедиться, что планирование обеспечивает наличие у руководства и группы восстановления эффективных средств связи , контактной информации как для внутренних коммуникаций, так и для внешних вопросов, например, деловых партнеров и ключевых клиентов.
Методы аудита включают в себя
тестирование процедур, интервьюирование сотрудников, сравнение с планами других компаний и отраслевыми стандартами,
изучение руководств компании и других письменных процедур.
непосредственное наблюдение за тем, что номера телефонов экстренных служб указаны и легко доступны в случае катастрофы.
Аварийные процедуры
Процедуры по поддержанию персонала во время круглосуточного восстановления после стихийных бедствий включены в любой хороший план восстановления после стихийных бедствий. Процедуры по хранению продовольствия и воды, возможности проведения СЛР / первой помощи и решения семейных чрезвычайных ситуаций четко прописаны и проверены. Обычно это может быть достигнуто компанией с помощью хороших программ обучения и четкого определения должностных обязанностей. Обзор готовности плана часто включает такие задачи, как опрос персонала, прямое физическое наблюдение и проверка записей об обучении и любых сертификатов.
Экологические проблемы
Аудитор должен рассмотреть процедуры, учитывающие возможность сбоев в подаче электроэнергии или других ситуаций, не связанных с ИТ.
^ Сьюзан Снедакер (2013). Планирование непрерывности бизнеса и восстановления после сбоев для ИТ-специалистов (2-е изд.). Берлингтон: Elsevier Science. ISBN 9780124114517.
^ «В чем разница между восстановлением после сбоев и обеспечением непрерывности бизнеса». Cloudian . 2019-11-25.
^ abc Билл Абрам (14 июня 2012 г.). "5 советов по созданию эффективного плана восстановления после сбоев". Small Business Computing . Получено 9 августа 2012 г.
^ abc Wold, Geoffrey H. (1997). "Процесс планирования восстановления после стихийных бедствий". Disaster Recovery Journal . Адаптировано из тома 5 #1. Disaster Recovery World. Архивировано из оригинала 15 августа 2012 г. Получено 8 августа 2012 г.
^ ab "Планирование восстановления после стихийных бедствий - пошаговое руководство". Университет штата Мичиган. Архивировано из оригинала 8 марта 2014 года . Получено 9 мая 2014 года .
^ "Backup Disaster Recovery". Архивирование электронной почты и удаленное резервное копирование. 2010. Архивировано из оригинала 22 января 2013 года . Получено 9 мая 2014 года .
^ "Планы восстановления после сбоев и обеспечения непрерывности бизнеса". Stone Crossing Solutions. 2012. Архивировано из оригинала 23 августа 2012 года . Получено 9 августа 2012 года .
^ Чад Бахан. (Июнь 2003 г.). "План восстановления после катастрофы" . Получено 24 августа 2012 г.
^ «Руководство по программам тестирования, обучения и упражнений для ИТ-планов и возможностей» (PDF) . NIST . стр. 21.
^ «В чем разница между настольными учениями, строевыми, функциональными и полномасштабными учениями?».
^ "Программа учений и оценки внутренней безопасности (HSEEP)" (PDF) . Внутренняя безопасность. Январь 2020 г.
^ Ли, Хе; Но, Вон Гюн; Бориц, Дж. Эфрим (24 ноября 2021 г.). «Обеспокоены ли внешние аудиторы раскрытием информации о киберрисках». Аудит: журнал практики и теории . doi : 10.2139/ssrn.2880928. S2CID 168198159.
^ Кормак Фостер; Dell Corporation (25 октября 2010 г.). «Пять ошибок, которые могут погубить план восстановления после сбоя». Архивировано из оригинала 2013-01-16 . Получено 8 августа 2012 г.
↑ Констанс Густке (7 октября 2015 г.). «Ураган Хоакин подчеркивает важность планов по поддержанию работы». The New York Times .
^ Берман, Алан. : Создание успешного плана обеспечения непрерывности бизнеса. Журнал Business Insurance , 9 марта 2015 г. http://www.businessinsurance.com/article/20150309/ISSUE0401/303159991/constructing-a-successful-business-continuity-plan
Мессье, У. Ф. младший (2011). Аудиторские и аудиторские услуги: систематический подход (8-е изд.). Нью-Йорк: McGraw-Hill/Irwin. ISBN 9780077520151.
Галлегос, Ф.; Сенфт, С.; Дэвис, А. Л. (2012). Контроль и аудит информационных технологий (4-е изд.). Бока-Ратон, Флорида: Auerbach Publications. ISBN 9781439893203.