Восстановление после сбоев ИТ

Восстановление после сбоев в работе ИТ (также просто восстановление после сбоев (DR) ) — это процесс поддержания или восстановления жизненно важной инфраструктуры и систем после стихийного бедствия или антропогенной катастрофы , например, шторма или сражения. DR использует политики, инструменты и процедуры с упором на ИТ-системы, поддерживающие критически важные бизнес-функции. ^[1] Это подразумевает поддержание всех основных аспектов функционирования бизнеса, несмотря на значительные разрушительные события; поэтому его можно считать подмножеством непрерывности бизнеса (BC). ^[2]^[3] DR предполагает, что первичный сайт не подлежит немедленному восстановлению, и восстанавливает данные и услуги на вторичном сайте.

Непрерывность ИТ-услуг

Непрерывность ИТ-услуг (ITSC) является подмножеством BCP, ^[4] которое опирается на метрики (часто используемые в качестве ключевых индикаторов риска ) целей точки/времени восстановления. Оно охватывает планирование восстановления после сбоев ИТ и более широкое планирование устойчивости ИТ . Оно также включает ИТ-инфраструктуру и услуги , связанные с коммуникациями , такие как телефония и передача данных . ^[5]^[6]

Принципы резервных площадок

Планирование включает организацию резервных площадок, которые могут быть «горячими» (работающими до аварии), «теплыми» (готовыми к началу работы) или «холодными» (требующими значительных работ для начала работы), а также резервных площадок с оборудованием, необходимым для обеспечения непрерывности работы.

В 2008 году Британский институт стандартов запустил специальный стандарт, поддерживающий стандарт непрерывности бизнеса BS 25999 , названный BS25777, специально для согласования непрерывности компьютеров с непрерывностью бизнеса. Он был отозван после публикации в марте 2011 года стандарта ISO/IEC 27031 «Методы безопасности — Руководящие принципы по готовности информационных и коммуникационных технологий к непрерывности бизнеса». ^[7]

ITIL определил некоторые из этих терминов. ^[8]

Целевое время восстановления

Целевое время восстановления (RTO) ^[9]^[10] — это целевая продолжительность времени и уровень обслуживания, в течение которых бизнес-процесс должен быть восстановлен после сбоя, чтобы избежать нарушения непрерывности бизнеса. ^[11]

Согласно методологии планирования непрерывности бизнеса, RTO устанавливается в ходе анализа влияния на бизнес (BIA) владельцем(ами) процесса, включая определение временных рамок для альтернативных или ручных обходных решений.

RTO является дополнением RPO. Пределы приемлемой или «терпимой» производительности ITSC измеряются RTO и RPO с точки зрения времени, потерянного при нормальном функционировании бизнес-процесса, и данных, потерянных или не сохраненных в течение этого периода. ^[11]^[12]

Фактическое время восстановления

Фактическое время восстановления (RTA) является критически важным показателем для обеспечения непрерывности бизнеса и восстановления после сбоев. ^[9]

Группа обеспечения непрерывности бизнеса проводит хронометрированные репетиции (или фактические испытания), в ходе которых RTA определяется и уточняется по мере необходимости. ^[9]

Цель точки восстановления

Целевая точка восстановления ( RPO ) — это максимально допустимый интервал, в течение которого транзакционные данные теряются из ИТ-службы. ^[11]

Например, если RPO измеряется в минутах, то на практике необходимо постоянно поддерживать внешние зеркальные резервные копии , поскольку ежедневного внешнего резервного копирования будет недостаточно. ^[13]

Связь с RTO

Восстановление, которое не является мгновенным, восстанавливает транзакционные данные в течение некоторого интервала времени без возникновения значительных рисков или потерь. ^[11]

RPO измеряет максимальное время, в течение которого последние данные могли быть навсегда утеряны, а не является прямой мерой количества потерь. Например, если план BC заключается в восстановлении до последней доступной резервной копии, то RPO — это интервал между такими резервными копиями.

RPO не определяется существующим режимом резервного копирования. Вместо этого BIA определяет RPO для каждой службы. Когда требуются данные за пределами площадки, период, в течение которого данные могут быть утеряны, может начинаться с момента подготовки резервных копий, а не с момента их размещения за пределами площадки. ^[12]

Среднее время

Метрики восстановления можно преобразовать в/использовать вместе с метриками отказов . Обычные измерения включают среднее время между отказами (MTBF), среднее время до первого отказа (MTFF), среднее время ремонта (MTTR) и среднее время простоя (MDT).

Точки синхронизации данных

Точка синхронизации данных ^[14] — это завершение резервного копирования. Она останавливает обработку обновления, пока копирование с диска на диск завершено. Резервная копия ^[15] отражает более раннюю версию операции копирования; не тогда, когда данные копируются на ленту или передаются в другое место.

Проектирование системы

RTO и RPO должны быть сбалансированы с учетом бизнес-рисков, а также других критериев проектирования системы. ^[16]

RPO привязан к времени, в течение которого резервные копии защищены вне офиса. Отправка синхронных копий на зеркало вне офиса позволяет предотвращать большинство непредвиденных событий. Использование физической транспортировки для лент (или других переносимых носителей) является обычным явлением. Восстановление может быть активировано на заранее определенном сайте. Совместное внешнее пространство и оборудование завершают пакет. ^[17]

Для больших объемов ценных транзакционных данных оборудование можно распределить по нескольким площадкам.

История

Планирование восстановления после сбоев и информационные технологии (ИТ) получили развитие в середине-конце 1970-х годов, когда руководители компьютерных центров начали осознавать зависимость своих организаций от компьютерных систем.

В то время большинство систем были пакетно-ориентированными мэйнфреймами . Мэйнфрейм, находящийся вне офиса, мог загружаться с резервных лент в ожидании восстановления основного сайта; время простоя было относительно менее критичным.

Индустрия аварийного восстановления ^[18]^[19] развивалась для предоставления резервных компьютерных центров. Sungard Availability Services был одним из первых таких центров, расположенным в Шри-Ланке (1978). ^[20]^[21]

В 1980-х и 90-х годах вычисления росли экспоненциально, включая внутреннее корпоративное разделение времени, онлайн-ввод данных и обработку в реальном времени . Доступность ИТ-систем стала более важной.

В дело вмешались регулирующие органы; часто устанавливались целевые показатели доступности в 2, 3, 4 или 5 девяток (99,999%), и искались решения высокой доступности для объектов с горячими участками . ^{[ необходима цитата ]}

Непрерывность ИТ-услуг стала неотъемлемой частью управления непрерывностью бизнеса (BCM) и управления информационной безопасностью (ICM), как указано в стандартах ISO/IEC 27001 и ISO 22301 соответственно.

Рост облачных вычислений с 2010 года создал новые возможности для устойчивости системы. Поставщики услуг взяли на себя ответственность за поддержание высокого уровня обслуживания, включая доступность и надежность. Они предложили высокоустойчивые сетевые конструкции. Восстановление как услуга (RaaS) широко доступно и продвигается Cloud Security Alliance . ^[22]

Классификация

Катастрофы могут быть результатом трех основных категорий угроз и опасностей.

К стихийным бедствиям относятся такие стихийные бедствия, как наводнения, ураганы, торнадо, землетрясения и эпидемии.
К технологическим опасностям относятся аварии или отказы систем и конструкций, такие как взрывы трубопроводов, транспортные аварии, сбои в работе коммунальных служб, прорывы плотин и случайные выбросы опасных материалов.
Угрозы, создаваемые человеком, включающие преднамеренные действия, такие как активные атаки, химические или биологические атаки, кибератаки против данных или инфраструктуры, саботаж и войны.

Меры по обеспечению готовности ко всем категориям и типам бедствий подразделяются на пять направлений: предотвращение, защита, смягчение последствий, реагирование и восстановление. ^[23]

Планирование

Исследования подтверждают идею о том, что реализация более целостного подхода к планированию до стихийных бедствий более рентабельна. Каждый 1 доллар, потраченный на смягчение последствий опасности (например, план восстановления после стихийных бедствий ), экономит обществу 4 доллара на реагировании и расходах на восстановление. ^[24]

Статистика аварийного восстановления за 2015 год показывает, что простой в течение одного часа может стоить ^[25]

малые компании $8000,
организации среднего размера $74,000, и
крупные предприятия 700 000 долларов США и более.

Поскольку ИТ-системы стали играть все более важную роль в бесперебойной работе компании и, возможно, экономики в целом, возросла важность обеспечения непрерывной работы этих систем и их быстрого восстановления. ^[26]

Меры контроля

Меры контроля — это шаги или механизмы, которые могут уменьшить или устранить угрозы. Выбор механизмов отражается в плане восстановления после сбоя (DRP).

Меры контроля можно классифицировать как меры, направленные на предотвращение возникновения события, меры, направленные на обнаружение или обнаружение нежелательных событий, и меры, направленные на исправление или восстановление системы после аварии или события.

Эти проверки документируются и регулярно проводятся с использованием так называемых «тестов DR».

Стратегии

Стратегия аварийного восстановления вытекает из плана обеспечения непрерывности бизнеса. ^[27] Метрики для бизнес-процессов затем сопоставляются с системами и инфраструктурой. ^[28] Анализ затрат и выгод показывает, какие меры аварийного восстановления являются подходящими. Различные стратегии имеют смысл на основе стоимости простоя по сравнению со стоимостью внедрения конкретной стратегии.

Распространенные стратегии включают в себя:

резервное копирование на ленту и отправка за пределы офиса
резервное копирование на диск на месте (копирование на внешний диск) или за пределами места
репликация за пределами площадки, так что после восстановления или синхронизации систем, возможно, с помощью технологии сети хранения данных
Решения для частного облака, которые реплицируют метаданные (виртуальные машины, шаблоны и диски) в частное облако. Метаданные настраиваются как XML- представление, называемое Open Virtualization Format, и могут быть легко восстановлены
гибридные облачные решения, которые реплицируют как локальные, так и внешние центры обработки данных. Это обеспечивает мгновенный отказоустойчивый переход на локальное оборудование или облачные центры обработки данных.
Системы высокой доступности, которые хранят как данные, так и систему, реплицированными вне офиса, обеспечивая непрерывный доступ к системам и данным даже после аварии (часто связанной с облачным хранилищем ). ^[29]

Меры предосторожности могут включать:

локальные зеркала систем и/или данных и использование технологии защиты дисков, такой как RAID
Сетевые фильтры — для минимизации воздействия скачков напряжения на чувствительное электронное оборудование.
использование источника бесперебойного питания (ИБП) и/или резервного генератора для поддержания работы систем в случае отключения электроэнергии
Системы предотвращения/смягчения пожаров, такие как сигнализация и огнетушители
антивирусное программное обеспечение и другие меры безопасности.

Аварийное восстановление как услуга

Аварийное восстановление как услуга (DRaaS) — это соглашение со сторонним поставщиком о выполнении некоторых или всех функций DR для таких сценариев, как отключение электроэнергии, отказы оборудования, кибератаки и стихийные бедствия. ^[30]

Смотрите также

Ссылки

^ "'Systems and Operations Continuity: Disaster Recovery". Джорджтаунский университет - University Information Services. Архивировано из оригинала 26 февраля 2012 года . Получено 20 июля 2024 года .
^ "Disaster Recovery and Business Continuity". IBM . Архивировано из оригинала 11 января 2013 года . Получено 20 июля 2024 года .
^ "Что такое управление непрерывностью бизнеса?". Disaster Recovery Institute International . Получено 20 июля 2024 г.
^ «Защита страт данных». ForbesMiddleEast.com . 24 декабря 2013 г.^{[ постоянная мертвая ссылка ]}
^ М. Ниемимаа; Стивен Бьюкенен (март 2017 г.). «Процесс обеспечения непрерывности информационных систем». ACM .com (Электронная библиотека ACM) .
^ "2017 IT Service Continuity Directory" (PDF) . Disaster Recovery Journal . Архивировано из оригинала (PDF) 2018-11-30 . Получено 2018-11-30 .
^ "ISO 22301 будет опубликован в середине мая - BS 25999-2 будет отозван". Форум по непрерывности бизнеса . 2012-05-03 . Получено 2021-11-20 .
^ «Глоссарий и сокращения ITIL».
^ abc «Как и драфт НФЛ, часы — враг вашего времени на восстановление». Forbes . 30 апреля 2015 г.
^ «Три причины, по которым вы не можете уложиться в сроки восстановления после сбоя». Forbes . 10 октября 2013 г.
^ abcd "Понимание RPO и RTO". DRUVA. 2008. Получено 13 февраля 2013 г.
^ ab "Как вписать RPO и RTO в ваши планы резервного копирования и восстановления". SearchStorage . Получено 20.05.2019 .
^ Ричард Мэй. "Finding RPO and RTO". Архивировано из оригинала 2016-03-03.
^ "Передача данных и синхронизация между мобильными системами". 14 мая 2013 г.
^ "Поправка № 5 к S-1". SEC.gov . в режиме реального времени ... обеспечить избыточность и резервное копирование ...
^ Питер Х. Грегори (2011-03-03). «Установка максимально допустимого времени простоя — установка целей восстановления». Планирование восстановления после сбоев в работе ИТ для чайников . Wiley. С. 19–22. ISBN 978-1118050637.
^ Уильям Каэлли; Денис Лонгли (1989). Информационная безопасность для менеджеров. Springer. стр. 177. ISBN 1349101370.
^ "Катастрофа? Это не может произойти здесь". The New York Times . 29 января 1995 г. .. истории болезни пациентов
^ "Коммерческая недвижимость/Восстановление после стихийных бедствий". The New York Times . 9 октября 1994 г. ...индустрия восстановления после стихийных бедствий выросла до
^ Чарли Тейлор (30 июня 2015 г.). «Американская технологическая фирма Sungard объявляет о создании 50 рабочих мест в Дублине». The Irish Times . Sungard .. основана в 1978 г.
^ Кассандра Маскаренас (12 ноября 2010 г.). «SunGard станет важным игроком в банковской отрасли». Wijeya Newspapers Ltd. SunGard ... Будущее Шри-Ланки.
^ SecaaS Category 9 // Руководство по внедрению BCDR CSA, получено 14 июля 2014 г.
^ «Определение угроз и опасностей, оценка рисков (THIRA) и обзор готовности заинтересованных сторон (SPR): Руководство по комплексной готовности (CPG) 201, 3-е издание» (PDF) . Министерство внутренней безопасности США. Май 2018 г.
^ "Форум по планированию восстановления после стихийных бедствий: практическое руководство, подготовленное Партнерством по устойчивости к стихийным бедствиям". Центр общественных услуг Университета Орегона, (C) 2007, www.OregonShowcase.org . Получено 29 октября 2018 г.^{[ постоянная мертвая ссылка ]}
^ "Важность восстановления после сбоев" . Получено 29 октября 2018 г.
^ "План восстановления после сбоя в работе ИТ". FEMA. 25 октября 2012 г. Получено 11 мая 2013 г.
^ «Использование рамок профессиональной практики для разработки, внедрения и поддержания программы обеспечения непрерывности бизнеса может снизить вероятность возникновения существенных пробелов». DRI International . 2021-08-16 . Получено 2021-09-02 .
^ Грегори, Питер. Руководство по комплексному экзамену на получение сертификата аудитора информационных систем CISA, 2009. ISBN 978-0-07-148755-9 . Страница 480.
^ Брэндон, Джон (23 июня 2011 г.). «Как использовать облако в качестве стратегии восстановления после сбоев». Inc. Получено 11 мая 2013 г.
^ «Аварийное восстановление как услуга (DRaaS)».

Дальнейшее чтение

Барнс, Джеймс (2001). Руководство по планированию непрерывности бизнеса . Чичестер, Нью-Йорк: John Wiley. ISBN 9780470845431. OCLC 50321216.
Белл, Джуди Кей (2000). Планирование выживания при стихийных бедствиях: практическое руководство для предприятий . Порт-Хьюнем, Калифорния, США: Планирование выживания при стихийных бедствиях. ISBN 9780963058027. OCLC 45755917.
Фулмер, Кеннет (2015). Планирование непрерывности бизнеса: пошаговое руководство с формами планирования . Брукфилд, Коннектикут: Rothstein Associates, Inc. ISBN 9781931332804. OCLC 712628907, 905750518, 1127407034.
ДиМаттиа, Сьюзен С. (2001). «Планирование преемственности». Library Journal . 126 (19): 32–34. ISSN 0363-0277. OCLC 425551440.
Харни, Джон (июль–август 2004 г.). «Непрерывность бизнеса и восстановление после сбоев: резервное копирование или выключение». Журнал AIIM E-DOC . ISSN 1544-3647. OCLC 1058059544. Архивировано из оригинала 2008-02-04.
"ISO 22301:2019(ru), Безопасность и устойчивость — Системы управления непрерывностью бизнеса — Требования". ISO.
"ISO/IEC 27001:2013(ru) Информационные технологии — Методы обеспечения безопасности — Системы управления информационной безопасностью — Требования". ISO.
"ISO/IEC 27002:2013(ru) Информационные технологии — Методы обеспечения безопасности — Свод правил по управлению информационной безопасностью". ISO.

Внешние ссылки

"Глоссарий терминов по непрерывности бизнеса, аварийному восстановлению и связанным с ними решениям по зеркалированию данных и хранению z/OS". recoveryspecialties.com . Архивировано из оригинала 2020-11-14 . Получено 2021-09-02 .
«План восстановления после сбоя в работе ИТ». Ready.gov . Получено 2021-09-02 .
"RPO (целевая точка восстановления) Объяснение". IBM . 2019-08-08 . Получено 2021-09-02 .