stringtranslate.com

Высокая доступность

Высокая доступность ( HA ) — это характеристика системы, которая направлена ​​на обеспечение согласованного уровня эксплуатационной производительности, обычно времени безотказной работы , в течение более длительного, чем обычно, периода. [1]

В настоящее время зависимость от этих систем возросла в результате модернизации. Например, для выполнения своих обычных ежедневных задач больницам и центрам обработки данных необходимо, чтобы их системы были высокодоступны. Доступность относится к способности сообщества пользователей получать услугу или товар, получать доступ к системе, отправлять новую работу, обновлять или изменять существующую работу или собирать результаты предыдущей работы. Если пользователь не может получить доступ к системе, она — с точки зрения пользователя — недоступна . [2] Обычно термин «время простоя» используется для обозначения периодов, когда система недоступна.

Устойчивость

Высокая доступность является свойством устойчивости сети , способностью «обеспечивать и поддерживать приемлемый уровень обслуживания в условиях сбоев и проблем с нормальной работой». [3] Угрозы и проблемы для услуг могут варьироваться от простой неправильной конфигурации до крупномасштабных стихийных бедствий и целевых атак. [4] Таким образом, устойчивость сети затрагивает очень широкий спектр тем. Чтобы повысить устойчивость данной сети связи, необходимо определить вероятные проблемы и риски и определить соответствующие показатели устойчивости для защищенной услуги. [5]

Важность устойчивости сети постоянно растет, поскольку сети связи становятся основополагающим компонентом в работе критических инфраструктур. [6] Следовательно, недавние усилия сосредоточены на интерпретации и улучшении устойчивости сети и вычислений с приложениями для критических инфраструктур. [7] В качестве примера можно рассмотреть в качестве цели устойчивости предоставление услуг по сети, а не услуги самой сети. Это может потребовать скоординированного ответа как от сети, так и от служб, работающих поверх сети. [8]

Эти услуги включают в себя:

Устойчивость и выживаемость взаимозаменяемы в зависимости от конкретного контекста данного исследования. [9]

Принципы

В области надежности существуют три принципа проектирования систем , которые могут помочь достичь высокой доступности.

  1. Устранение отдельных точек отказа . Это означает добавление или создание избыточности в системе, чтобы отказ компонента не означал отказ всей системы.
  2. Надежный кроссовер. В избыточных системах сама точка кроссовера имеет тенденцию становиться единой точкой отказа. Надежные системы должны обеспечивать надежный кроссовер.
  3. Обнаружение сбоев по мере их возникновения. Если два принципа выше соблюдаются, то пользователь может никогда не увидеть сбой – но техническое обслуживание должно.

Запланированные и незапланированные простои

Можно провести различие между запланированным и незапланированным простоем. Обычно запланированный простой является результатом обслуживания , которое нарушает работу системы и которого обычно невозможно избежать при текущей установленной конструкции системы. События запланированного простоя могут включать исправления для системного программного обеспечения , требующие перезагрузки , или изменения конфигурации системы, которые вступают в силу только после перезагрузки. В целом запланированный простой обычно является результатом некоторого логического события, инициированного руководством. События незапланированного простоя обычно возникают из-за некоторого физического события, такого как сбой оборудования или программного обеспечения или аномалия окружающей среды. Примерами событий незапланированного простоя являются отключения питания, отказ компонентов ЦП или ОЗУ (или, возможно, других отказавших аппаратных компонентов), отключение, связанное с перегревом, логически или физически разорванные сетевые соединения, нарушения безопасности или различные сбои приложений , промежуточного программного обеспечения и операционной системы .

Если пользователей можно предупредить о запланированных простоях, то это различие полезно. Но если требуется действительно высокая доступность, то простой остается простым, независимо от того, запланирован он или нет.

Многие вычислительные сайты исключают запланированный простой из расчетов доступности, предполагая, что он не оказывает или оказывает незначительное влияние на сообщество пользователей вычислений. Поступая так, они могут заявлять о феноменально высокой доступности, что может создать иллюзию непрерывной доступности . Системы, которые демонстрируют действительно непрерывную доступность, сравнительно редки и стоят дороже, и большинство из них имеют тщательно реализованные специальные конструкции, которые устраняют любую единую точку отказа и позволяют выполнять обновления, исправления и замены оборудования, сети, операционной системы, промежуточного программного обеспечения и приложений в режиме онлайн. Для некоторых систем запланированный простой не имеет значения, например, простой системы в офисном здании после того, как все ушли домой на ночь.

Расчет процентов

Доступность обычно выражается в процентах от времени безотказной работы в данном году. В следующей таблице показано время простоя, которое будет разрешено для определенного процента доступности, предполагая, что система должна работать непрерывно. Соглашения об уровне обслуживания часто ссылаются на ежемесячное время простоя или доступности для расчета кредитов за обслуживание для соответствия ежемесячным циклам выставления счетов. В следующей таблице показано преобразование из заданного процента доступности в соответствующее количество времени, в течение которого система будет недоступна.

Термины «время безотказной работы» и «доступность» часто используются взаимозаменяемо, но не всегда относятся к одному и тому же. Например, система может быть «включена», а ее службы не «доступны» в случае сбоя сети . Или система, находящаяся на обслуживании программного обеспечения, может быть «доступна» для работы системного администратора , но ее службы не кажутся «доступными» конечному пользователю или клиенту. Таким образом, здесь важен предмет терминов: независимо от того, является ли предметом обсуждения серверное оборудование, серверная ОС, функциональная служба, программная служба/процесс или что-то подобное, слова «время безотказной работы» и «доступность» могут использоваться как синонимы только в том случае, если есть один последовательный предмет обсуждения.

Мнемоника «пять на пять»

Простое мнемоническое правило гласит, что 5 девяток дают примерно 5 минут простоя в год. Варианты можно получить, умножая или деля на 10: 4 девятки — это 50 минут, а 3 девятки — это 500 минут. В обратном направлении 6 девяток — это 0,5 минуты (30 секунд), а 7 девяток — это 3 секунды.

Трюк "Степени 10"

Еще один прием с памятью для расчета допустимой продолжительности простоя при проценте доступности «-девятки» — это использование формулы секунд в день.

Например, 90% («одна девятка») дает показатель степени , и, следовательно, допустимое время простоя составляет секунды в день.

Кроме того, 99,999% («пять девяток») дает показатель степени , и, следовательно, допустимое время простоя составляет секунды в день.

"Девятки"

Проценты определенного порядка величины иногда обозначаются числом девяток или «классом девяток» в цифрах. Например, электроэнергия, которая поставляется без перебоев ( отключений , понижений напряжения или скачков напряжения ) 99,999% времени, будет иметь надежность 5 девяток или класс пять. [10] В частности, этот термин используется в связи с мэйнфреймами [11] [12] или корпоративными вычислениями, часто как часть соглашения об уровне обслуживания .

Аналогично, проценты, заканчивающиеся на 5, имеют общепринятые названия, традиционно количество девяток, затем «пять», поэтому 99,95% — это «три девятки пять», сокращенно 3N5. [13] [14] Это обычно называют «три с половиной девятки», [15] но это неверно: 5 — это всего лишь множитель 2, в то время как 9 — это множитель 10, поэтому 5 — это 0,3 девятки (согласно приведенной ниже формуле: ): [примечание 2] 99,95% доступности — это 3,3 девятки, а не 3,5 девятки. [16] Проще говоря, переход от 99,9% доступности к 99,95% доступности имеет коэффициент 2 (от 0,1% до 0,05% недоступности), а переход от 99,95% до 99,99% доступности имеет коэффициент 5 (от 0,05% до 0,01% недоступности), то есть более чем в два раза больше. [примечание 3]

Формулировка класса 9, основанная на недоступности системы, будет выглядеть следующим образом:

(ср. Функции пола и потолка ).

Аналогичное измерение иногда используется для описания чистоты веществ.

В целом, число девяток нечасто используется сетевыми инженерами при моделировании и измерении доступности, поскольку его трудно применить в формуле. Чаще всего указывается недоступность, выраженная как вероятность (например, 0,00001), или время простоя в год. Доступность, указанная как число девяток, часто встречается в маркетинговых документах. [ необходима цитата ] Использование «девяток» было поставлено под сомнение, поскольку оно не отражает должным образом, что влияние недоступности меняется в зависимости от времени ее возникновения. [17] Для больших количеств девяток индекс «недоступности» (мера времени простоя, а не времени безотказной работы) проще в обращении. Например, именно поэтому в показателях битовых ошибок жесткого диска или канала передачи данных используется метрика «недоступности», а не доступности .

Иногда юмористический термин «девять пятерок» (55,5555555%) используется для противопоставления «пяти девяткам» (99,999%), [18] [19] [20], хотя это не является реальной целью, а скорее саркастическим указанием на что-то, что совершенно не соответствует ни одной разумной цели.

Измерение и интерпретация

Измерение доступности может быть подвергнуто некоторой степени интерпретации. Система, которая работала в течение 365 дней в невисокосный год, могла быть омрачена сбоем сети, который длился 9 часов в период пиковой нагрузки; сообщество пользователей будет считать систему недоступной, в то время как системный администратор будет заявлять о 100% времени безотказной работы. Однако, учитывая истинное определение доступности, система будет доступна примерно на 99,9%, или три девятки (8751 час доступного времени из 8760 часов в невисокосный год). Кроме того, системы, испытывающие проблемы с производительностью, часто считаются пользователями частично или полностью недоступными, даже если системы продолжают функционировать. Аналогично, недоступность некоторых функций приложения может остаться незамеченной администраторами, но иметь разрушительные последствия для пользователей — истинная мера доступности является целостной.

Доступность должна быть измерена, чтобы быть определенной, в идеале с помощью комплексных инструментов мониторинга («инструментов»), которые сами по себе являются высокодоступными. Если не хватает инструментов, системы, поддерживающие обработку больших объемов транзакций в течение дня и ночи, такие как системы обработки кредитных карт или телефонные коммутаторы, часто по своей сути лучше контролируются, по крайней мере, самими пользователями, чем системы, которые испытывают периодические затишья в спросе.

Альтернативным показателем является среднее время наработки на отказ (MTBF).

Тесно связанные концепции

Время восстановления (или расчетное время ремонта (ETR), также известное как целевое время восстановления (RTO)) тесно связано с доступностью, то есть общим временем, необходимым для планового отключения, или временем, необходимым для полного восстановления после незапланированного отключения. Другой показатель — среднее время восстановления (MTTR). Время восстановления может быть бесконечным при определенных конструкциях и сбоях системы, то есть полное восстановление невозможно. Одним из таких примеров является пожар или наводнение, которые уничтожают центр обработки данных и его системы, когда нет вторичного центра обработки данных для аварийного восстановления .

Другая связанная концепция — это доступность данных , то есть степень, в которой базы данных и другие системы хранения информации добросовестно регистрируют и сообщают о системных транзакциях. Управление информацией часто фокусируется отдельно на доступности данных или целевой точке восстановления , чтобы определить приемлемую (или фактическую) потерю данных при различных сбоях. Некоторые пользователи могут терпеть перерывы в обслуживании приложений, но не могут терпеть потерю данных.

Соглашение об уровне обслуживания («SLA») формализует цели и требования организации к доступности.

Военные системы управления

Высокая доступность является одним из основных требований к системам управления в беспилотных транспортных средствах и автономных морских судах . Если система управления становится недоступной, наземная боевая машина (GCV) или беспилотное судно непрерывного слежения ASW (ACTUV) будут потеряны.

Проектирование системы

С одной стороны, добавление большего количества компонентов в общую конструкцию системы может подорвать усилия по достижению высокой доступности, поскольку сложные системы изначально имеют больше потенциальных точек отказа и их сложнее правильно реализовать. Хотя некоторые аналитики выдвигают теорию о том, что наиболее высокодоступные системы придерживаются простой архитектуры (единая, высококачественная, многоцелевая физическая система с комплексной внутренней избыточностью оборудования), эта архитектура страдает от требования, что вся система должна быть остановлена ​​для исправления и обновления операционной системы. Более продвинутые конструкции систем позволяют исправлять и обновлять системы без ущерба для доступности услуг (см. балансировка нагрузки и отказоустойчивость ). Высокая доступность требует меньшего человеческого вмешательства для восстановления работы в сложных системах; причина этого в том, что наиболее распространенной причиной сбоев является человеческая ошибка. [21]

Высокая доступность за счет избыточности

С другой стороны, избыточность используется для создания систем с высоким уровнем доступности (например, популярные сайты электронной коммерции). В этом случае требуется высокий уровень обнаруживаемости отказов и избегания отказов по общей причине.

Если избыточные части используются параллельно и имеют независимый отказ (например, не находясь в одном центре обработки данных), они могут экспоненциально увеличить доступность и сделать общую систему высокодоступной. Если у вас есть N параллельных компонентов, каждый из которых имеет X доступности, то вы можете использовать следующую формулу: [22] [23]

Наличие параллельных компонентов = 1 - (1 - X)^ N

10 хостов, каждый из которых имеет 50% доступности. Но если они используются параллельно и выходят из строя независимо, они могут обеспечить высокую доступность.
10 хостов, каждый из которых имеет 50% доступности. Но если они используются параллельно и выходят из строя независимо, они могут обеспечить высокую доступность.

Так, например, если каждый из ваших компонентов имеет доступность только 50%, то, используя 10 компонентов параллельно, вы можете достичь доступности 99,9023%.

Два вида избыточности — пассивная избыточность и активная избыточность.

Пассивное резервирование используется для достижения высокой доступности путем включения достаточной избыточной мощности в конструкцию для компенсации снижения производительности. Простейшим примером является лодка с двумя отдельными двигателями, приводящими в движение два отдельных винта. Лодка продолжает движение к месту назначения, несмотря на отказ одного двигателя или винта. Более сложным примером являются несколько избыточных установок по производству электроэнергии в рамках большой системы, включающей передачу электроэнергии . Неисправность отдельных компонентов не считается отказом, если только результирующее снижение производительности не превышает пределов спецификации для всей системы.

Активное резервирование используется в сложных системах для достижения высокой доступности без снижения производительности. Несколько элементов одного типа включены в конструкцию, которая включает метод обнаружения сбоя и автоматической перенастройки системы для обхода неисправных элементов с использованием схемы голосования. Это используется в сложных вычислительных системах, которые связаны. Интернет- маршрутизация получена из ранних работ Бирмана и Джозефа в этой области. [24] [ необходим неосновной источник ] Активное резервирование может привнести в систему более сложные режимы сбоев, такие как непрерывная перенастройка системы из-за неисправной логики голосования.

Проектирование системы с нулевым временем простоя означает, что моделирование и имитация показывают, что среднее время между отказами значительно превышает период времени между плановым обслуживанием , обновлениями или сроком службы системы. Нулевое время простоя подразумевает массивную избыточность, которая необходима для некоторых типов самолетов и для большинства видов спутников связи . Система глобального позиционирования является примером системы с нулевым временем простоя.

Инструментарий для обнаружения неисправностей может использоваться в системах с ограниченной избыточностью для достижения высокой доступности. Действия по техническому обслуживанию выполняются в короткие периоды простоя только после активации индикатора неисправности. Отказ имеет значение только в том случае, если он происходит в критически важный для миссии период.

Моделирование и имитация используются для оценки теоретической надежности больших систем. Результат такого типа модели используется для оценки различных вариантов проектирования. Создается модель всей системы, и модель подвергается нагрузке путем удаления компонентов. Моделирование избыточности включает критерии Nx. N представляет собой общее количество компонентов в системе. x — количество компонентов, используемых для нагрузки системы. N-1 означает, что модель подвергается нагрузке путем оценки производительности со всеми возможными комбинациями, где один компонент неисправен. N-2 означает, что модель подвергается нагрузке путем оценки производительности со всеми возможными комбинациями, где два компонента неисправны одновременно.

Причины недоступности

Опрос среди экспертов по академической доступности в 2010 году ранжировал причины недоступности корпоративных ИТ-систем. Все причины относятся к несоблюдению передовой практики в каждой из следующих областей (в порядке важности): [25]

  1. Мониторинг соответствующих компонентов
  2. Требования и закупки
  3. Операции
  4. Предотвращение сетевых сбоев
  5. Предотвращение внутренних сбоев приложений
  6. Избегание внешних услуг, которые не работают
  7. Физическая среда
  8. Избыточность сети
  9. Техническое решение резервного копирования
  10. Процессное решение резервного копирования
  11. Физическое местоположение
  12. Избыточность инфраструктуры
  13. Избыточность архитектуры хранения

Книга о самих факторах была опубликована в 2003 году. [26]

Издержки недоступности

В отчете IBM Global Services за 1998 год было подсчитано, что недоступность систем обошлась американскому бизнесу в 4,54 млрд долларов в 1996 году из-за потери производительности и доходов. [27]

Смотрите также

Примечания

  1. ^ Использование365,25 дней в году; соответственно, квартал составляет ¼ этого значения (т.е.91,3125 дня), а месяц — это двенадцатая его часть (т.е.30,4375 дня). Для единообразия все значения времени округлены до двух десятичных знаков.
  2. ^ Подробности этого приближения см. в разделе «Математические совпадения, касающиеся основания 2» .
  3. ^ «Вдвое больше» в логарифмическом масштабе, что означает два множителя по 2:

Ссылки

  1. ^ Роберт, Шелдон (апрель 2024 г.). "высокая доступность (HA)". Techtarget .
  2. ^ Флойд Пьедад, Майкл Хокинс (2001). Высокая доступность: проектирование, методы и процессы. Prentice Hall. ISBN 9780130962881.
  3. ^ "Определения - ResiliNetsWiki". resilinets.org .
  4. ^ "Веб-архив ETHZ / Веб-архив ETH". webarchiv.ethz.ch .
  5. ^ Смит, Пол; Хатчисон, Дэвид; Стербенс, Джеймс П.Г.; Шёллер, Маркус; Фесси, Али; Каралиопулос, Меркурис; Лак, Чидунг; Платтнер, Бернхард (3 июля 2011 г.). «Устойчивость сети: системный подход». Журнал коммуникаций IEEE . 49 (7): 88–97. дои : 10.1109/MCOM.2011.5936160. S2CID  10246912 – через IEEE Xplore.
  6. ^ accesstel (9 июня 2022 г.). "операционная устойчивость | телекоммуникационные компании | accesstel | риск | кризис". accesstel . Получено 8 мая 2023 г. .
  7. ^ "Проект CERCES - Центр устойчивых критически важных инфраструктур в Королевском технологическом институте KTH". Архивировано из оригинала 19 октября 2018 г. Получено 26 августа 2023 г.
  8. ^ Чжао, Пэйюэ; Дэн, Дьёрдь (3 декабря 2018 г.). «Подход декомпозиции Бендерса для устойчивого размещения функций управления виртуальными процессами в мобильных периферийных облаках». IEEE Transactions on Network and Service Management . 15 (4): 1460–1472. doi :10.1109/TNSM.2018.2873178. S2CID  56594760 – через IEEE Xplore.
  9. ^ Кастет Дж., Салех Дж. «Жизнеспособность и устойчивость космических аппаратов и космических сетей: структура для характеристики и анализа», Американский институт аэронавтики и астронавтики, Технический отчет AIAA 2008-7707. Конференция по сетевым протоколам (ICNP 2006), Санта-Барбара, Калифорния, США, ноябрь 2006 г.
  10. ^ Конспект лекций М. Нестеренко, Государственный университет Кента
  11. ^ Введение в новый мэйнфрейм: Крупномасштабные коммерческие вычисления Глава 5 Доступность Архивировано 4 марта 2016 г., в Wayback Machine IBM (2006)
  12. ^ Видеоролик о ценности IBM zEnterprise EC12 для бизнеса на youtube.com
  13. Драгоценные металлы, Том 4. Pergamon Press. 1981. стр. 262. ISBN 9780080253695.
  14. ^ PVD для микроэлектроники: напыление в производстве полупроводников . 1998. стр. 387.
  15. ^ Мерфи, Ниалл Ричард; Бейер, Бетси; Петофф, Дженнифер; Джонс, Крис (2016). Инженерия надежности сайта: как Google управляет производственными системами . стр. 38.
  16. Джош Депре (23 апреля 2016 г.). «Девятки девяток». Архивировано из оригинала 4 сентября 2016 г. Получено 31 мая 2016 г.
  17. ^ Эван Л. Маркус, Миф о девятках
  18. ^ Ньюман, Дэвид; Снайдер, Джоэл; Тайер, Родни (24 июня 2012 г.). «Crying Wolf: False alarms hide attacks» (Плачущий волк: ложные тревоги скрывают атаки). Network World . Том 19, № 25. стр. 60. Получено 15 марта 2019 г. . что приводит к сбоям и показателям времени безотказной работы, близким к девяти пятеркам, чем к пяти девяткам.
  19. ^ Меткалф, Боб (2 апреля 2001 г.). «После 35 лет технологических крестовых походов Боб Меткалф уезжает в закат». ITworld . Получено 15 марта 2019 г. . и пять девяток (а не девять пятерок) надежности[ постоянная мертвая ссылка ]
  20. ^ Pilgrim, Jim (20 октября 2010 г.). "Goodbye Five 9s". Clearfield, Inc. Получено 15 марта 2019 г. . но мне кажется, что по надежности сети мы приближаемся к 9-5 (55,5555555%), а не к 5-9
  21. ^ "Что такое время простоя сети?". Сетевые технологии . Получено 27 декабря 2023 г.
  22. ^ Надежность и доступность техники: моделирование, анализ и приложения . 2017. ISBN 978-1107099500.
  23. ^ Системная поддержка: процессы приобретения и проектирования для поддержки критически важных и устаревших систем (Всемирная научная серия по новым технологиям: серия памяти Аврама Баркоэна) . 2022. ISBN 978-9811256844.
  24. ^ RFC  992
  25. ^ Ульрик Франке, Понтус Джонсон, Йохан Кёниг, Лив Маркс фон Вюртемберг: Доступность корпоративных ИТ-систем — байесовская модель на основе экспертов, Труды Четвертого международного семинара по качеству и удобству обслуживания программного обеспечения (WSQM 2010), Мадрид, [1] Архивировано 4 августа 2012 г. на archive.today
  26. ^ Маркус, Эван; Стерн, Хэл (2003). Blueprints for high availability (Второе издание). Индианаполис, Индиана: John Wiley & Sons. ISBN 0-471-43026-9.
  27. ^ IBM Global Services, Повышение доступности систем , IBM Global Services, 1998, [2] Архивировано 1 апреля 2011 г. на Wayback Machine

Внешние ссылки