Качество надежности компьютерного оборудования
Надежность, доступность и удобство обслуживания ( RAS ), также известная как надежность, доступность и удобство обслуживания ( RAM ), — термин из области компьютерной техники , включающий надежность , высокую доступность и удобство обслуживания . Первоначально эта фраза использовалась IBM для описания надежности своих мэйнфреймов . [1] [2]
Компьютеры, разработанные с более высоким уровнем RAS, имеют много функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительных периодов времени без сбоев . [3] Целостность данных и время безотказной работы являются особым преимуществом для мэйнфреймов и отказоустойчивых систем .
Определения
Хотя RAS изначально был ориентирован на аппаратное обеспечение [ требуется ссылка ] , системное мышление распространило концепцию надежности-доступности-обслуживаемости на системы в целом, включая программное обеспечение : [4]
- Надежность можно определить как вероятность того, что система будет выдавать правильные выходные данные до некоторого заданного времени t . [5] Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять аппаратные сбои. Надежная система не продолжает работу молча и не выдает результаты, которые включают неисправленные поврежденные данные. Вместо этого она обнаруживает и, если возможно, исправляет повреждение, например: повторяя операцию для временных ( мягких ) или прерывистых ошибок, или же, для неисправимых ошибок, изолируя неисправность и сообщая о ней механизмам восстановления более высокого уровня (которые могут переключиться на избыточное заменяющее оборудование и т. д.), или же останавливая затронутую программу или всю систему и сообщая о повреждении. Надежность можно охарактеризовать в терминах среднего времени между отказами (MTBF), с надежностью = exp(−t/MTBF). [5]
- Доступность означает вероятность того, что система находится в рабочем состоянии в определенный момент времени, т. е. количество времени, в течение которого устройство фактически работает, в процентах от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в виде минут или часов простоя в год. Функции доступности позволяют системе оставаться работоспособной даже при возникновении сбоев. Высокодоступная система отключит неисправную часть и продолжит работу с пониженной производительностью. Напротив, менее производительная система может выйти из строя и стать полностью неработоспособной. Доступность обычно указывается в процентах от времени, в течение которого система, как ожидается, будет доступна, например, 99,999 процентов (« пять девяток »).
- Удобство обслуживания или ремонтопригодность — это простота и скорость, с которой система может быть отремонтирована или обслужена; если время на ремонт неисправной системы увеличивается, то доступность снижается. Удобство обслуживания включает в себя различные методы легкой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может сократить или избежать простоя системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает системный сбой. Традиционно основное внимание уделялось выполнению правильного ремонта с минимальным нарушением нормальной работы.
Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы функционировать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, как часто система доступна для использования, даже если она может функционировать неправильно. Например, сервер может работать вечно и иметь идеальную доступность, но может быть ненадежным, с частым повреждением данных. [6]
Типы отказов
Физические неисправности могут быть временными или постоянными:
- Постоянные неисправности приводят к постоянной ошибке и обычно вызваны каким-либо физическим отказом, таким как электромиграция металла или пробой диэлектрика.
- Временные неисправности включают в себя переходные и прерывистые неисправности.
- Кратковременные (или мягкие ) сбои приводят к независимым однократным ошибкам и не являются следствием постоянных аппаратных сбоев: примерами служат альфа-частицы, переключающие бит памяти, электромагнитный шум или колебания электропитания.
- Периодические сбои возникают из-за слабого компонента системы, например, ухудшения параметров схемы, что приводит к ошибкам, которые могут повторяться. [5]
Ответы на неудачи
Временные и прерывистые сбои обычно можно устранить путем обнаружения и исправления, например, кодами ECC или повторным воспроизведением инструкций (см. ниже). Постоянные сбои приведут к неисправимым ошибкам, которые можно устранить путем замены дублирующим оборудованием, например, резервированием процессора или передачей неисправимой ошибки высокоуровневым механизмам восстановления. Успешно исправленная прерывистая ошибка также может быть передана операционной системе (ОС) для предоставления информации для прогнозного анализа сбоев .
Аппаратные возможности
Примеры аппаратных функций для улучшения RAS включают в себя следующее, перечисленное по подсистемам:
Отказоустойчивые конструкции расширили идею, сделав RAS определяющей функцией своих компьютеров для таких приложений, как биржи фондового рынка или управление воздушным движением , где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. Tandem Computers и Stratus Technologies ), которые, как правило, имеют дублирующие компоненты, работающие в режиме lock-step для обеспечения надежности, стали менее популярными из-за их высокой стоимости. Системы высокой доступности , использующие распределенные вычислительные методы, такие как компьютерные кластеры , часто используются как более дешевые альтернативы. [ необходима цитата ]
Смотрите также
Ссылки
- ^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Надежные компьютерные системы: проектирование и оценка. Taylor & Francis. стр. 508. ISBN 9781568810928.. «Аббревиатура RAS (надежность, доступность и удобство обслуживания) получила широкое распространение в IBM в качестве замены подмножества понятий управления восстановлением».
- ^ Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, выпуски 13–17». ; - "Надежность [...], ощущаемая другими пользователями System/370, является результатом стратегии, основанной на RAS (надежность-доступность-удобство обслуживания)"CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка )
- ^ Сиверт, Сэм (март 2005 г.). «Большие уроки железа, часть 2: Надежность и доступность: в чем разница?» (PDF) .
- ^
Например: Laros III, James H. (4 сентября 2012 г.). Энергоэффективные высокопроизводительные вычисления: измерение и настройка. SpringerBriefs in Computer Science. и др. Springer Science & Business Media (опубликовано в 2012 г.). стр. 8. ISBN 9781447144922. Получено 2014-07-08 .
Исторически системы надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками на системах класса мэйнфреймов. [...] Система RAS должна представлять собой систематическое объединение программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы в соответствии с их индивидуальным потенциалом.
- ^ abc EJ McClusky & S. Mitra (2004). «Fault Tolerance» в Computer Science Handbook 2ed. ed. AB Tucker. CRC Press .
- ^ Спенсер, Ричард Х.; Флойд, Рэймонд Э. (11 июля 2011 г.). Перспективы инженерии. Блумингтон, Индиана: AuthorHouse (опубликовано в 2011 г.). стр. 33. ISBN 9781463410919. Получено 2014-05-05 .
[...] системный сервер может иметь отличную доступность (работать вечно), но при этом по-прежнему часто повреждать данные (не очень надежный).
- ^ Дэниел Липец и Эрик Шварц (2011). "Самопроверка в текущих устройствах с плавающей точкой. Труды 20-го симпозиума IEEE по компьютерной арифметике 2011 года" (PDF) . Архивировано из оригинала (PDF) 2012-01-24 . Получено 2012-05-06 .
- ^ Л. Спейнхауэр и Т. А. Грегг (сентябрь 1999 г.). "Отказоустойчивость параллельного корпоративного сервера IBM S/390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5" (PDF) . CiteSeerX 10.1.1.85.5994 .
- ^ "Технология воспроизведения инструкций Intel обнаруживает и исправляет ошибки" . Получено 2012-12-07 .
- ^ HP. "Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (стр. 8)" (PDF) . Архивировано из оригинала (PDF) 24.07.2011.
- ^ Intel Corp. (2003). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания».
- ^ "Лучшие практики обеспечения надежности данных с Oracle VM Server для SPARC" (PDF) . Получено 2013-07-02 .
- ^ "Соображения по избыточности питания IBM" . Получено 2013-07-02 .
Внешние ссылки
- Функции надежности, доступности и удобства обслуживания (RAS) процессоров Itanium . Обзор функций RAS в целом и конкретных функций процессора Itanium .
- Система POWER7 RAS Ключевые аспекты надежности, доступности и удобства обслуживания энергосистем. Дэниел Хендерсон, Джим Митчелл и Джордж Аренс. 10 февраля 2012 г. Обзор функций RAS в процессорах Power .
- Intel Corp. Надежность, доступность и удобство обслуживания для Always-on Enterprise (приложение B) и семейство процессоров Intel Xeon E7: поддержка серверов RAS следующего поколения. Белая книга. Обзор функций RAS в процессорах Xeon .
- Обзор системы zEnterprise 196. IBM Corp. (Глава 10) Обзор функций RAS процессора IBM z196 и сервера zEnterprise 196 .
- Максимизация надежности и доступности приложений с помощью функций RAS сервера SPARC M5-32 от Oracle