stringtranslate.com

Надежность, доступность и удобство обслуживания

Надежность, доступность и удобство обслуживания ( RAS ), также известная как надежность, доступность и удобство обслуживания ( RAM ), — термин из области компьютерной техники , включающий надежность , высокую доступность и удобство обслуживания . Первоначально эта фраза использовалась IBM для описания надежности своих мэйнфреймов . [1] [2]

Компьютеры, разработанные с более высоким уровнем RAS, имеют много функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительных периодов времени без сбоев . [3] Целостность данных и время безотказной работы являются особым преимуществом для мэйнфреймов и отказоустойчивых систем .

Определения

Хотя RAS изначально был ориентирован на аппаратное обеспечение [ требуется ссылка ] , системное мышление распространило концепцию надежности-доступности-обслуживаемости на системы в целом, включая программное обеспечение : [4]

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы функционировать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, как часто система доступна для использования, даже если она может функционировать неправильно. Например, сервер может работать вечно и иметь идеальную доступность, но может быть ненадежным, с частым повреждением данных. [6]

Типы отказов

Физические неисправности могут быть временными или постоянными:

Ответы на неудачи

Временные и прерывистые сбои обычно можно устранить путем обнаружения и исправления, например, кодами ECC или повторным воспроизведением инструкций (см. ниже). Постоянные сбои приведут к неисправимым ошибкам, которые можно устранить путем замены дублирующим оборудованием, например, резервированием процессора или передачей неисправимой ошибки высокоуровневым механизмам восстановления. Успешно исправленная прерывистая ошибка также может быть передана операционной системе (ОС) для предоставления информации для прогнозного анализа сбоев .

Аппаратные возможности

Примеры аппаратных функций для улучшения RAS включают в себя следующее, перечисленное по подсистемам:

Отказоустойчивые конструкции расширили идею, сделав RAS определяющей функцией своих компьютеров для таких приложений, как биржи фондового рынка или управление воздушным движением , где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. Tandem Computers и Stratus Technologies ), которые, как правило, имеют дублирующие компоненты, работающие в режиме lock-step для обеспечения надежности, стали менее популярными из-за их высокой стоимости. Системы высокой доступности , использующие распределенные вычислительные методы, такие как компьютерные кластеры , часто используются как более дешевые альтернативы. [ необходима цитата ]

Смотрите также

Ссылки

  1. ^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Надежные компьютерные системы: проектирование и оценка. Taylor & Francis. стр. 508. ISBN 9781568810928.. «Аббревиатура RAS (надежность, доступность и удобство обслуживания) получила широкое распространение в IBM в качестве замены подмножества понятий управления восстановлением».
  2. ^ Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, выпуски 13–17». {{cite journal}}: |author=имеет общее название ( помощь ) ; Цитировать журнал требует |journal=( помощь ) - "Надежность [...], ощущаемая другими пользователями System/370, является результатом стратегии, основанной на RAS (надежность-доступность-удобство обслуживания)"CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка )
  3. ^ Сиверт, Сэм (март 2005 г.). «Большие уроки железа, часть 2: Надежность и доступность: в чем разница?» (PDF) .
  4. ^ Например: Laros III, James H. (4 сентября 2012 г.). Энергоэффективные высокопроизводительные вычисления: измерение и настройка. SpringerBriefs in Computer Science. и др. Springer Science & Business Media (опубликовано в 2012 г.). стр. 8. ISBN 9781447144922. Получено 2014-07-08 . Исторически системы надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками на системах класса мэйнфреймов. [...] Система RAS должна представлять собой систематическое объединение программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы в соответствии с их индивидуальным потенциалом.
  5. ^ abc EJ McClusky & S. Mitra (2004). «Fault Tolerance» в Computer Science Handbook 2ed. ed. AB Tucker. CRC Press .
  6. ^ Спенсер, Ричард Х.; Флойд, Рэймонд Э. (11 июля 2011 г.). Перспективы инженерии. Блумингтон, Индиана: AuthorHouse (опубликовано в 2011 г.). стр. 33. ISBN 9781463410919. Получено 2014-05-05 . [...] системный сервер может иметь отличную доступность (работать вечно), но при этом по-прежнему часто повреждать данные (не очень надежный).
  7. ^ Дэниел Липец и Эрик Шварц (2011). "Самопроверка в текущих устройствах с плавающей точкой. Труды 20-го симпозиума IEEE по компьютерной арифметике 2011 года" (PDF) . Архивировано из оригинала (PDF) 2012-01-24 . Получено 2012-05-06 .
  8. ^ Л. Спейнхауэр и Т. А. Грегг (сентябрь 1999 г.). "Отказоустойчивость параллельного корпоративного сервера IBM S/390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5" (PDF) . CiteSeerX 10.1.1.85.5994 . 
  9. ^ "Технология воспроизведения инструкций Intel обнаруживает и исправляет ошибки" . Получено 2012-12-07 .
  10. ^ HP. "Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (стр. 8)" (PDF) . Архивировано из оригинала (PDF) 24.07.2011.
  11. ^ Intel Corp. (2003). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания».
  12. ^ "Лучшие практики обеспечения надежности данных с Oracle VM Server для SPARC" (PDF) . Получено 2013-07-02 .
  13. ^ "Соображения по избыточности питания IBM" . Получено 2013-07-02 .

Внешние ссылки