stringtranslate.com

Анализ прогнозируемых отказов

Прогностический анализ отказов ( PFA ) относится к методам, предназначенным для прогнозирования неминуемого отказа систем или компонентов (программного или аппаратного обеспечения) и потенциально позволяет использовать механизмы, позволяющие избегать или противодействовать проблемам сбоев, или рекомендовать техническое обслуживание систем до возникновения отказа.

Например, компьютерные механизмы, которые анализируют тенденции в исправленных ошибках для прогнозирования будущих отказов оборудования/компонентов памяти и проактивно включают механизмы для их избежания. Predictive Failure Analysis изначально использовался как термин для фирменной технологии IBM для мониторинга вероятности отказа жестких дисков , хотя сейчас этот термин используется в общем для различных технологий для оценки неизбежного отказа ЦП, памяти и устройств ввода-вывода. [1] См. также first failure data capture.

Диски

IBM представила термин PFA и соответствующую технологию в 1992 году в отношении своего накопителя 0662-S1x ( диск Fast-Wide SCSI-2 емкостью 1052 МБ , работающий со скоростью 5400 об/мин ).

Технология основана на измерении нескольких ключевых (в основном механических) параметров приводного блока, например, высоты полета головок . Прошивка привода сравнивает измеренные параметры с предопределенными пороговыми значениями и оценивает состояние работоспособности привода. Если привод, по всей вероятности, скоро выйдет из строя, система отправляет уведомление контроллеру диска.

К основным недостаткам технологии можно отнести:

Технология объединилась с IntelliSafe, образовав технологию самоконтроля, анализа и отчетности (SMART).

Процессор и память

Большое количество исправленных ECC периодических ошибок ОЗУ может быть предиктором будущих сбоев DIMM [2] , поэтому можно использовать автоматическое отключение памяти и кэшей ЦП, чтобы избежать будущих ошибок [3], например, в операционной системе Linux демон mcelog автоматически удалит из использования страницы памяти, показывающие чрезмерные исправления, и удалит из использования ядра процессора, показывающие чрезмерные ошибки памяти, поддающиеся исправлению. [4]

Оптические носители

На оптических носителях ( CD , DVD и Blu-ray ) сбои, вызванные деградацией носителя , можно предсказать, а носители низкого качества изготовления можно обнаружить до потери данных, измеряя частоту исправимых ошибок данных с помощью программного обеспечения, такого как QpxTool или Nero DiscSpeed . Однако не все производители и модели оптических приводов позволяют выполнять сканирование ошибок. [5]

Ссылки

  1. ^ Intel Corp (2011). "Семейство процессоров Intel Xeon E7: поддержка серверов RAS следующего поколения. Белая книга" . Получено 9 мая 2012 г.
  2. ^ Бьянка Шредер ; Эдуардо Пинейро; Вольф-Дитрих Вебер (2009). «Ошибки DRAM в дикой природе: крупномасштабное полевое исследование. Труды SIGMETRICS, 2009».
  3. ^ Тан, Аррутерс, Тотари, Шапиро (2006). "«Оценка влияния изъятия страниц памяти из обращения на устойчивость систем к сбоям оборудования», Труды Международной конференции по надежным системам и сетям 2006 года.{{cite news}}: CS1 maint: несколько имен: список авторов ( ссылка )
  4. ^ "mcelog - обработка ошибок памяти в пользовательском пространстве. Linux Kongress 2010" (PDF) . 2010.
  5. ^ Список поддерживаемых устройств с помощью программного обеспечения для сканирования документов QPxTool

Смотрите также