stringtranslate.com

Локстеп (вычисления)

Системы Lockstep — это отказоустойчивые компьютерные системы , которые одновременно выполняют один и тот же набор операций параллельно . [1] Резервирование (дублирование) позволяет обнаруживать и исправлять ошибки: выходные данные синхронных операций можно сравнивать, чтобы определить, произошла ли неисправность, если имеется как минимум две системы ( двойное модульное резервирование ), и ошибка может быть автоматически устранена . исправляется, если имеется хотя бы три системы ( тройное модульное резервирование ), большинством голосов. Термин « шаг » происходит от армейского использования, где он относится к синхронной ходьбе, при которой участники марша идут настолько близко друг к другу, насколько это физически возможно.

Чтобы работать синхронно, каждая система настроена на переход от одного четко определенного состояния к следующему четко определенному состоянию. Когда новый набор входных данных поступает в систему, она обрабатывает их, генерирует новые выходные данные и обновляет свое состояние. Считается, что этот набор изменений (новые входные данные, новые выходные данные, новое состояние) определяет этот шаг и должен рассматриваться как атомарная транзакция; другими словами, либо происходит все, либо ничего из этого не происходит, но не что-то среднее. Иногда между системами устанавливается временной сдвиг (задержка), что увеличивает вероятность обнаружения ошибок, вызванных внешними воздействиями (например, скачками напряжения , ионизирующим излучением или обратным инжинирингом на месте ).

Стабильная память

Некоторые поставщики, в том числе Intel, используют термин «фиксированная память» для описания многоканальной схемы памяти, в которой строки кэша распределяются между двумя каналами памяти, поэтому половина строки кэша хранится в модуле DIMM на первом канале, а вторая — в модуле DIMM. половина идет в модуль DIMM на втором канале. Объединив возможности исправления одиночных ошибок и обнаружения двойных ошибок (SECDED) двух модулей DIMM с поддержкой ECC в последовательной компоновке, их природа коррекции данных одного устройства (SDDC) может быть расширена до коррекции данных двух устройств (DDDC), обеспечивая защиту от выхода из строя любого отдельного чипа памяти. [2] [3] [4] [5]

Недостатками жесткой схемы памяти Intel являются уменьшение эффективно используемого объема оперативной памяти (в случае трехканальной схемы памяти максимальный объем памяти уменьшается до одной трети от физически доступного максимума) и снижение производительности подсистемы памяти. [2] [4]

Двойное модульное резервирование

Если вычислительные системы дублируются, но обе активно обрабатывают каждый шаг, между ними трудно определиться, если их выходные данные различаются в конце шага. По этой причине общепринятой практикой является запуск систем DMR в конфигурации «главный/подчиненный», где подчиненное устройство выступает в качестве «горячего резерва» по отношению к главному, а не в режиме синхронного режима. Поскольку нет никакого преимущества в том, чтобы ведомое устройство активно обрабатывало каждый шаг, общий метод работы заключается в том, что ведущее устройство копирует свое состояние в конце обработки каждого шага на ведомое устройство. Если в какой-то момент ведущий выйдет из строя, ведомый готов продолжить с предыдущего известного удачного шага.

Хотя подход lockstep или DMR (в сочетании с некоторыми средствами обнаружения ошибок в ведущем устройстве) могут обеспечить резервирование на случай аппаратных сбоев ведущего устройства, они не защищают от ошибок программного обеспечения. Если ведущее устройство выходит из строя из-за ошибки программного обеспечения, весьма вероятно, что ведомое устройство, пытаясь повторить выполнение шага, на котором произошел сбой, просто повторит ту же ошибку и потерпит неудачу таким же образом, пример отказа общего режима . .

Тройное модульное резервирование

Когда вычислительные системы утроены, их становится возможным рассматривать как системы «голосования». Если выходные данные одного устройства не совпадают с выходными данными двух других, оно считается неисправным. Совпадающие выходные данные двух других считаются правильными.

Смотрите также

Рекомендации

  1. ^ Стефан Поледна (1996). Отказоустойчивые системы реального времени: проблема репликационного детерминизма. п. 80. ИСБН 9780585295800. Проверено 8 сентября 2014 г.
  2. ^ аб Шри Шьямалакумари (18 февраля 2014 г.). «Технический обзор семейства процессоров Intel Xeon E7 V2, раздел 3.1: Масштабируемый буфер памяти Intel C104/102». Интел . Проверено 9 сентября 2014 г.
  3. ^ Томас Вильхальм (11 июля 2014 г.). «Независимый канал или режим фиксированного шага: управляйте своей памятью быстрее или безопаснее». Интел . Проверено 9 сентября 2014 г.
  4. ^ ab «Рекомендации по передовому опыту для серверов ProLiant с процессорами Intel Xeon серии 5500. Технический документ, 1-е издание» (PDF) . ХП . Май 2009 г., стр. 8–9 . Проверено 9 сентября 2014 г.
  5. ^ «Технические данные масштабируемого буфера памяти Intel C102/C104, раздел 1.3.1.2.2: Режим блокировки подканала 1:1» (PDF) . Интел . Февраль 2014. с. 9 . Проверено 25 января 2015 г.

Внешние ссылки