Плот (алгоритм)

Raft — это алгоритм консенсуса , разработанный как альтернатива семейству алгоритмов Paxos . Он должен был быть более понятным, чем Paxos, за счет разделения логики, но он также формально доказано безопасен и предлагает некоторые дополнительные функции. ^[1] Raft предлагает общий способ распределения конечного автомата по кластеру вычислительных систем, гарантируя, что каждый узел в кластере согласует одну и ту же серию переходов состояний. Он имеет ряд реализаций с открытым исходным кодом, с реализациями полной спецификации на Go , C++ , Java и Scala . ^[2] Он назван в честь Reliable, Replicated, Redundant, And Fault-Tolerant. ^[3]

Raft не является алгоритмом византийской отказоустойчивости (BFT); узлы доверяют избранному лидеру. ^[1]

Основы

Raft достигает консенсуса через избранного лидера. Сервер в кластере raft является либо лидером , либо последователем и может быть кандидатом в конкретном случае выборов (лидер недоступен). Лидер отвечает за репликацию журнала последователям. Он регулярно информирует последователей о своем существовании, отправляя сообщение heartbeat. У каждого последователя есть тайм-аут (обычно от 150 до 300 мс), в течение которого он ожидает heartbeat от лидера. Тайм-аут сбрасывается при получении heartbeat. Если heartbeat не получен, последователь меняет свой статус на кандидата и начинает выборы лидера. ^[1]^[4]

Подход к проблеме консенсуса в Raft

Raft реализует консенсус с помощью подхода лидера. Кластер имеет одного и только одного избранного лидера, который полностью отвечает за управление репликацией журналов на других серверах кластера. Это означает, что лидер может принимать решения о размещении новых записей и установлении потока данных между ним и другими серверами, не консультируясь с другими серверами. Лидер лидирует до тех пор, пока не выйдет из строя или не отключится, в этом случае выжившие серверы выбирают нового лидера.

Проблема консенсуса разлагается в Raft на две относительно независимые подзадачи, перечисленные ниже.

Выборы лидера

В случае отказа действующего лидера или при инициализации алгоритма необходимо выбрать нового лидера.

В этом случае в кластере начинается новый срок . Срок — это произвольный период времени на сервере, на который необходимо выбрать нового лидера. Каждый срок начинается с выборов лидера. Если выборы завершены успешно (т. е. избран один лидер), срок продолжается с обычными операциями, организованными новым лидером. Если выборы не увенчались успехом, начинается новый срок с новых выборов.

Выборы лидера начинаются сервером- кандидатом . Сервер становится кандидатом, если он не получает сообщения от лидера в течение периода, называемого тайм-аутом выборов , поэтому он предполагает, что действующего лидера больше нет. Он начинает выборы, увеличивая счетчик сроков, голосуя за себя как за нового лидера и отправляя сообщение всем другим серверам с просьбой проголосовать за них. Сервер будет голосовать только один раз за срок, по принципу «первым пришел — первым обслужен». Если кандидат получает сообщение от другого сервера с номером срока, большим, чем текущий срок кандидата, то выборы кандидата считаются недействительными, и кандидат становится последователем и признает лидера законным. Если кандидат получает большинство голосов, то он становится новым лидером. Если ни то, ни другое не происходит, например, из-за разделения голосов, то начинается новый срок и новые выборы. ^[1]

Raft использует рандомизированный тайм-аут выборов, чтобы гарантировать быстрое решение проблем с разделением голосов. Это должно снизить вероятность разделения голосов, поскольку серверы не станут кандидатами одновременно: один сервер выйдет из строя, выиграет выборы, затем станет лидером и отправит сообщения heartbeat другим серверам, прежде чем кто-либо из последователей сможет стать кандидатами. ^[1]

Репликация журнала

Лидер отвечает за репликацию журнала. Он принимает клиентские запросы. Каждый клиентский запрос состоит из команды, которая должна быть выполнена реплицированными конечными автоматами в кластере. После добавления в журнал лидера в качестве новой записи каждый из запросов пересылается последователям в виде сообщений AppendEntries. В случае недоступности последователей лидер повторяет сообщения AppendEntries неограниченное количество раз, пока запись журнала в конечном итоге не будет сохранена всеми последователями.

Как только лидер получает подтверждение от более чем половины своих последователей о том, что запись была реплицирована, лидер применяет запись к своей локальной машине состояний, и запрос считается зафиксированным . ^[1]^[4] Это событие также фиксирует все предыдущие записи в журнале лидера. Как только последователь узнает, что запись журнала зафиксирована, он применяет запись к своей локальной машине состояний. Это обеспечивает согласованность журналов между всеми серверами через кластер, гарантируя, что соблюдается правило безопасности Log Matching.

В случае сбоя лидера журналы могут остаться несогласованными, так как некоторые журналы старого лидера не будут полностью реплицированы через кластер. Новый лидер затем будет обрабатывать несогласованность, заставляя последователей дублировать свой собственный журнал. Чтобы сделать это, для каждого из своих последователей лидер сравнит свой журнал с журналом последователя, найдет последнюю запись, где они совпадают, затем удалит все записи, идущие после этой критической записи в журнале последователя, и заменит ее своими собственными записями журнала. Этот механизм восстановит согласованность журнала в кластере, подверженном сбоям.

Безопасность

Правила безопасности на плоту

Raft гарантирует каждое из следующих свойств безопасности:

Безопасность выборов: в течение одного срока может быть избран не более одного лидера.
Лидер может только добавлять новые записи: лидер может только добавлять новые записи в свои журналы (он не может ни перезаписывать, ни удалять записи).
Сопоставление журналов: если два журнала содержат запись с одинаковым индексом и термином, то журналы идентичны во всех записях вплоть до указанного индекса.
Полнота лидера: если запись в журнале зафиксирована в определенном термине, то она будет присутствовать в журналах лидеров, начиная с этого термина.
Безопасность конечного автомата: если сервер применил определенную запись журнала к своему конечному автомату, то никакой другой сервер не может применить другую команду для того же журнала.

Первые четыре правила гарантируются деталями алгоритма, описанными в предыдущем разделе. Безопасность государственного аппарата гарантируется ограничением на процесс выборов.

Безопасность государственной машины

Это правило обеспечивается простым ограничением: кандидат не может победить на выборах, если его журнал не содержит все зафиксированные записи. Чтобы быть избранным, кандидат должен связаться с большинством кластера, и, учитывая правила фиксации журналов, это означает, что каждая зафиксированная запись будет присутствовать по крайней мере на одном из серверов, с которыми связываются кандидаты.

Raft определяет, какой из двух журналов (передаваемых двумя разными серверами) является более актуальным, сравнивая индексный термин последних записей в журналах. Если журналы имеют последнюю запись с разными терминами, то журнал с более поздним термином является более актуальным. Если журналы заканчиваются одним и тем же термином, то тот журнал, который длиннее, является более актуальным.

В Raft запрос кандидата к избирателю включает информацию о журнале кандидата. Если его собственный журнал более актуален, чем журнал кандидата, избиратель отказывает в голосовании кандидату. Такая реализация обеспечивает правило безопасности машины состояний.

Сбои последователей

Если подписчик выходит из строя, AppendEntries и запросы на голосование , отправленные другими серверами, не будут выполнены. Такие сбои обрабатываются серверами, которые пытаются бесконечно достучаться до упавшего подписчика. Если подписчик перезапускается, ожидающие запросы будут завершены. Если запрос уже был учтен до сбоя, перезапущенный подписчик просто проигнорирует его.

Сроки и доступность

Время имеет решающее значение в Raft для выбора и поддержания устойчивого лидера с течением времени, чтобы иметь идеальную доступность кластера. Стабильность обеспечивается за счет соблюдения требования алгоритма к времени :

broadcastTime << electionTimeout << MTBF

broadcastTime — это среднее время, которое требуется серверу для отправки запроса каждому серверу в кластере и получения ответов. Оно зависит от используемой инфраструктуры.
MTBF (Mean Time Between Failures) — среднее время между отказами сервера. Оно также зависит от инфраструктуры.
electionTimeout — то же самое, что описано в разделе «Выборы лидера». Это то, что должен выбрать программист.

Типичные числа для этих значений могут быть от 0,5 мс до 20 мс для broadcastTime , что подразумевает, что программист устанавливает electionTimeout где-то между 10 мс и 500 мс. Между сбоями одного сервера может пройти несколько недель или месяцев, что означает, что значения достаточны для стабильного кластера.

Производственное использование Raft

CockroachDB использует Raft на уровне репликации. ^[5]
Etcd использует Raft для управления высокодоступным реплицированным журналом ^[6]
Hazelcast использует Raft для предоставления своей подсистемы CP, строго согласованного уровня для распределенных структур данных. ^[7]
MongoDB использует вариант Raft в наборе репликации.
Neo4j использует Raft для обеспечения согласованности и безопасности. ^[8]
RabbitMQ использует Raft для реализации надежных, реплицируемых очередей FIFO. ^[9]
ScyllaDB использует Raft для метаданных (изменения схемы и топологии) ^[10]
Splunk Enterprise использует Raft в кластере поисковых головок (SHC) ^[11]
TiDB использует Raft с механизмом хранения данных TiKV. ^[12]
YugabyteDB использует Raft в репликации DocDB ^[13]
ClickHouse использует Raft для внутренней реализации сервиса, подобного ZooKeeper ^[14]
Redpanda использует алгоритм консенсуса Raft для репликации данных ^[15]
Apache Kafka Raft (KRaft) использует Raft для управления метаданными. ^[16]
NATS Messaging использует алгоритм консенсуса Raft для управления кластером Jetstream и репликации данных ^[17]
Camunda использует алгоритм консенсуса Raft для репликации данных ^[18]

Ссылки

^ abcdef Онгаро, Диего; Оустерхаут, Джон (2013). «В поисках понятного алгоритма консенсуса» (PDF) .
^ «Алгоритм консенсуса Raft». 2014.
^ Почему название «Плот»?
^ ab Ben B. Johnson. "Raft: Understanding Distributed Consensus". Сайт The Secret Lives of Data . Получено 4 августа 2021 г.
^ "Уровень репликации | Документация CockroachDB". www.cockroachlabs.com . Получено 2022-06-21 .
^ "Raft README". github.com . Получено 2022-08-25 .
^ "CP Subsystem". docs.hazelcast.com . Получено 2022-12-24 .
^ "Лидерство, маршрутизация и балансировка нагрузки - Руководство по эксплуатации". Neo4j Graph Data Platform . Получено 2022-11-30 .
^ "Quorum Queues". RabbitMQ . Получено 2022-12-14 .
^ «Путь ScyllaDB к строгой согласованности: новая веха».
^ "Handle Raft issues". Splunk . 2022-08-24 . Получено 2022-08-24 .
^ "Raft и высокая доступность". PingCAP . 2021-09-01 . Получено 2022-06-21 .
^ "Репликация | Документация YugabyteDB". www.yugabyte.com . Получено 2022-08-19 .
^ "ClickHouse Keeper". clickhouse.com . Получено 2023-04-26 .
^ «Алгоритм консенсуса Raft».
^ "Обзор KRaft | Документация Confluent". docs.confluent.io . Получено 2024-04-13 .
^ «Кластеризация JetStream».
^ «Протокол консенсуса и репликации Raft».

Внешние ссылки

Официальный сайт