stringtranslate.com

Распределение данных

В компьютерном хранении данных чередование данных — это метод сегментации логически последовательных данных, таких как файл, таким образом, чтобы последовательные сегменты хранились на разных физических устройствах хранения.

Пример страйпинга данных. Файлы A и B, по четыре блока каждый, распределены по дискам D1–D3.

Чередование полезно, когда обрабатывающее устройство запрашивает данные быстрее, чем одно устройство хранения может их предоставить. Распределяя сегменты по нескольким устройствам, к которым можно получить доступ одновременно, увеличивается общая пропускная способность данных. Это также полезный метод балансировки нагрузки ввода-вывода по массиву дисков. Чередование используется по дисковым накопителям в избыточном массиве независимых дисков (RAID), контроллерах сетевых интерфейсов , дисковых массивах, различных компьютерах в кластерных файловых системах и сетевом хранилище , а также в оперативной памяти в некоторых системах.

Метод

Один из методов чередования заключается в чередовании последовательных сегментов на устройствах хранения в циклическом режиме с начала последовательности данных. Это хорошо работает для потоковых данных, но последующие случайные доступы потребуют знания того, какое устройство содержит данные. Если данные хранятся таким образом, что физическому адресу каждого сегмента данных назначается сопоставление один к одному определенному устройству, устройство для доступа к каждому запрошенному сегменту можно вычислить по адресу, не зная смещения данных в полной последовательности.

Могут использоваться и другие методы, в которых последовательные сегменты не хранятся на последовательных устройствах. Такое непоследовательное чередование может иметь преимущества в некоторых схемах исправления ошибок .

Преимущества и недостатки

Преимущества чередования включают производительность и пропускную способность. Последовательное временное чередование доступа к данным позволяет меньшую пропускную способность доступа к данным каждого устройства хранения кумулятивно умножить на количество используемых устройств хранения. Повышенная пропускная способность позволяет устройству обработки данных продолжать свою работу без перерыва и, таким образом, завершать свои процедуры быстрее. Это проявляется в улучшении производительности обработки данных.

Поскольку разные сегменты данных хранятся на разных устройствах хранения, отказ одного устройства приводит к повреждению всей последовательности данных. По сути, частота отказов массива устройств хранения равна сумме частот отказов каждого устройства хранения. Этот недостаток чередования можно преодолеть путем хранения избыточной информации, такой как четность , с целью исправления ошибок. В такой системе недостаток преодолевается за счет необходимости дополнительного хранилища.

Терминология

Сегменты последовательных данных, записанных на диск или считанных с него до того, как операция продолжится на следующем диске, обычно называются кусками , шагами или блоками полос , в то время как их логические группы, образующие отдельные полосовые операции, называются полосами или полосами . Количество данных в одном куске (блоке полос), часто выражаемое в байтах, по-разному называют размером куска , размером шага , размером полосы , глубиной полосы или длиной полосы . Количество дисков данных в массиве иногда называют шириной полосы , но это может также относиться к количеству данных в полосе. [1] [2] [3] [4]

Объем данных за один шаг, умноженный на количество дисков данных в массиве (т. е. глубина полосы , умноженная на ширину полосы , что в геометрической аналогии дало бы площадь) иногда называется размером полосы или шириной полосы . [5] Широкое чередование происходит, когда фрагменты данных распределяются по нескольким массивам, возможно, по всем дискам в системе. Узкое чередование происходит, когда фрагменты данных распределяются по дискам в одном массиве.

Приложения

Расщепление данных используется в некоторых базах данных , таких как Sybase , и в некоторых устройствах RAID под программным или аппаратным управлением, таких как подсистема массива IBM 9394 RAMAC. Файловые системы кластеров также используют расщепление. Oracle Automatic Storage Management позволяет файлам ASM быть либо грубо, либо тонко расщеплёнными.

РЕЙД
В некоторых конфигурациях RAID, таких как RAID 0 , отказ одного диска-участника массива RAID приводит к потере всех сохраненных данных. В других конфигурациях RAID, таких как RAID 5 , который содержит распределенную четность и обеспечивает избыточность , в случае отказа одного диска-участника данные можно восстановить с помощью других дисков массива.
ЛВМ2
Расщепление данных также может быть достигнуто с помощью Linux's Logical Volume Management (LVM). Система LVM позволяет регулировать грубость шаблона расщепления. Инструменты LVM позволят реализовать расщепление данных в сочетании с зеркалированием . LVM предлагает дополнительное преимущество кэширования чтения и записи на NVM Express для медленно вращающегося хранилища. LVM имеет и другие преимущества, которые не связаны напрямую с расщеплением данных (например, моментальные снимки, динамическое изменение размера и т. д.).
Btrfs и ZFS
Имеют функции, подобные RAID, но с безопасностью целостности фрагментов для обнаружения плохих блоков и дополнительной гибкостью добавления произвольного количества дополнительных дисков. Они также имеют другие преимущества, которые не связаны напрямую с чередованием данных (копирование при записи и т. д.).

Смотрите также

Ссылки

  1. ^ "Red Hat Enterprise Linux 6 storage administration guide, chapter 6. The ext4 file system". Red Hat . 9 октября 2014 . Получено 8 февраля 2015 .
  2. ^ "mdadm(8) – Linux man page". linux.die.net . Получено 8 февраля 2015 г. .
  3. ^ "Документация ядра Linux: настройка RAID". kernel.org . 11 ноября 2014 г. Получено 8 февраля 2015 г.
  4. ^ "RAID chunk size" (PDF) . xyratex.com . Январь 2008. стр. 6–7. Архивировано из оригинала (PDF) 1 августа 2014 г. Получено 8 февраля 2015 г.
  5. ^ "Глубина полосы — это размер полосы, иногда называемый единицей полосы. Ширина полосы — это произведение глубины полосы и количества дисков в наборе полос."