Буфер пакетной передачи

В среде высокопроизводительных вычислений буфер пакетов — это быстрый промежуточный уровень хранения, расположенный между процессами вычислений на стороне фронтенда и системами хранения на стороне бэкенда . Он устраняет разрыв в производительности между скоростью обработки вычислительных узлов и пропускной способностью ввода-вывода (I/O) систем хранения. Буферы пакетов часто создаются из массивов высокопроизводительных устройств хранения, таких как NVRAM и SSD . Обычно он обеспечивает пропускную способность ввода-вывода на один-два порядка выше, чем системы хранения на стороне бэкенда.

Варианты использования

Буферы пакетной обработки ускоряют перемещение научных данных на суперкомпьютерах . Например, жизненные циклы научных приложений обычно чередуются между фазами вычислений и фазами ввода-вывода. ^[1] А именно, после каждого раунда вычислений (т. е. фазы вычислений) все вычислительные процессы одновременно записывают свои промежуточные данные в системы хранения на внутреннем сервере (т. е. фазы ввода-вывода), за которыми следует еще один раунд вычислений и операций перемещения данных. С развертыванием буферов пакетной обработки процессы могут быстро записывать свои данные в буфер пакетной обработки после одного раунда вычислений, вместо записи в медленную систему хранения на основе жесткого диска, и немедленно переходить к следующему раунду вычислений, не дожидаясь перемещения данных в систему хранения на внутреннем сервере; ^[2]^[3] затем данные асинхронно сбрасываются из буфера пакетной обработки в систему хранения во время следующего раунда вычислений. Таким образом, длительное время ввода-вывода, затрачиваемое на перемещение данных в систему хранения, скрывается за временем вычислений. Кроме того, буферизация данных в буфере burst дает приложениям множество возможностей для изменения трафика данных в системах хранения данных на внутреннем уровне для эффективного использования полосы пропускания систем хранения. ^[4]^[5] В другом распространенном варианте использования научные приложения могут размещать свои промежуточные данные в буфере burst и из него, не взаимодействуя с более медленными системами хранения. Обход систем хранения позволяет приложениям реализовать большую часть преимуществ производительности от буфера burst. ^[6]

Типичные архитектуры буфера пакетной передачи

В высокопроизводительной вычислительной среде существуют две репрезентативные архитектуры буферов пакетов: локальный буфер пакетов и удаленный общий буфер пакетов. В архитектуре локального буфера пакетов хранилище буферов пакетов расположено на отдельном вычислительном узле, поэтому совокупная пропускная способность буфера пакетов растет линейно с количеством вычислительных узлов. Это преимущество масштабируемости было хорошо задокументировано в недавней литературе. ^[7]^[8]^[9]^[10] Это также связано с потребностью в масштабируемой стратегии управления метаданными для поддержания глобального пространства имен для данных, распределенных по всем буферам пакетов. ^[11]^[12] В архитектуре удаленного общего буфера пакетов хранилище буферов пакетов находится на меньшем количестве узлов ввода-вывода, расположенных между вычислительными узлами и внутренними системами хранения. Перемещение данных между вычислительными узлами и буфером пакетов должно осуществляться по сети. Размещение буфера пакетов на узлах ввода-вывода облегчает независимую разработку, развертывание и обслуживание службы буфера пакетов. Таким образом, было разработано несколько известных коммерческих программных продуктов для управления этим типом буфера burst, таких как DataWarp и Infinite Memory Engine. Поскольку суперкомпьютеры развертываются с несколькими гетерогенными слоями буфера burst, такими как NVRAM на вычислительных узлах и SSD на выделенных узлах ввода-вывода, возникает необходимость прозрачно перемещать данные между несколькими слоями хранения. ^[13]^[14]^[15]

Развертывание суперкомпьютеров с буфером пакетной обработки

Ввиду своей важности, буфер пакетов был широко развернут на суперкомпьютерах лидерского масштаба. Например, локальный буфер пакетов установлен на суперкомпьютере DASH в Сан-Диегоском суперкомпьютерном центре , ^[16] суперкомпьютерах Tsubame в Токийском технологическом институте , суперкомпьютерах Theta и Aurora в Аргоннской национальной лаборатории , суперкомпьютере Summit в Ок-Риджской национальной лаборатории и суперкомпьютере Sierra в Ливерморской национальной лаборатории им. Лоуренса и т. д. Удаленный общий буфер пакетов принят на суперкомпьютере Tianhe-2 в Национальном суперкомпьютерном центре в Гуанчжоу , суперкомпьютере Trinity в Лос-Аламосской национальной лаборатории , суперкомпьютере Cori в Лоуренсовской национальной лаборатории в Беркли и суперкомпьютере ARCHER2 в Эдинбургском центре параллельных вычислений .

Ссылки

^ Лю, Чжо; Лофстед, Джей; Ван, Тен; Ю, Вэйкуань (сентябрь 2013 г.). «Пример системного управления питанием для научных приложений». Международная конференция IEEE по кластерным вычислениям (CLUSTER) 2013 г. IEEE. стр. 1–8. doi :10.1109/CLUSTER.2013.6702681. ISBN 978-1-4799-0898-1. S2CID 6156410.
^ Ван, Тенг; Орал, Сарп; Ван, Яньдун; Сеттлмайер, Брэд; Этчли, Скотт; Ю, Вэйкуань (октябрь 2014 г.). «BurstMem: высокопроизводительная система буферизации пакетов для научных приложений». Международная конференция IEEE по большим данным (Big Data) 2014 г. IEEE. стр. 71–79. doi :10.1109/BigData.2014.7004215. ISBN 978-1-4799-5666-1. ОСТИ 1150929. S2CID 16764901.
^ Лю, Нин; Коуп, Джейсон; Карнс, Филип; Карозерс, Кристофер; Росс, Роберт; Грайдер, Гэри; Крам, Адам; Мальтзан, Карлос (апрель 2012 г.). «О роли буферов пакетной передачи в системах хранения данных Leadership-Class». 012 IEEE 28-й симпозиум по системам и технологиям массового хранения данных (MSST) . IEEE. стр. 1–11. doi :10.1109/MSST.2012.6232369. ISBN 978-1-4673-1747-4. S2CID 9676920.
^ Ван, Тенг; Орал, Сарп; Притчард, Майкл; Ван, Бин; Ю, Вэйкуань (сентябрь 2015 г.). «TRIO: Burst Buffer Based I/O Orchestration». Международная конференция IEEE по кластерным вычислениям 2015 г. IEEE. стр. 194–203. doi :10.1109/CLUSTER.2015.38. ISBN 978-1-4673-6598-7. ОСТИ 1265517. S2CID 12482308.
^ Коугкас, Энтони; Дорье, Матье; Латам, Роб; Росс, Роб; Сан, Сянь-Хэ (март 2017 г.). «Использование координации буфера пакетов для предотвращения помех ввода-вывода». 12-я международная конференция IEEE по электронной науке (E-Science) 2016 г. IEEE. стр. 371–380. doi :10.1109/eScience.2016.7870922. ISBN 978-1-5090-4273-9. ОСТИ 1366308. S2CID 14514395.
^ Ван, Тенг; Морор, Кэтрин; Муди, Адам; Сато, Кенто; Ю, Вэйкуань (ноябрь 2016 г.). «Файловая система с эфемерным пакетным буфером для научных приложений». SC16: Международная конференция по высокопроизводительным вычислениям, сетевым технологиям, хранению и анализу . IEEE. стр. 807–818. doi :10.1109/SC.2016.68. ISBN 978-1-4673-8815-3. S2CID 260667.
^ «BurstFS: распределенная файловая система Burst Buffer для научных приложений» (PDF) . Ноябрь 2015 г.
^ Муди, Адам; Броневецки, Грег; Морор, Кэтрин; Супински, Бронис Р. де (ноябрь 2010 г.). «Проектирование, моделирование и оценка масштабируемой многоуровневой системы контрольных точек». Международная конференция ACM/IEEE 2010 г. по высокопроизводительным вычислениям, сетевым технологиям, хранению и анализу . ACM. стр. 1–11. doi :10.1109/SC.2010.18. ISBN 978-1-4244-7557-5. S2CID 7352923.
^ Раджачандрасекар, Рагхунат; Муди, Адам; Морор, Кэтрин; Панда, Дхабалешвар К. (ДК) (июнь 2013 г.). "Файловая система 1 ПБ/с для контрольных точек трех миллионов задач MPI" (PDF) . Труды 22-го международного симпозиума по высокопроизводительным параллельным и распределенным вычислениям - HPDC '13 . ACM. стр. 143. doi :10.1145/2493123.2462908. ISBN 9781450319102.
^ Чжао, Дунфан; Чжан, Чжао; Чжоу, Сяобин; Ли, Тунлинь; Ван, Кэ; Кимпе, Драйс; Карнс, Филип; Росс, Роберт; Райку, Иоан (октябрь 2014 г.). «FusionFS: На пути к поддержке научных приложений с интенсивным использованием данных в высокопроизводительных вычислительных системах экстремального масштаба». Международная конференция IEEE по большим данным (Big Data) 2014 г. IEEE. стр. 61–70. doi :10.1109/BigData.2014.7004214. ISBN 978-1-4799-5666-1. S2CID 5288472.
^ Ван, Тенг; Муди, Адам; Чжу, Юэ; Морор, Кэтрин; Сато, Кенто; Ислам, Танзима; Ю, Вэйкуань (май 2017 г.). «MetaKV: хранилище ключей и значений для управления метаданными распределенных пакетных буферов». 2017 IEEE International Parallel and Distributed Processing Symposium (IPDPS) . IEEE. стр. 1174–1183. doi :10.1109/IPDPS.2017.39. ISBN 978-1-5386-3914-6. S2CID 8148699.
^ Ли, Тонглинь; Чжоу, Сяобин; Брандстаттер, Кевин; Чжао, Дунфан; Ван, Ке; Раджендра, Анупам; Чжан, Чжао; Райку, Иоан (май 2013 г.). "ZHT: легковесная надежная устойчивая динамическая масштабируемая распределенная хэш-таблица с нулевым переходом". 2013 IEEE 27-й международный симпозиум по параллельной и распределенной обработке . IEEE. стр. 775–787. CiteSeerX 10.1.1.365.7329 . doi :10.1109/IPDPS.2013.110. ISBN 978-1-4673-6066-1. S2CID 16614868.
^ Ван, Тенг; Байна, Сурен; Донг, Бин; Тан, Хоуцзюнь (сентябрь 2018 г.). «UniviStor: интегрированное иерархическое и распределенное хранилище для HPC». Международная конференция IEEE по кластерным вычислениям (CLUSTER) 2018 г. IEEE. стр. 134–144. doi :10.1109/CLUSTER.2018.00025. ISBN 978-1-5386-8319-4. S2CID 53235423.
^ "Hermes: многоуровневая распределенная система буферизации ввода-вывода с поддержкой гетерогенности". ACM. Июнь 2018 г. doi : 10.1145/3208040.3208059 . S2CID 47019714. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Тан, Хоуцзюнь; Байна, Сурен; Тессье, Франсуа; Ван, Тенг; Донг, Бин; Му, Цзинцин; Козиол, Куинси; Сумань, Джером; Вишванат, Венкатрам; Лю, Цзялинь; Уоррен, Ричард (май 2018 г.). «К масштабируемому и асинхронному объектно-ориентированному управлению данными для HPC». 2018 18-й Международный симпозиум IEEE/ACM по кластерным, облачным и грид-вычислениям (CCGRID). IEEE. стр. 113–122. doi :10.1109/CCGRID.2018.00026. ISBN 978-1-5386-5815-4. S2CID 13811397.
^ Хе, Цзяхуа; Джагатесан, Арун; Гупта, Сандип; Беннетт, Джеффри; Снавели, Аллан (ноябрь 2010 г.). «DASH: рецепт создания суперкомпьютера с большой емкостью флэш-памяти» (PDF) . Международная конференция ACM/IEEE 2010 г. по высокопроизводительным вычислениям, сетевым технологиям, хранению и анализу . ACM. стр. 1–11. doi :10.1109/SC.2010.16. ISBN 978-1-4244-7557-5. S2CID 7349294.

Внешние ссылки

Cray DataWarp Архивировано 13 мая 2017 г. в Wayback Machine — системе буферизации производственных пакетов, разработанной Cray.
Infinite Memory Engine Архивировано 16 февраля 2017 г. в Wayback Machine , системе буферизации производственных пакетов, разработанной Data Direct Network.
Суперкомпьютер Theta — суперкомпьютер, расположенный в Аргоннской национальной лаборатории.
Суперкомпьютер Summit — суперкомпьютер, расположенный в Окриджской национальной лаборатории.
Суперкомпьютер Sierra — суперкомпьютер, размещенный в Национальной лаборатории имени Лоуренса.
Суперкомпьютер Trinity — суперкомпьютер, расположенный в Лос-Аламосской национальной лаборатории.
Суперкомпьютер Cori Архивировано 26 мая 2017 г. на Wayback Machine , суперкомпьютере, размещенном в Национальной лаборатории Лоуренса в Беркли.