Хоппер (микроархитектура)

Hopper — это микроархитектура графического процессора (GPU), разработанная Nvidia . Он предназначен для центров обработки данных и является параллельным Ada Lovelace .

Архитектура Hopper , названная в честь ученого-компьютерщика и контр-адмирала ВМС США Грейс Хоппер , просочилась в ноябре 2019 года и официально была представлена в марте 2022 года. Она совершенствует свои предшественники, микроархитектуры Turing и Ampere , с новым потоковым мультипроцессором и более быстрой подсистемой памяти. .

Архитектура

Графический процессор Nvidia Hopper H100 реализован с использованием процесса TSMC 4N с 80 миллиардами транзисторов. Он состоит из 144 потоковых мультипроцессоров . ^[1] В SXM5 Nvidia Hopper H100 обеспечивает лучшую производительность, чем PCIe . ^[2]

Потоковый мультипроцессор

Потоковые мультипроцессоры для Hopper улучшают микроархитектуры Turing и Ampere , хотя максимальное количество одновременных деформаций на один потоковый мультипроцессор (SM) остается одинаковым для архитектур Ampere и Hopper — 64. ^[3] Архитектура Hopper обеспечивает тензорный ускоритель памяти ( TMA), который поддерживает двунаправленную асинхронную передачу памяти между общей и глобальной памятью. ^[4] В рамках ТМА приложения могут передавать до 5D тензоров. При записи из общей памяти в глобальную память можно использовать поэлементное сокращение и побитовые операторы, избегая регистров и инструкций SM, позволяя пользователям писать специализированные коды деформации. ТМА подвергается воздействию через cuda::memcpy_async^[5]

При распараллеливании приложений разработчики могут использовать кластеры блоков потоков . Блоки потоков могут выполнять атомарные операции в общей памяти других блоков потоков в своем кластере, иначе известной как распределенная общая память . Распределенная общая память может использоваться SM одновременно с кэшем L2 ; при использовании для передачи данных между SM это может использовать объединенную полосу пропускания распределенной общей памяти и L2. Максимальный размер портативного кластера — 8, хотя Nvidia Hopper H100 может поддерживать размер кластера 16 с помощью этой cudaFuncAttributeNonPortableClusterSizeAllowedфункции, возможно, за счет уменьшения количества активных блоков. ^[6] При многоадресной рассылке L2 и распределенной общей памяти требуемая полоса пропускания для чтения и записи динамической памяти с произвольным доступом снижается. ^[7]

Hopper отличается улучшенной пропускной способностью формата одинарной точности с плавающей запятой (FP32): вдвое больше операций FP32 за цикл на SM, чем у его предшественника. Кроме того, в архитектуре Хоппера добавлена поддержка новых инструкций, включая алгоритм Смита-Уотермана . ^[6] Как и Ampere, поддерживается арифметика TensorFloat-32 (TF-32). Шаблон сопоставления для обеих архитектур идентичен. ^[8]

Память

Nvidia Hopper H100 поддерживает память HBM3 и HBM2e объемом до 80 ГБ; Система памяти HBM3 поддерживает скорость 3 ТБ/с, что на 50% больше, чем у Nvidia Ampere A100, которая обеспечивает скорость 2 ТБ/с. Во всей архитектуре были увеличены емкость и пропускная способность кэша L2. ^[9]

Hopper позволяет вычислительным ядрам CUDA использовать автоматическое встроенное сжатие, в том числе при индивидуальном выделении памяти, что обеспечивает доступ к памяти с более высокой пропускной способностью. Эта функция не увеличивает объем памяти, доступной приложению, поскольку данные (и, следовательно, их сжимаемость ) могут быть изменены в любое время. Компрессор автоматически выберет один из нескольких алгоритмов сжатия. ^[9]

Nvidia Hopper H100 увеличивает емкость объединенного кэша L1, кэша текстур и общей памяти до 256 КБ. Как и его предшественники, он объединяет кэши L1 и текстур в единый кэш, предназначенный для использования в качестве объединяющего буфера. Атрибут cudaFuncAttributePreferredSharedMemoryCarveoutможет использоваться для определения выделения кэша L1. Hopper представляет усовершенствования NVLink нового поколения, обеспечивающие более высокую общую пропускную способность связи. ^[10]

Домены синхронизации памяти

Некоторые приложения CUDA могут испытывать помехи при выполнении операций ограничения или очистки из-за упорядочивания памяти. Поскольку графический процессор не может знать, какие записи гарантированы, а какие видны по случайному времени, он может ожидать ненужных операций с памятью, тем самым замедляя операции ограничения или очистки. Например, когда ядро выполняет вычисления в памяти графического процессора, а параллельное ядро осуществляет связь с одноранговым узлом, локальное ядро сбрасывает свои записи, что приводит к замедлению записи NVLink или PCIe . В архитектуре Hopper графический процессор может уменьшить забрасывание сети за счет операции ограждения. ^[11]

Инструкции DPX

Интерфейс прикладного программирования математических приложений (API) архитектуры Хоппера предоставляет функции в SM, такие как __viaddmin_s16x2_relu, который выполняет полуслово . В алгоритме Смита-Уотермана можно использовать трехпозиционный минимум или максимум, за которым следует привязка к нулю. ^[12] Аналогичным образом, Хоппер ускоряет реализацию алгоритма Нидлмана-Вунша . ^[13] ${\ displaystyle max (min (a + b, c), 0)}$ __vimax3_s16x2_relu

Трансформаторный двигатель

В архитектуре Hopper используется двигатель-трансформер. ^[14]

Энергоэффективность

Форм-фактор SXM5 H100 имеет расчетную тепловую мощность (TDP) 700 Вт . Что касается асинхронности, архитектура Hopper может достичь высокой степени использования и, следовательно, иметь более высокую производительность на ватт. ^[15]

История

В ноябре 2019 года известный аккаунт в Твиттере опубликовал твит, в котором говорилось, что следующая архитектура после Ampere будет называться Hopper, в честь ученого-компьютерщика и контр-адмирала ВМС США Грейс Хоппер , одного из первых программистов Гарвардского Mark I. В сообщении говорилось, что Hopper будет основан на конструкции многочипового модуля , что приведет к увеличению производительности при меньших потерях. ^[16]

Во время Nvidia GTC 2022 года Nvidia официально анонсировала Hopper. ^[17]

дальнейшее чтение

Шокетт, Джек (май 2023 г.). «Графический процессор NVIDIA Hopper H100: масштабирование производительности». IEEE микро . 43 (3): 9–17. дои : 10.1109/MM.2023.3256796. S2CID 257544490 . Проверено 29 мая 2023 г.
Мур, Сэмюэл (8 апреля 2022 г.). «Следующий графический процессор Nvidia показывает, что трансформеры преобразуют искусственный интеллект». IEEE-спектр . Проверено 29 мая 2023 г.
Морган, Тимоти (31 марта 2022 г.). «Глубокое погружение в архитектуру графического процессора Nvidia Hopper». Следующая платформа . Проверено 29 мая 2023 г.