Blackwell — микроархитектура графического процессора (GPU), разработанная компанией Nvidia в качестве преемника микроархитектур Hopper и Ada Lovelace .
Названная в честь статистика и математика Дэвида Блэквелла , архитектура Blackwell была раскрыта в 2022 году, а ускорители B40 и B100 были подтверждены в октябре 2023 года с официальной дорожной картой Nvidia, показанной во время презентации для инвесторов. [1] Она была официально анонсирована на программном докладе Nvidia GTC 2024 18 марта 2024 года. [2]
В марте 2022 года Nvidia анонсировала архитектуру Hopper для центра обработки данных для ускорителей ИИ. Спрос на продукты Hopper был высоким на протяжении всего ажиотажа вокруг ИИ в 2023 году. [3] Время выполнения заказа до поставки серверов на базе H100 составляло от 36 до 52 недель из-за дефицита и высокого спроса. [4] Сообщается, что Nvidia продала 500 000 ускорителей H100 на базе Hopper только в третьем квартале 2023 года. [4] Доминирование Nvidia в области ИИ с продуктами Hopper привело к тому, что компания увеличила свою рыночную капитализацию до более чем 2 триллионов долларов, уступив только Microsoft и Apple . [5]
Архитектура Blackwell названа в честь американского математика Дэвида Блэквелла , который был известен своим вкладом в математические области теории игр , теории вероятностей , теории информации и статистики. Эти области оказали влияние или были реализованы в основанных на трансформаторах генеративных моделях ИИ или их обучающих алгоритмах . Блэквелл был первым афроамериканским ученым, принятым в Национальную академию наук . [6]
В презентации для инвесторов от октября 2023 года компания Nvidia обновила дорожную карту своего центра обработки данных, включив в нее ссылку на ускорители B100 и B40 и архитектуру Blackwell. [7] [8] Ранее преемник Hopper был просто назван в дорожных картах «Hopper-Next». В обновленной дорожной карте Nvidia подчеркивался переход от двухлетнего периода выпуска продуктов для центров обработки данных к ежегодным выпускам, ориентированным на системы x86 и ARM .
На конференции по графическим технологиям (GTC) 18 марта 2024 года компания Nvidia официально анонсировала архитектуру Blackwell, сосредоточившись на своих ускорителях центров обработки данных B100 и B200 и связанных с ними продуктах, таких как плата HGX B200 с восемью графическими процессорами и стоечная система NVL72 с 72 графическими процессорами. [9] Судя по опубликованным показателям мощности и производительности, похоже, что B100 и B200 представляют собой один и тот же кремний, но первый работает на 75% тактовой частоты B200. [10] Генеральный директор Nvidia Дженсен Хуанг сказал, что с Blackwell «мы создали процессор для эпохи генеративного ИИ », и подчеркнул общую платформу Blackwell, объединяющую ускорители Blackwell с процессором Nvidia Grace на базе ARM. [11] [12] Nvidia рекламировала одобрение Blackwell со стороны генеральных директоров Google , Meta , Microsoft , OpenAI и Oracle . [12] В программном докладе не упоминались игры.
К ноябрю 2024 года Morgan Stanley сообщал, что «весь объём производства 2025 года» чипов Blackwell «уже распродан» [13] .
Blackwell — это архитектура, разработанная как для вычислительных приложений в центрах обработки данных, так и для игровых и рабочих станций с выделенными кристаллами для каждой цели. Предполагаемые утечки указывают на то, что кристаллы для ноутбуков будут иметь кодовое название GN22-Xx, а соответствующие карты GeForce RTX Mobile GPU будут иметь кодовое название GB20x. [14] Подобно последнему обозначению, GB200 и GB100 — это торговые марки суперчипов для центров обработки данных Grace Blackwell от Nvidia, модулей, объединяющих два графических процессора Blackwell и один процессор Grace на базе Arm. [15]
Blackwell изготавливается на заказном узле 4NP от TSMC . 4NP — это усовершенствование узла 4N, используемого для архитектур Hopper и Ada Lovelace. Специфический для Nvidia процесс 4NP, вероятно, добавляет металлические слои к стандартной технологии TSMC N4P. [16] Каждый из двух вычислительных кристаллов в центре обработки данных B100/B200 содержит 104 миллиарда транзисторов, что на 30% больше, чем 80 миллиардов транзисторов в предыдущем поколении Hopper. [17] Поскольку Blackwell не может воспользоваться преимуществами, которые дает крупное усовершенствование узла процесса, он должен достичь повышения энергоэффективности и производительности за счет базовых архитектурных изменений. [18]
Вычислительный кристалл в ускорителях центров обработки данных находится на пределе сетки производства полупроводников. [19] Предел сетки в производстве полупроводников - это физический предел размера, который литографические машины могут протравить на кремниевом кристалле. Ранее Nvidia почти достигла предела сетки TSMC с кристаллом GH100 размером 814 мм 2 . Чтобы не ограничиваться размером кристалла, ускоритель B100 от Nvidia использует два кристалла GB100 в одном корпусе, соединенных каналом 10 ТБ/с, который Nvidia называет NV-High Bandwidth Interface (NV-HBI). NV-HBI основан на протоколе NVLink 5.0 . Генеральный директор Nvidia Дженсен Хуанг заявил в интервью CNBC , что Nvidia потратила около 10 миллиардов долларов на исследования и разработки для межсоединения кристаллов NV-HBI от Blackwell. Опытный инженер-полупроводник Джим Келлер , работавший над архитектурами AMD K7, K12 и Zen , раскритиковал эту цифру и заявил, что того же результата можно было бы достичь за 1 миллиард долларов, используя Ultra Ethernet, а не фирменную систему NVLink. [20] Два соединенных вычислительных кристалла способны действовать как большой монолитный кусок кремния с полной когерентностью кэша между обоими кристаллами. [21] Двойной кристалл содержит в общей сложности 208 миллиардов транзисторов. [19] Эти два кристалла помещаются сверху на кремниевый интерпозер, изготовленный с использованием технологии упаковки CoWoS-L 2.5D компании TSMC. [22]
В Blackwell добавлена поддержка CUDA Compute Capability 10.0.
Архитектура Blackwell представляет пятое поколение тензорных ядер для вычислений ИИ и выполнения вычислений с плавающей точкой . В центре обработки данных Blackwell добавляет поддержку типов данных FP4 и FP6. [23] Предыдущая архитектура Hopper представила Transformer Engine, программное обеспечение для упрощения квантования моделей с более высокой точностью (например, FP32) до более низкой точности, для которой Hopper имеет большую пропускную способность. Второе поколение Transformer Engine от Blackwell добавляет поддержку более новых, менее точных типов FP4 и FP6. Использование 4-битных данных обеспечивает большую эффективность и пропускную способность для вывода модели во время генеративного обучения ИИ. [18] Nvidia заявляет о 20 петафлопсах (исключая 2-кратный прирост, который компания заявляет за разреженность) вычислений FP4 для двухпроцессорного суперчипа GB200. [24]