ИИ-ускоритель

Ускоритель искусственного интеллекта , процессор глубокого обучения или нейронный процессор ( NPU ) — это класс специализированного аппаратного ускорителя ^[1] или компьютерной системы ^[2]^[3] , предназначенного для ускорения приложений искусственного интеллекта и машинного обучения , включая искусственные нейронные сети и компьютерное зрение. . Типичные приложения включают алгоритмы для робототехники , Интернета вещей и другие задачи, требующие больших объемов данных или управляемые датчиками. ^[4] Они часто представляют собой многоядерные конструкции и обычно ориентированы на арифметику низкой точности , новые архитектуры потоков данных или возможности вычислений в памяти . По состоянию на 2024 год ^{[обновлять]}типичная интегральная схема искусственного интеллекта будет содержать десятки миллиардов МОП -транзисторов . ^[5]

Ускорители искусственного интеллекта, такие как нейронные процессоры (NPU), используются в мобильных устройствах, таких как Apple iPhone и мобильные телефоны Huawei , ^[6] и персональных компьютерах, таких как ноутбуки AMD ^[7] и Apple Silicon Mac . ^[8] Ускорители используются в серверах облачных вычислений , включая тензорные процессоры (TPU) в Google Cloud Platform ^[9] и чипы Trainium и Inferentia в Amazon Web Services . ^[10] Для устройств этой категории существует ряд терминов, определяемых поставщиком, и это новая технология без доминирующего дизайна .

Графические процессоры , разработанные такими компаниями, как Nvidia и AMD, часто включают в себя аппаратное обеспечение, предназначенное для искусственного интеллекта, и обычно используются в качестве ускорителей искусственного интеллекта как для обучения , так и для вывода . ^[11]

История

Компьютерные системы часто дополняют ЦП специальными ускорителями для специализированных задач, известными как сопроцессоры . Известные аппаратные блоки для конкретных приложений включают видеокарты для графики , звуковые карты , графические процессоры и процессоры цифровых сигналов . Поскольку в 2010-х годах рабочие нагрузки глубокого обучения и искусственного интеллекта приобрели все большее значение, для ускорения этих задач были разработаны или адаптированы специализированные аппаратные средства на основе существующих продуктов .

Ранние попытки

Первые попытки, такие как ETANN 80170NX от Intel , включали аналоговые схемы для вычисления нейронных функций. ^[12]

Позже последовали полностью цифровые чипы, такие как Nestor/Intel Ni1000 . Еще в 1993 году процессоры цифровых сигналов использовались в качестве ускорителей нейронных сетей для ускорения программного обеспечения оптического распознавания символов . ^[13]

К 1988 году Вэй Чжан и др. обсуждали быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. ^[14]^[15]

В 1990-е годы также предпринимались попытки создания параллельных высокопроизводительных систем для рабочих станций, предназначенных для различных приложений, включая нейросетевое моделирование. ^[16]^[17]

Ускорители на основе FPGA также были впервые исследованы в 1990-х годах как для вывода, так и для обучения. ^[18]^[19]

В 2014 году Чен и др. предложил DianNao (по-китайски «электрический мозг») ^[20] специально для ускорения глубоких нейронных сетей. DianNao обеспечивает пиковую производительность 452 Gop/s (ключевых операций в глубоких нейронных сетях) при занимаемой площади 3,02 мм ² и мощности 485 мВт. Позже преемники (DaDianNao, ^[21] ShiDianNao, ^[22] PuDianNao ^[23] ) были предложены той же группой, образуя семью DianNao ^[24]

Смартфоны начали использовать ускорители искусственного интеллекта, начиная с Qualcomm Snapdragon 820 в 2015 году. ^[25]^[26]

Гетерогенные вычисления

Гетерогенные вычисления включают в себя множество специализированных процессоров в одной системе или одном кристалле, каждый из которых оптимизирован для определенного типа задач. Такие архитектуры, как микропроцессор Cell ^[27], имеют функции, значительно перекликающиеся с ускорителями искусственного интеллекта, включая: поддержку упакованной арифметики низкой точности, архитектуру потока данных и приоритезацию пропускной способности над задержкой. Микропроцессор Cell применялся для решения ряда задач ^[28]^[29]^[30], включая искусственный интеллект. ^[31]^[32]^[33]

В 2000-х годах процессоры также получили все более широкие модули SIMD , обусловленные видео- и игровыми нагрузками; а также поддержка упакованных типов данных низкой точности . ^[34] Из-за растущей производительности процессоров они также используются для выполнения рабочих нагрузок ИИ. ЦП лучше подходят для DNN с малым или средним параллелизмом, для разреженных DNN и в сценариях с малым размером пакетов.

Использование графических процессоров

Графические процессоры или графические процессоры — это специализированное оборудование для манипулирования изображениями и расчета локальных свойств изображения. Математическая основа нейронных сетей и манипуляций с изображениями представляет собой схожие, до неловкости параллельные задачи, связанные с матрицами, что приводит к тому, что графические процессоры все чаще используются для задач машинного обучения. ^[35]^[36]

В 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения AlexNet ^[37] , которая стала чемпионом конкурса ISLVRC-2012. В 2010-х годах производители графических процессоров, такие как Nvidia, добавили функции глубокого обучения как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотеку cuDNN).

В течение 2010-х годов графические процессоры продолжали развиваться в направлении облегчения глубокого обучения как для обучения, так и для вывода в таких устройствах, как беспилотные автомобили . ^[38]^[39] Разработчики графических процессоров, такие как Nvidia NVLink, разрабатывают дополнительные возможности подключения для тех рабочих нагрузок потока данных, которые приносят пользу ИИ. Поскольку графические процессоры все чаще применяются для ускорения искусственного интеллекта, производители графических процессоров внедрили специальное оборудование для нейронных сетей для дальнейшего ускорения этих задач. ^[40]^[41]Тензорные ядра предназначены для ускорения обучения нейронных сетей. ^[41]

Графические процессоры продолжают использоваться в крупномасштабных приложениях искусственного интеллекта. Например, суперкомпьютер Summit от IBM для Национальной лаборатории Ок-Ридж [ ^42] содержит 27 648 карт Nvidia Tesla V100, которые можно использовать для ускорения алгоритмов глубокого обучения.

Использование ПЛИС

Среды глубокого обучения все еще развиваются, что затрудняет разработку специального оборудования. Реконфигурируемые устройства, такие как программируемые пользователем вентильные матрицы (FPGA), упрощают развитие аппаратного обеспечения, инфраструктур и программного обеспечения параллельно друг другу . ^[43]^[18]^[19]^[44]

Microsoft использовала чипы FPGA для ускорения вывода для сервисов глубокого обучения в реальном времени. ^[45]

Использование НПУ

С 2017 года несколько CPU и SoC имеют встроенные NPU: например, Intel Meteor Lake , Apple A11 .

Появление специализированных ASIC-ускорителей искусственного интеллекта

Хотя графические процессоры и FPGA работают гораздо лучше, чем центральные процессоры, для задач, связанных с искусственным интеллектом, коэффициент эффективности до 10 ^[46]^[47] может быть достигнут при более специфической конструкции с помощью интегральной схемы для конкретного приложения (ASIC). ^[48] Эти ускорители используют такие стратегии, как оптимизированное использование памяти ^{[ нужна ссылка ]} и использование арифметики с более низкой точностью для ускорения вычислений и увеличения производительности вычислений. ^[49]^{[50] Некоторые}форматы с плавающей запятой низкой точности, используемые для ускорения ИИ, имеют половинную точность и формат с плавающей запятой bfloat16 . ^[51]^[52] Компания Cerebras Systems создала специальный ускоритель искусственного интеллекта на базе крупнейшего в отрасли процессора Wafer Scale Engine второго поколения (WSE-2) для поддержки рабочих нагрузок глубокого обучения. ^[53]^[54]

Текущие исследования

Архитектуры вычислений в памяти

В июне 2017 года исследователи IBM анонсировали архитектуру, отличную от архитектуры фон Неймана , основанную на вычислениях в памяти и массивах памяти с фазовым изменением , применяемую для обнаружения временной корреляции , намереваясь обобщить подход к гетерогенным вычислениям и системам с массовым параллелизмом . ^[55] В октябре 2018 года исследователи IBM анонсировали архитектуру, основанную на обработке в памяти и смоделированную на синаптической сети человеческого мозга , для ускорения глубоких нейронных сетей . ^[56] Система основана на массивах памяти с фазовым изменением. ^[57]

Вычисления в памяти с аналоговой резистивной памятью

В 2019 году исследователи из Миланского политехнического университета нашли способ решать системы линейных уравнений за несколько десятков наносекунд с помощью одной операции. Их алгоритм основан на вычислениях в памяти с аналоговой резистивной памятью, которая работает с высокой эффективностью времени и энергии за счет проведения матрично-векторного умножения за один шаг с использованием закона Ома и закона Кирхгофа. Исследователи показали, что схема обратной связи с перекрестной резистивной памятью может решать алгебраические задачи, такие как системы линейных уравнений, собственные векторы матрицы и дифференциальные уравнения, всего за один шаг. Такой подход значительно сокращает время вычислений по сравнению с цифровыми алгоритмами. ^[58]

Атомно тонкие полупроводники

В 2020 году Марега и др. опубликовали эксперименты с материалом активного канала большой площади для разработки устройств и схем логики в памяти на основе полевых транзисторов с плавающим затвором (FGFET). ^[59] Такие атомарно тонкие полупроводники считаются перспективными для энергоэффективных приложений машинного обучения , где одна и та же базовая структура устройства используется как для логических операций, так и для хранения данных. Авторы использовали двумерные материалы, такие как полупроводниковый дисульфид молибдена, для точной настройки FGFET в качестве строительных блоков, в которых логические операции могут выполняться с элементами памяти. ^[59]

Интегрированное фотонное тензорное ядро

В 1988 году Вэй Чжан и др. обсудили быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. ^[14]^[15] В 2021 году Дж. Фельдманн и др. предложил интегрированный фотонный аппаратный ускоритель для параллельной сверточной обработки. ^[60] Авторы выделяют два ключевых преимущества интегрированной фотоники перед ее электронными аналогами: (1) массово-параллельная передача данных посредством мультиплексирования с разделением по длине волны в сочетании с частотными гребенками и (2) чрезвычайно высокая скорость модуляции данных. ^[60] Их система может выполнять триллионы операций умножения-накопления в секунду, что указывает на потенциал интегрированной фотоники в приложениях искусственного интеллекта с большими объемами данных. ^[60] Экспериментально были разработаны оптические процессоры, которые также могут выполнять обратное распространение ошибки для искусственных нейронных сетей. ^[61]

Номенклатура

По состоянию на 2016 год эта область все еще находится в процессе развития, и поставщики продвигают собственный маркетинговый термин, обозначающий что-то вроде «ускорителя искусственного интеллекта», в надежде, что их проекты и API станут доминирующими . Нет единого мнения ни о границах между этими устройствами, ни о точной форме, которую они примут; однако несколько примеров явно направлены на заполнение этого нового пространства, при этом возможности во многом совпадают.

В прошлом, когда появились потребительские графические ускорители , индустрия в конечном итоге приняла самопровозглашенный термин Nvidia «GPU» ^[62] в качестве собирательного существительного для «графических ускорителей», которые принимали множество форм, прежде чем остановились на общем конвейере. реализация модели, представленной Direct3D^{[ необходимы разъяснения ]} .

Все модели процессоров Intel Meteor Lake оснащены встроенным универсальным процессорным блоком ( VPU ) для ускорения вывода данных для компьютерного зрения и глубокого обучения. ^[63]

Процессоры глубокого обучения (DLP)

Вдохновленные новаторской работой семьи DianNao, многие DLP предлагаются как в научных кругах, так и в промышленности с дизайном, оптимизированным для использования функций глубоких нейронных сетей для обеспечения высокой эффективности. На ISCA 2016 три сессии (15%) принятых докладов были посвящены архитектурным проектам глубокого обучения. К таким усилиям относятся Eyeriss (MIT), ^[64] EIE (Стэнфорд), ^[65] Minerva (Гарвард), ^[66] Stripes (Университет Торонто) в академических кругах, ^[67] TPU (Google), ^[68] и MLU ( Камбрикон ) в промышленности. ^[69] Мы перечислили несколько репрезентативных работ в таблице 1.

Цифровые DLP

Основные компоненты архитектуры DLP обычно включают вычислительный компонент, иерархию встроенной памяти и логику управления, которая управляет потоками передачи данных и вычислений.

Что касается вычислительного компонента, поскольку большинство операций глубокого обучения могут быть объединены в векторные операции, наиболее распространенными способами построения вычислительных компонентов в цифровых DLP являются организация на основе MAC (накопление множителя), либо с векторными MAC ^[20]^{[21] ]}^[23] или скалярные MAC. ^[68]^[22]^[64] Вместо SIMD или SIMT в обычных вычислительных устройствах, параллелизм, специфичный для предметной области, лучше изучать в этих организациях на базе MAC. Что касается иерархии памяти, поскольку алгоритмам глубокого обучения требуется высокая пропускная способность для обеспечения вычислительного компонента достаточным количеством данных, DLP обычно используют встроенный буфер относительно большего размера (десятки килобайт или несколько мегабайт), но со специальной стратегией повторного использования данных на кристалле и стратегия обмена данными, позволяющая снизить нагрузку на пропускную способность памяти. Например, DianNao, 16 векторных MAC по 16 дюймов, требует 16 × 16 × 2 = 512 16-битных данных, т. е. требуется почти 1024 ГБ/с пропускной способности между вычислительными компонентами и буферами. При повторном использовании на кристалле такие требования к полосе пропускания резко снижаются. ^[20] Вместо широко используемого кэша в обычных устройствах обработки данных DLP всегда используют блокнотную память, поскольку она может обеспечить более широкие возможности повторного использования данных за счет использования относительно регулярного шаблона доступа к данным в алгоритмах глубокого обучения. Что касается логики управления, то поскольку алгоритмы глубокого обучения продолжают развиваться с огромной скоростью, DLP начинают использовать выделенную ISA (архитектуру набора команд) для гибкой поддержки области глубокого обучения. Сначала DianNao использовал набор инструкций в стиле VLIW, где каждая инструкция могла завершать уровень в DNN. Cambricon ^[74] представляет первую ISA для предметной области глубокого обучения, которая может поддерживать более десяти различных алгоритмов глубокого обучения. ТПУ также раскрывает пять ключевых инструкций ISA в стиле CISC.

Гибридные DLP

Гибридные DLP используются для вывода DNN и ускорения обучения из-за их высокой эффективности. Архитектуры обработки в памяти (PIM) являются одним из наиболее важных типов гибридной DLP. Ключевая концепция проектирования PIM заключается в преодолении разрыва между вычислениями и памятью следующими способами: 1) Перемещение вычислительных компонентов в ячейки памяти, контроллеры или микросхемы памяти для устранения проблемы со стенками памяти. ^[71]^[75]^[76] Такие архитектуры значительно сокращают пути передачи данных и используют гораздо более высокую внутреннюю пропускную способность, что приводит к значительному повышению производительности. 2) Создать высокоэффективные механизмы DNN, приняв вычислительные устройства. В 2013 году лаборатория HP продемонстрировала удивительные возможности использования перекрестной структуры ReRAM для вычислений. ^[77] Вдохновленная этой работой, предлагается провести огромную работу по исследованию новой архитектуры и дизайна систем на основе ReRAM, ^{[70] [}^78]^[79]^[71] памяти с фазовым изменением, ^[75]^[80]^[81] и т. д. .

Тесты

Для оценки производительности ускорителей искусственного интеллекта можно использовать такие тесты, как MLPerf и другие. ^[82] В таблице 2 перечислены несколько типичных тестов для ускорителей искусственного интеллекта.

Возможные применения

Сельскохозяйственные роботы , например, для борьбы с сорняками без гербицидов. ^[83]
Автономные транспортные средства : Nvidia нацелила свои платы серии Drive PX на это приложение. ^[84]
Компьютерная диагностика
Промышленные роботы расширяют спектр задач, которые можно автоматизировать, добавляя адаптируемость к изменяющимся ситуациям.
Машинный перевод
Военные роботы
Обработка естественного языка
Поисковые системы , повышение энергоэффективности центров обработки данных и возможность использования все более сложных запросов .
Беспилотные летательные аппараты , например навигационные системы, например Movidius Myriad 2, успешно управляют автономными дронами. ^[85]
Голосовой пользовательский интерфейс , например, в мобильных телефонах, предназначенный для Qualcomm Zeroth . ^[86]

Смотрите также

Внешние ссылки

Nvidia ставит ускоритель на металл с помощью Pascal.htm, новой платформы
Проект Айрисс, Массачусетский технологический институт
https://alphaics.ai/