stringtranslate.com

ИИ-ускоритель

Ускоритель искусственного интеллекта , процессор глубокого обучения или нейронный процессор ( NPU ) — это класс специализированного аппаратного ускорителя [1] или компьютерной системы [2] [3] , предназначенного для ускорения приложений искусственного интеллекта и машинного обучения , включая искусственные нейронные сети и компьютерное зрение. . Типичные приложения включают алгоритмы для робототехники , Интернета вещей и другие задачи, требующие больших объемов данных или управляемые датчиками. [4] Они часто представляют собой многоядерные конструкции и обычно ориентированы на арифметику низкой точности , новые архитектуры потоков данных или возможности вычислений в памяти . По состоянию на 2024 год типичная интегральная схема искусственного интеллекта будет содержать десятки миллиардов МОП -транзисторов . [5]

Ускорители искусственного интеллекта, такие как нейронные процессоры (NPU), используются в мобильных устройствах, таких как Apple iPhone и мобильные телефоны Huawei , [6] и персональных компьютерах, таких как ноутбуки AMD [7] и Apple Silicon Mac . [8] Ускорители используются в серверах облачных вычислений , включая тензорные процессоры (TPU) в Google Cloud Platform [9] и чипы Trainium и Inferentia в Amazon Web Services . [10] Для устройств этой категории существует ряд терминов, определяемых поставщиком, и это новая технология без доминирующего дизайна .

Графические процессоры , разработанные такими компаниями, как Nvidia и AMD, часто включают в себя аппаратное обеспечение, предназначенное для искусственного интеллекта, и обычно используются в качестве ускорителей искусственного интеллекта как для обучения , так и для вывода . [11]

История

Компьютерные системы часто дополняют ЦП специальными ускорителями для специализированных задач, известными как сопроцессоры . Известные аппаратные блоки для конкретных приложений включают видеокарты для графики , звуковые карты , графические процессоры и процессоры цифровых сигналов . Поскольку в 2010-х годах рабочие нагрузки глубокого обучения и искусственного интеллекта приобрели все большее значение, для ускорения этих задач были разработаны или адаптированы специализированные аппаратные средства на основе существующих продуктов .

Ранние попытки

Первые попытки, такие как ETANN 80170NX от Intel , включали аналоговые схемы для вычисления нейронных функций. [12]

Позже последовали полностью цифровые чипы, такие как Nestor/Intel Ni1000 . Еще в 1993 году процессоры цифровых сигналов использовались в качестве ускорителей нейронных сетей для ускорения программного обеспечения оптического распознавания символов . [13]

К 1988 году Вэй Чжан и др. обсуждали быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. [14] [15]

В 1990-е годы также предпринимались попытки создания параллельных высокопроизводительных систем для рабочих станций, предназначенных для различных приложений, включая нейросетевое моделирование. [16] [17]

Ускорители на основе FPGA также были впервые исследованы в 1990-х годах как для вывода, так и для обучения. [18] [19]

В 2014 году Чен и др. предложил DianNao (по-китайски «электрический мозг») [20] специально для ускорения глубоких нейронных сетей. DianNao обеспечивает пиковую производительность 452 Gop/s (ключевых операций в глубоких нейронных сетях) при занимаемой площади 3,02 мм 2 и мощности 485 мВт. Позже преемники (DaDianNao, [21] ShiDianNao, [22] PuDianNao [23] ) были предложены той же группой, образуя семью DianNao [24]

Смартфоны начали использовать ускорители искусственного интеллекта, начиная с Qualcomm Snapdragon 820 в 2015 году. [25] [26]

Гетерогенные вычисления

Гетерогенные вычисления включают в себя множество специализированных процессоров в одной системе или одном кристалле, каждый из которых оптимизирован для определенного типа задач. Такие архитектуры, как микропроцессор Cell [27], имеют функции, значительно перекликающиеся с ускорителями искусственного интеллекта, включая: поддержку упакованной арифметики низкой точности, архитектуру потока данных и приоритезацию пропускной способности над задержкой. Микропроцессор Cell применялся для решения ряда задач [28] [29] [30], включая искусственный интеллект. [31] [32] [33]

В 2000-х годах процессоры также получили все более широкие модули SIMD , обусловленные видео- и игровыми нагрузками; а также поддержка упакованных типов данных низкой точности . [34] Из-за растущей производительности процессоров они также используются для выполнения рабочих нагрузок ИИ. ЦП лучше подходят для DNN с малым или средним параллелизмом, для разреженных DNN и в сценариях с малым размером пакетов.

Использование графических процессоров

Графические процессоры или графические процессоры — это специализированное оборудование для манипулирования изображениями и расчета локальных свойств изображения. Математическая основа нейронных сетей и манипуляций с изображениями представляет собой схожие, до неловкости параллельные задачи, связанные с матрицами, что приводит к тому, что графические процессоры все чаще используются для задач машинного обучения. [35] [36]

В 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения AlexNet [37] , которая стала чемпионом конкурса ISLVRC-2012. В 2010-х годах производители графических процессоров, такие как Nvidia, добавили функции глубокого обучения как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотеку cuDNN).

В течение 2010-х годов графические процессоры продолжали развиваться в направлении облегчения глубокого обучения как для обучения, так и для вывода в таких устройствах, как беспилотные автомобили . [38] [39] Разработчики графических процессоров, такие как Nvidia NVLink, разрабатывают дополнительные возможности подключения для тех рабочих нагрузок потока данных, которые приносят пользу ИИ. Поскольку графические процессоры все чаще применяются для ускорения искусственного интеллекта, производители графических процессоров внедрили специальное оборудование для нейронных сетей для дальнейшего ускорения этих задач. [40] [41] Тензорные ядра предназначены для ускорения обучения нейронных сетей. [41]

Графические процессоры продолжают использоваться в крупномасштабных приложениях искусственного интеллекта. Например, суперкомпьютер Summit от IBM для Национальной лаборатории Ок-Ридж [ 42] содержит 27 648 карт Nvidia Tesla V100, которые можно использовать для ускорения алгоритмов глубокого обучения.

Использование ПЛИС

Среды глубокого обучения все еще развиваются, что затрудняет разработку специального оборудования. Реконфигурируемые устройства, такие как программируемые пользователем вентильные матрицы (FPGA), упрощают развитие аппаратного обеспечения, инфраструктур и программного обеспечения параллельно друг другу . [43] [18] [19] [44]

Microsoft использовала чипы FPGA для ускорения вывода для сервисов глубокого обучения в реальном времени. [45]

Использование НПУ

С 2017 года несколько CPU и SoC имеют встроенные NPU: например, Intel Meteor Lake , Apple A11 .

Появление специализированных ASIC-ускорителей искусственного интеллекта

Хотя графические процессоры и FPGA работают гораздо лучше, чем центральные процессоры, для задач, связанных с искусственным интеллектом, коэффициент эффективности до 10 [46] [47] может быть достигнут при более специфической конструкции с помощью интегральной схемы для конкретного приложения (ASIC). [48] ​​Эти ускорители используют такие стратегии, как оптимизированное использование памяти [ нужна ссылка ] и использование арифметики с более низкой точностью для ускорения вычислений и увеличения производительности вычислений. [49] [50] Некоторые форматы с плавающей запятой низкой точности, используемые для ускорения ИИ, имеют половинную точность и формат с плавающей запятой bfloat16 . [51] [52] Компания Cerebras Systems создала специальный ускоритель искусственного интеллекта на базе крупнейшего в отрасли процессора Wafer Scale Engine второго поколения (WSE-2) для поддержки рабочих нагрузок глубокого обучения. [53] [54]

Текущие исследования

Архитектуры вычислений в памяти

В июне 2017 года исследователи IBM анонсировали архитектуру, отличную от архитектуры фон Неймана , основанную на вычислениях в памяти и массивах памяти с фазовым изменением , применяемую для обнаружения временной корреляции , намереваясь обобщить подход к гетерогенным вычислениям и системам с массовым параллелизмом . [55] В октябре 2018 года исследователи IBM анонсировали архитектуру, основанную на обработке в памяти и смоделированную на синаптической сети человеческого мозга , для ускорения глубоких нейронных сетей . [56] Система основана на массивах памяти с фазовым изменением. [57]

Вычисления в памяти с аналоговой резистивной памятью

В 2019 году исследователи из Миланского политехнического университета нашли способ решать системы линейных уравнений за несколько десятков наносекунд с помощью одной операции. Их алгоритм основан на вычислениях в памяти с аналоговой резистивной памятью, которая работает с высокой эффективностью времени и энергии за счет проведения матрично-векторного умножения за один шаг с использованием закона Ома и закона Кирхгофа. Исследователи показали, что схема обратной связи с перекрестной резистивной памятью может решать алгебраические задачи, такие как системы линейных уравнений, собственные векторы матрицы и дифференциальные уравнения, всего за один шаг. Такой подход значительно сокращает время вычислений по сравнению с цифровыми алгоритмами. [58]

Атомно тонкие полупроводники

В 2020 году Марега и др. опубликовали эксперименты с материалом активного канала большой площади для разработки устройств и схем логики в памяти на основе полевых транзисторов с плавающим затвором (FGFET). [59] Такие атомарно тонкие полупроводники считаются перспективными для энергоэффективных приложений машинного обучения , где одна и та же базовая структура устройства используется как для логических операций, так и для хранения данных. Авторы использовали двумерные материалы, такие как полупроводниковый дисульфид молибдена, для точной настройки FGFET в качестве строительных блоков, в которых логические операции могут выполняться с элементами памяти. [59]

Интегрированное фотонное тензорное ядро

В 1988 году Вэй Чжан и др. обсудили быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. [14] [15] В 2021 году Дж. Фельдманн и др. предложил интегрированный фотонный аппаратный ускоритель для параллельной сверточной обработки. [60] Авторы выделяют два ключевых преимущества интегрированной фотоники перед ее электронными аналогами: (1) массово-параллельная передача данных посредством мультиплексирования с разделением по длине волны в сочетании с частотными гребенками и (2) чрезвычайно высокая скорость модуляции данных. [60] Их система может выполнять триллионы операций умножения-накопления в секунду, что указывает на потенциал интегрированной фотоники в приложениях искусственного интеллекта с большими объемами данных. [60] Экспериментально были разработаны оптические процессоры, которые также могут выполнять обратное распространение ошибки для искусственных нейронных сетей. [61]

Номенклатура

По состоянию на 2016 год эта область все еще находится в процессе развития, и поставщики продвигают собственный маркетинговый термин, обозначающий что-то вроде «ускорителя искусственного интеллекта», в надежде, что их проекты и API станут доминирующими . Нет единого мнения ни о границах между этими устройствами, ни о точной форме, которую они примут; однако несколько примеров явно направлены на заполнение этого нового пространства, при этом возможности во многом совпадают.

В прошлом, когда появились потребительские графические ускорители , индустрия в конечном итоге приняла самопровозглашенный термин Nvidia «GPU» [62] в качестве собирательного существительного для «графических ускорителей», которые принимали множество форм, прежде чем остановились на общем конвейере. реализация модели, представленной Direct3D [ необходимы разъяснения ] .

Все модели процессоров Intel Meteor Lake оснащены встроенным универсальным процессорным блоком ( VPU ) для ускорения вывода данных для компьютерного зрения и глубокого обучения. [63]

Процессоры глубокого обучения (DLP)

Вдохновленные новаторской работой семьи DianNao, многие DLP предлагаются как в научных кругах, так и в промышленности с дизайном, оптимизированным для использования функций глубоких нейронных сетей для обеспечения высокой эффективности. На ISCA 2016 три сессии (15%) принятых докладов были посвящены архитектурным проектам глубокого обучения. К таким усилиям относятся Eyeriss (MIT), [64] EIE (Стэнфорд), [65] Minerva (Гарвард), [66] Stripes (Университет Торонто) в академических кругах, [67] TPU (Google), [68] и MLU ( Камбрикон ) в промышленности. [69] Мы перечислили несколько репрезентативных работ в таблице 1.

Цифровые DLP

Основные компоненты архитектуры DLP обычно включают вычислительный компонент, иерархию встроенной памяти и логику управления, которая управляет потоками передачи данных и вычислений.

Что касается вычислительного компонента, поскольку большинство операций глубокого обучения могут быть объединены в векторные операции, наиболее распространенными способами построения вычислительных компонентов в цифровых DLP являются организация на основе MAC (накопление множителя), либо с векторными MAC [20] [21] ] [23] или скалярные MAC. [68] [22] [64] Вместо SIMD или SIMT в обычных вычислительных устройствах, параллелизм, специфичный для предметной области, лучше изучать в этих организациях на базе MAC. Что касается иерархии памяти, поскольку алгоритмам глубокого обучения требуется высокая пропускная способность для обеспечения вычислительного компонента достаточным количеством данных, DLP обычно используют встроенный буфер относительно большего размера (десятки килобайт или несколько мегабайт), но со специальной стратегией повторного использования данных на кристалле и стратегия обмена данными, позволяющая снизить нагрузку на пропускную способность памяти. Например, DianNao, 16 векторных MAC по 16 дюймов, требует 16 × 16 × 2 = 512 16-битных данных, т. е. требуется почти 1024 ГБ/с пропускной способности между вычислительными компонентами и буферами. При повторном использовании на кристалле такие требования к полосе пропускания резко снижаются. [20] Вместо широко используемого кэша в обычных устройствах обработки данных DLP всегда используют блокнотную память, поскольку она может обеспечить более широкие возможности повторного использования данных за счет использования относительно регулярного шаблона доступа к данным в алгоритмах глубокого обучения. Что касается логики управления, то поскольку алгоритмы глубокого обучения продолжают развиваться с огромной скоростью, DLP начинают использовать выделенную ISA (архитектуру набора команд) для гибкой поддержки области глубокого обучения. Сначала DianNao использовал набор инструкций в стиле VLIW, где каждая инструкция могла завершать уровень в DNN. Cambricon [74] представляет первую ISA для предметной области глубокого обучения, которая может поддерживать более десяти различных алгоритмов глубокого обучения. ТПУ также раскрывает пять ключевых инструкций ISA в стиле CISC.

Гибридные DLP

Гибридные DLP используются для вывода DNN и ускорения обучения из-за их высокой эффективности. Архитектуры обработки в памяти (PIM) являются одним из наиболее важных типов гибридной DLP. Ключевая концепция проектирования PIM заключается в преодолении разрыва между вычислениями и памятью следующими способами: 1) Перемещение вычислительных компонентов в ячейки памяти, контроллеры или микросхемы памяти для устранения проблемы со стенками памяти. [71] [75] [76] Такие архитектуры значительно сокращают пути передачи данных и используют гораздо более высокую внутреннюю пропускную способность, что приводит к значительному повышению производительности. 2) Создать высокоэффективные механизмы DNN, приняв вычислительные устройства. В 2013 году лаборатория HP продемонстрировала удивительные возможности использования перекрестной структуры ReRAM для вычислений. [77] Вдохновленная этой работой, предлагается провести огромную работу по исследованию новой архитектуры и дизайна систем на основе ReRAM, [70] [ 78] [79] [71] памяти с фазовым изменением, [75] [80] [81] и т. д. .

Тесты

Для оценки производительности ускорителей искусственного интеллекта можно использовать такие тесты, как MLPerf и другие. [82] В таблице 2 перечислены несколько типичных тестов для ускорителей искусственного интеллекта.

Возможные применения

Смотрите также

Рекомендации

  1. ^ «Intel представляет USB-ускоритель искусственного интеллекта Movidius Compute Stick» . 21 июля 2017. Архивировано из оригинала 11 августа 2017 года . Проверено 11 августа 2017 г.
  2. ^ «Inspurs представляет ускоритель искусственного интеллекта GX4» . 21 июня 2017 г.
  3. Виггерс, Кайл (6 ноября 2019 г.) [2019], Neural Magic собирает 15 миллионов долларов для повышения скорости вывода ИИ на стандартных процессорах, заархивировано из оригинала 6 марта 2020 г. , получено 14 марта 2020 г.
  4. ^ «Google разрабатывает процессоры искусственного интеллекта» . 18 мая 2016 г.Google использует собственные ускорители искусственного интеллекта.
  5. Мосс, Себастьян (23 марта 2022 г.). «Nvidia представляет новый графический процессор Hopper H100 с 80 миллиардами транзисторов». Динамика центра обработки данных . Проверено 30 января 2024 г.
  6. ^ «HUAWEI раскрывает будущее мобильного искусственного интеллекта на IFA» .
  7. ^ «Архитектура AMD XDNA».
  8. ^ «Развертывание трансформаторов на нейронном движке Apple». Исследования Apple в области машинного обучения . Проверено 24 августа 2023 г.
  9. ^ Джуппи, Норман П.; и другие. (24 июня 2017 г.). «Анализ производительности тензорного процессора в центре обработки данных». Новости компьютерной архитектуры ACM SIGARCH . 45 (2): 1–12. arXiv : 1704.04760 . дои : 10.1145/3140659.3080246 .
  10. ^ «Как инновации в области кремния стали «секретным соусом» успеха AWS» . Амазонская наука . 27 июля 2022 г. Проверено 19 июля 2024 г.
  11. ^ Патель, Дилан; Нишболл, Дэниел; Се, Майрон (9 ноября 2023 г.). «Новые китайские ИИ-чипы Nvidia обходят ограничения США». Полуанализ . Проверено 7 февраля 2024 г.
  12. Дворжак, JC (29 мая 1990 г.). «Внутренний путь». Журнал ПК . Проверено 26 декабря 2023 г.
  13. ^ «Демо сверточной нейронной сети 1993 года с ускорителем DSP32» . YouTube . 2 июня 2014 г.
  14. ^ Аб Чжан, Вэй (1988). «Нейронная сеть распознавания образов, инвариантная к сдвигу, и ее оптическая архитектура». Материалы ежегодной конференции Японского общества прикладной физики .
  15. ^ Аб Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура». Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z. дои : 10.1364/AO.29.004790. ПМИД  20577468.
  16. ^ Асанович, К.; Бек, Дж.; Фельдман, Дж.; Морган, Н.; Вавжинек, Дж. (январь 1994 г.). «Проектирование сетевого суперкомпьютера». Международный журнал нейронных систем . 4 (4). ResearchGate: 317–26. дои : 10.1142/S0129065793000250. ПМИД  8049794 . Проверено 26 декабря 2023 г.
  17. ^ «Конец компьютеров общего назначения (нет)» . YouTube . 17 апреля 2015 г.
  18. ^ аб Гшвинд, М.; Салапура, В.; Майшбергер, О. (февраль 1995 г.). «Пространственное внедрение нейронной сети» . Проверено 26 декабря 2023 г.
  19. ^ аб Гшвинд, М.; Салапура, В.; Майшбергер, О. (1996). «Общий строительный блок для нейронных сетей Хопфилда со встроенным обучением». 1996 Международный симпозиум IEEE по схемам и системам. Схемы и системы, соединяющие мир. ИСКАС 96 . стр. 49–52. дои : 10.1109/ISCAS.1996.598474. ISBN 0-7803-3073-0. S2CID  17630664.
  20. ^ abcd Чен, Тяньши; Ду, Цзидун; Сунь, Нинхуэй; Ван, Цзя; Ву, Чэнён; Чен, Юнджи; Темам, Оливье (5 апреля 2014 г.). «ДианНао». Новости компьютерной архитектуры ACM SIGARCH . 42 (1): 269–284. дои : 10.1145/2654822.2541967 . ISSN  0163-5964.
  21. ^ abc Чен, Юнджи; Луо, Тао; Лю, Шаоли; Чжан, Шиджин; Он, Лицян; Ван, Цзя; Ли, Линг; Чен, Тяньши; Сюй, Живэй; Сунь, Нинхуэй; Темам, Оливье (декабрь 2014 г.). «DaDianNao: суперкомпьютер машинного обучения». 2014 47-й ежегодный международный симпозиум IEEE/ACM по микроархитектуре . IEEE. стр. 609–622. дои : 10.1109/микро.2014.58. ISBN 978-1-4799-6998-2. S2CID  6838992.
  22. ^ abc Ду, Цзидун; Фастхубер, Роберт; Чен, Тяньши; Йенне, Паоло; Ли, Линг; Луо, Тао; Фэн, Сяобин; Чен, Юнджи; Темам, Оливье (4 января 2016 г.). «ШиДианНао». Новости компьютерной архитектуры ACM SIGARCH . 43 (3С): 92–104. дои : 10.1145/2872887.2750389. ISSN  0163-5964.
  23. ^ abc Лю, Даофу; Чен, Тяньши; Лю, Шаоли; Чжоу, Цзиньхун; Чжоу, Шэнъюань; Теман, Оливье; Фэн, Сяобин; Чжоу, Сюэхай; Чен, Юнджи (29 мая 2015 г.). «ПуДяньНао». Новости компьютерной архитектуры ACM SIGARCH . 43 (1): 369–381. дои : 10.1145/2786763.2694358. ISSN  0163-5964.
  24. ^ Чен, Юнджи; Чен, Тяньши; Сюй, Живэй; Сунь, Нинхуэй; Темам, Оливье (28 октября 2016 г.). «Семья ДианНао». Коммуникации АКМ . 59 (11): 105–112. дои : 10.1145/2996864. ISSN  0001-0782. S2CID  207243998.
  25. ^ «Qualcomm помогает сделать ваши мобильные устройства умнее с помощью нового комплекта разработки программного обеспечения для машинного обучения Snapdragon» . Квалкомм .
  26. ^ Рубин, Бен Фокс. «Платформа Qualcomm Zeroth может сделать ваш смартфон намного умнее». CNET . Проверено 28 сентября 2021 г.
  27. ^ Гшвинд, Майкл; Хофсти, Х. Питер; Флакс, Брайан; Хопкинс, Мартин; Ватанабэ, Юкио; Ямадзаки, Такеши (2006). «Синергетическая обработка в многоядерной архитектуре ячейки». IEEE микро . 26 (2): 10–24. дои : 10.1109/MM.2006.41. S2CID  17834015.
  28. ^ Де Фабритис, Г. (2007). «Производительность клеточного процессора для биомолекулярного моделирования». Компьютерная физика. Коммуникации . 176 (11–12): 660–664. arXiv : физика/0611201 . Бибкод : 2007CoPhC.176..660D. дои : 10.1016/j.cpc.2007.02.107. S2CID  13871063.
  29. ^ Обработка и поиск видео на клеточной архитектуре . CiteSeerX 10.1.1.138.5133 . 
  30. ^ Бентин, Карстен; Вальд, Инго; Шербаум, Майкл; Фридрих, Хайко (2006). Симпозиум IEEE 2006 г. по интерактивной трассировке лучей . стр. 15–23. CiteSeerX 10.1.1.67.8982 . дои : 10.1109/RT.2006.280210. ISBN  978-1-4244-0693-7. S2CID  1198101.
  31. ^ «Разработка искусственной нейронной сети на гетерогенной многоядерной архитектуре для прогнозирования успешной потери веса у людей с ожирением» (PDF) . Архивировано из оригинала (PDF) 30 августа 2017 года . Проверено 14 ноября 2017 г.
  32. ^ Квон, Бомджун; Чой, Тайхо; Чунг, Хиджин; Ким, Геонхо (2008). 2008 г. 5-я конференция IEEE по потребительским коммуникациям и сетям . стр. 1030–1034. дои : 10.1109/ccnc08.2007.235. ISBN 978-1-4244-1457-4. S2CID  14429828.
  33. ^ Дуань, Рубинг; Стрей, Альфред (2008). Euro-Par 2008 – Параллельная обработка . Конспекты лекций по информатике. Том. 5168. стр. 665–675. дои : 10.1007/978-3-540-85451-7_71. ISBN 978-3-540-85450-0.
  34. ^ «Улучшение производительности видео с помощью AVX» . 8 февраля 2012 г.
  35. ^ Челлапилла, К.; Сидд Пури; Симард, П. (23 октября 2006 г.). «Высокопроизводительные сверточные нейронные сети для обработки документов». 10-й международный семинар «Границы в распознавании рукописного текста» . Проверено 23 декабря 2023 г.
  36. ^ Крижевский, А.; Суцкевер И.; Хинтон, GE (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 .
  37. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Коммуникации АКМ . 60 (6): 84–90. дои : 10.1145/3065386 .
  38. Роу, Р. (17 мая 2023 г.). «Nvidia за рулем глубокого обучения». внутриHPC . Проверено 23 декабря 2023 г.
  39. Бон, Д. (5 января 2016 г.). «Nvidia анонсирует «суперкомпьютер» для беспилотных автомобилей на выставке CES 2016». Вокс Медиа . Проверено 23 декабря 2023 г.
  40. ^ «Опрос по оптимизированной реализации моделей глубокого обучения на платформе NVIDIA Jetson», 2019 г.
  41. ↑ Аб Харрис, Марк (11 мая 2017 г.). «Раскрытые возможности CUDA 9: Volta, совместные группы и многое другое» . Проверено 12 августа 2017 г.
  42. ^ «Саммит: суперкомпьютер Национальной лаборатории Ок-Ридж мощностью 200 петафлопс» . Министерство энергетики США . 2024 . Проверено 8 января 2024 г.
  43. ^ Сефат, доктор Сиадус; Аслан, Семих; Келлингтон, Джеффри В.; Касем, Апан (август 2019 г.). «Ускорение горячих точек в глубоких нейронных сетях на FPGA на основе CAPI». 21-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям, 2019 г.; 17-я Международная конференция IEEE по «умному городу»; 5-я Международная конференция IEEE по науке о данных и системам (HPCC/SmartCity/DSS) . стр. 248–256. doi : 10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN 978-1-7281-2058-4. S2CID  203656070.
  44. ^ «Ускорители глубокого обучения на основе FPGA используют ASIC» . Следующая платформа . 23 августа 2016 г. Проверено 7 сентября 2016 г.
  45. ^ «Microsoft представляет проект Brainwave для искусственного интеллекта в реальном времени» . Майкрософт . 22 августа 2017 г.
  46. ^ «Google ускоряет машинное обучение с помощью своего тензорного процессора» . 19 мая 2016 года . Проверено 13 сентября 2016 г.
  47. ^ «Чип может обеспечить глубокое обучение на мобильных устройствах» . www.sciencedaily.com . 3 февраля 2016 года . Проверено 13 сентября 2016 г.
  48. ^ «Google Cloud объявляет о пятом поколении своих специальных TPU» . 29 августа 2023 г.
  49. ^ «Глубокое обучение с ограниченной числовой точностью» (PDF) .
  50. ^ Растегари, Мохаммед; Ордонес, Висенте; Редмон, Джозеф; Фархади, Али (2016). «XNOR-Net: классификация ImageNet с использованием двоичных сверточных нейронных сетей». arXiv : 1603.05279 [cs.CV].
  51. Люсиан Армасу (23 мая 2018 г.). «Intel выпустит Spring Crest, свой первый процессор нейронной сети, в 2019 году» . Аппаратное обеспечение Тома . Проверено 23 мая 2018 г. Intel заявила, что NNP-L1000 также будет поддерживать bfloat16, числовой формат, который принимается всеми игроками отрасли машинного обучения для нейронных сетей. Компания также будет поддерживать bfloat16 в своих FPGA, Xeon и других продуктах машинного обучения. Выпуск Nervana NNP-L1000 запланирован на 2019 год.
  52. ^ Джошуа В. Диллон; Ян Лэнгмор; Дастин Тран; Евгений Бревдо; Шринивас Васудеван; Дэйв Мур; Брайан Паттон; Алекс Алеми; Мэтт Хоффман; Риф А. Саурус (28 ноября 2017 г.). Распределения TensorFlow (отчет). arXiv : 1711.10604 . Бибкод : 2017arXiv171110604D. По состоянию на 23 мая 2018 г. Все операции в распределениях TensorFlow численно стабильны при половинной, одинарной и двойной точности с плавающей запятой (как типы TensorFlow: tf.bfloat16 (усеченная с плавающей запятой), tf.float16, tf.float32, tf.float64). ). Конструкторы классов имеют флаг validate_args для числовых утверждений.
  53. Вуди, Алекс (1 ноября 2021 г.). «Cerebras использует ускоритель для рабочих нагрузок глубокого обучения». Датанами . Проверено 3 августа 2022 г.
  54. ^ «Cerebras запускает новый суперкомпьютерный процессор искусственного интеллекта с 2,6 триллионами транзисторов» . ВенчурБит . 20 апреля 2021 г. Проверено 3 августа 2022 г.
  55. ^ Абу Себастьян; Томас Тума; Николаос Папандреу; Мануэль Ле Галло; Лукас Кулл; Томас Парнелл; Евангелос Элефтериу (2017). «Обнаружение временной корреляции с использованием вычислительной памяти с фазовым изменением». Природные коммуникации . 8 (1): 1115. arXiv : 1706.00511 . Бибкод : 2017NatCo...8.1115S. дои : 10.1038/s41467-017-01481-9. ПМЦ 5653661 . ПМИД  29062022. 
  56. ^ «Новая архитектура, основанная на мозге, может улучшить обработку данных компьютерами и усовершенствовать искусственный интеллект» . Американский институт физики . 3 октября 2018 г. . Проверено 5 октября 2018 г.
  57. ^ Карлос Риос; Натан Янгблад; Цзэнгуан Чэн; Мануэль Ле Галло; Вольфрам HP Пернис; К. Дэвид Райт; Абу Себастьян; Хариш Бхаскаран (2018). «Вычисления в памяти на фотонной платформе». Достижения науки . 5 (2): eaau5759. arXiv : 1801.06228 . Бибкод : 2019SciA....5.5759R. doi : 10.1126/sciadv.aau5759. ПМК 6377270 . PMID  30793028. S2CID  7637801. 
  58. ^ Чжун Сунь; Джакомо Педретти; Элия ​​Амбрози; Алессандро Брикалли; Вэй Ван; Даниэле Ильмини (2019). «Решение матричных уравнений за один шаг с помощью перекрестных резистивных матриц». Труды Национальной академии наук . 116 (10): 4123–4128. Бибкод : 2019PNAS..116.4123S. дои : 10.1073/pnas.1815682116 . ПМК 6410822 . ПМИД  30782810. 
  59. ^ аб Марега, Гильерме Мильято; Чжао, Яньфэй; Авсар, Ахмет; Ван, Чжэньюй; Трипати, Мукеш; Раденович, Александра; Кис, Анрас (2020). «Логика в памяти на основе атомарно тонкого полупроводника». Природа . 587 (2): 72–77. Бибкод :2020Natur.587...72M. дои : 10.1038/s41586-020-2861-0. ПМЦ 7116757 . ПМИД  33149289. 
  60. ^ abc Фельдманн, Дж.; Янгблад, Н.; Карпов, М.; и другие. (2021). «Параллельная сверточная обработка с использованием интегрированного фотонного тензора». Природа . 589 (2): 52–58. arXiv : 2002.00281 . дои : 10.1038/s41586-020-03070-1. PMID  33408373. S2CID  211010976.
  61. ^ «Фотонные чипы сдерживают энергетический аппетит тренировок ИИ - Спектр IEEE» .
  62. ^ «NVIDIA выпускает первый в мире графический процессор GeForce 256» . Архивировано из оригинала 27 февраля 2016 года.
  63. ^ «Intel внедрит процессорный блок VPU в чипы Meteor Lake 14-го поколения» . ПКМАГ .
  64. ^ abc Чен, Ю-Синь; Эмер, Джоэл; Сзе, Вивьен (2017). «Eyeriss: пространственная архитектура для энергоэффективного потока данных для сверточных нейронных сетей». IEEE Micro : 1. doi : 10.1109/mm.2017.265085944. hdl : 1721.1/102369 . ISSN  0272-1732.
  65. ^ Аб Хан, Сун; Лю, Синъюй; Мао, Хуэйцзы; Пу, Цзин; Педрам, Ардаван; Горовиц, Марк А.; Далли, Уильям Дж. (3 февраля 2016 г.). EIE: эффективный механизм вывода на сжатой глубокой нейронной сети . ОСЛК  1106232247.
  66. ^ Риген, Брэндон; Что за фигня, Пол; Адольф, Роберт; Рама, Сакет; Ли, Хюнкван; Ли, Сэ Гю; Эрнандес-Лобато, Хосе Мигель; Вэй, Гу Ён; Брукс, Дэвид (июнь 2016 г.). «Минерва: использование маломощных и высокоточных ускорителей глубоких нейронных сетей». 2016 43-й ежегодный международный симпозиум ACM/IEEE по компьютерной архитектуре (ISCA) . Сеул: IEEE. стр. 267–278. дои : 10.1109/ISCA.2016.32. ISBN 978-1-4673-8947-1.
  67. ^ Джадд, Патрик; Альберисио, Хорхе; Мошовос, Андреас (1 января 2017 г.). «Полосы: побитовые вычисления на глубоких нейронных сетях». Письма IEEE по компьютерной архитектуре . 16 (1): 80–83. дои : 10.1109/lca.2016.2597140. ISSN  1556-6056. S2CID  3784424.
  68. ^ abc Джуппи, Н.; Янг, К.; Патил, Н.; Паттерсон, Д. (24 июня 2017 г.). Анализ производительности тензорного процессора в центре обработки данных . Ассоциация вычислительной техники . стр. 1–12. дои : 10.1145/3079856.3080246 . ISBN 9781450348928. S2CID  4202768.
  69. ^ «Карта-ускоритель интеллекта MLU 100» (на японском языке). Камбрикон. 2024 . Проверено 8 января 2024 г.
  70. ^ Аб Чи, Пинг; Ли, Шуанчэнь; Сюй, Конг; Чжан, Тао; Чжао, Цзишэнь; Лю, Юнпан; Ван, Ю; Се, Юань (июнь 2016 г.). «PRIME: новая архитектура обработки в памяти для вычислений нейронных сетей в основной памяти на основе ReRAM». 2016 43-й ежегодный международный симпозиум ACM/IEEE по компьютерной архитектуре (ISCA) . IEEE. стр. 27–39. дои : 10.1109/isca.2016.13. ISBN 978-1-4673-8947-1.
  71. ^ abc Song, Линхао; Цянь, Сюэхай; Ли, Хай ; Чен, Иран (февраль 2017 г.). «PipeLayer: конвейерный ускоритель на основе ReRAM для глубокого обучения». Международный симпозиум IEEE по высокопроизводительной компьютерной архитектуре (HPCA) 2017 . IEEE. стр. 541–552. дои : 10.1109/hpca.2017.55. ISBN 978-1-5090-4985-1. S2CID  15281419.
  72. ^ Шин, Донджу; Ли, Джинмук; Ли, Джинсу; Ю, Хой-Джун (2017). «14.2 DNPU: реконфигурируемый процессор CNN-RNN производительностью 8,1 TOPS/Вт для глубоких нейронных сетей общего назначения». Международная конференция IEEE по твердотельным схемам (ISSCC) , 2017 г. стр. 240–241. дои : 10.1109/ISSCC.2017.7870350. ISBN 978-1-5090-3758-2. S2CID  206998709 . Проверено 24 августа 2023 г.
  73. ^ Ли, Джинмук; Ким, Чанхён; Канг, Санхун; Шин, Донджу; Ким, Сангеп; Ю, Хой-Джун (2018). «UNPU: унифицированный ускоритель глубоких нейронных сетей производительностью 50,6TOPS/Вт с полностью переменным весом и битовой точностью от 1b до 16b». Международная конференция IEEE по твердотельным схемам 2018 г. (ISSCC) . стр. 218–220. дои : 10.1109/ISSCC.2018.8310262. ISBN 978-1-5090-4940-0. S2CID  3861747 . Проверено 30 ноября 2023 г.
  74. ^ Лю, Шаоли; Ду, Цзидун; Тао, Цзиньхуа; Хан, Донг; Луо, Тао; Се, Юань; Чен, Юнджи; Чен, Тяньши (июнь 2016 г.). «Cambricon: архитектура набора команд для нейронных сетей». 43-й ежегодный международный симпозиум ACM/IEEE по компьютерной архитектуре (ISCA) , 2016 г. IEEE. стр. 393–405. дои : 10.1109/isca.2016.42. ISBN 978-1-4673-8947-1.
  75. ^ аб Амброджо, Стефано; Нарайанан, Притиш; Цай, Синьюй; Шелби, Роберт М.; Бойбат, Ирем; ди Нольфо, Кармело; Сидлер, Северин; Джордано, Массимо; Бодини, Мартина; Фаринья, Натан КП; Киллин, Бенджамин (июнь 2018 г.). «Ускоренное обучение нейронных сетей с эквивалентной точностью с использованием аналоговой памяти». Природа . 558 (7708): 60–67. Бибкод : 2018Natur.558...60A. дои : 10.1038/s41586-018-0180-5. ISSN  0028-0836. PMID  29875487. S2CID  46956938.
  76. ^ Чен, Вэй-Хао; Линь, Вэнь-Цжан; Лай, Ли-Я; Ли, Шуанчэнь; Сюй, Цзянь-Хуа; Линь, Хуан-Тин; Ли, Хэн-Юань; Су, Цзянь-Вэй; Се, Юань; Шеу, Шых-Шюань; Чанг, Мэн-Фан (декабрь 2017 г.). «Двухрежимный макрос ReRAM объемом 16 МБ с вычислениями в памяти менее 14 нс и функциями памяти, активируемыми схемой завершения самозаписи». Международная конференция IEEE по электронным устройствам (IEDM) , 2017 г. IEEE. стр. 28.2.1–28.2.4. doi : 10.1109/iedm.2017.8268468. ISBN 978-1-5386-3559-9. S2CID  19556846.
  77. ^ Ян, Дж. Джошуа; Струков Дмитрий Б.; Стюарт, Дункан Р. (январь 2013 г.). «Мемристивные устройства для вычислений». Природные нанотехнологии . 8 (1): 13–24. Бибкод : 2013NatNa...8...13Y. дои : 10.1038/nnano.2012.240. ISSN  1748-3395. ПМИД  23269430.
  78. ^ Шафии, Али; Наг, Анирбан; Муралиманохар, Навин; Баласубрамонян, Раджив; Страчан, Джон Пол; Ху, Мяо; Уильямс, Р. Стэнли; Шрикумар, Вивек (12 октября 2016 г.). "ИСААК". Новости компьютерной архитектуры ACM SIGARCH . 44 (3): 14–26. дои : 10.1145/3007787.3001139. ISSN  0163-5964. S2CID  6329628.
  79. Цзи, Юй Чжан, Юян Се, Синьфэн Ли, Шуанчен Ван, Пейци Ху, Син Чжан, Юхуэй Се, Юань (27 января 2019 г.). FPSA: комплексное системное решение для реконфигурируемой архитектуры NN-ускорителя на базе ReRAM . ОСЛК  1106329050.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  80. ^ Нандакумар, СР; Бойбат, Ирем; Джоши, Винай; Пивето, Кристоф; Ле Галло, Мануэль; Раджендран, Бипин; Себастьян, Абу; Элефтериу, Евангелос (ноябрь 2019 г.). «Модели памяти с фазовым изменением для глубокого обучения и вывода». 2019 26-я Международная конференция IEEE по электронике, схемам и системам (ICECS) . IEEE. стр. 727–730. doi : 10.1109/icecs46596.2019.8964852. ISBN 978-1-7281-0996-1. S2CID  210930121.
  81. ^ Джоши, Винай; Ле Галло, Мануэль; Хафели, Саймон; Бойбат, Ирем; Нандакумар, СР; Пивето, Кристоф; Дацци, Мартино; Раджендран, Бипин; Себастьян, Абу; Элефтериу, Евангелос (18 мая 2020 г.). «Точный вывод глубоких нейронных сетей с использованием вычислительной памяти с фазовым изменением». Природные коммуникации . 11 (1): 2473. arXiv : 1906.03138 . Бибкод : 2020NatCo..11.2473J. дои : 10.1038/s41467-020-16108-9 . ISSN  2041-1723. ПМК 7235046 . ПМИД  32424184. 
  82. ^ «Nvidia заявляет о« рекордной производительности »дебюта Хоппера MLPerf» .
  83. ^ «Разработка системы машинного зрения для борьбы с сорняками с использованием прецизионного химического применения» (PDF) . Университет Флориды . CiteSeerX 10.1.1.7.342 . Архивировано из оригинала (PDF) 23 июня 2010 г. 
  84. ^ «Технологии и решения для беспилотных автомобилей от NVIDIA Automotive» . NVIDIA .
  85. ^ «Movidius приводит в действие самый умный дрон в мире» . 16 марта 2016 г.
  86. ^ «Qualcomm Research привносит машинное обучение серверного класса в повседневные устройства, делая их умнее [ВИДЕО]» . Октябрь 2015.

Внешние ссылки