stringtranslate.com

Ускоритель ИИ

Ускоритель ИИ , процессор глубокого обучения или нейронный процессор ( NPU ) — это класс специализированных аппаратных ускорителей [1] или компьютерных систем [2] [3], предназначенных для ускорения приложений искусственного интеллекта и машинного обучения , включая искусственные нейронные сети и компьютерное зрение . Типичные приложения включают алгоритмы для робототехники , Интернета вещей и других задач с интенсивным использованием данных или датчиков. [4] Они часто представляют собой многоядерные конструкции и, как правило, ориентированы на арифметику низкой точности , новые архитектуры потоков данных или возможности вычислений в памяти . По состоянию на 2024 год типичная микросхема интегральной схемы ИИ содержит десятки миллиардов МОП -транзисторов . [5]

Ускорители ИИ, такие как нейронные процессоры (NPU), используются в мобильных устройствах, таких как Apple iPhone и сотовые телефоны Huawei [6], а также в персональных компьютерах, таких как ноутбуки Intel [7] , ноутбуки AMD [8] и кремниевые компьютеры Apple Mac . [9] Ускорители используются в серверах облачных вычислений , включая тензорные процессоры (TPU) в Google Cloud Platform [10] и чипы Trainium и Inferentia в Amazon Web Services . [11] Для устройств в этой категории существует ряд специфичных для поставщиков терминов, и это новая технология без доминирующего дизайна .

Графические процессоры, разработанные такими компаниями, как Nvidia и AMD, часто включают в себя аппаратное обеспечение, специально предназначенное для искусственного интеллекта, и обычно используются в качестве ускорителей искусственного интеллекта как для обучения, так и для вывода . [12]

История

Компьютерные системы часто дополняли ЦП специальными ускорителями для специализированных задач, известными как сопроцессоры . Известные аппаратные блоки для конкретных приложений включают видеокарты для графики , звуковые карты , графические процессоры и цифровые сигнальные процессоры . Поскольку в 2010-х годах рабочие нагрузки глубокого обучения и искусственного интеллекта стали более заметными, были разработаны или адаптированы из существующих продуктов специализированные аппаратные блоки для ускорения этих задач.

Ранние попытки

Первые попытки, такие как ETANN 80170NX компании Intel, включали аналоговые схемы для вычисления нейронных функций. [13]

Позже появились полностью цифровые чипы, такие как Nestor/Intel Ni1000 . Еще в 1993 году цифровые сигнальные процессоры использовались в качестве ускорителей нейронных сетей для ускорения программного обеспечения оптического распознавания символов . [14]

К 1988 году Вэй Чжан и др. обсуждали быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. [15] [16]

В 1990-х годах также предпринимались попытки создания параллельных высокопроизводительных систем для рабочих станций, ориентированных на различные приложения, включая моделирование нейронных сетей. [17] [18]

Ускорители на основе ПЛИС также впервые были исследованы в 1990-х годах как для вывода, так и для обучения. [19] [20]

В 2014 году Чен и др. предложили DianNao (китайское название «электрический мозг»), [21] для ускорения глубоких нейронных сетей, особенно. DianNao обеспечивает пиковую производительность 452 Gop/s (ключевых операций в глубоких нейронных сетях) на площади 3,02 мм2 и 485 мВт. Позже, преемники (DaDianNao, [22] ShiDianNao, [23] PuDianNao [24] ) были предложены той же группой, образовав семейство DianNao [25]

Смартфоны начали оснащаться ускорителями искусственного интеллекта, начиная с Qualcomm Snapdragon 820 в 2015 году. [26] [27]

Гетерогенные вычисления

Гетерогенные вычисления включают множество специализированных процессоров в одной системе или одном чипе, каждый из которых оптимизирован для определенного типа задачи. Архитектуры, такие как микропроцессор Cell [28], имеют функции, значительно пересекающиеся с ускорителями ИИ, включая: поддержку упакованной арифметики низкой точности, архитектуру потока данных и приоритет пропускной способности над задержкой. Микропроцессор Cell применялся для ряда задач [29] [30] [31], включая ИИ. [32] [33] [34]

В 2000-х годах процессоры также получили все более широкие блоки SIMD , обусловленные рабочими нагрузками видео и игр; а также поддержкой упакованных типов данных низкой точности . [35] Из-за растущей производительности процессоров они также используются для выполнения рабочих нагрузок ИИ. Процессоры превосходны для DNN с малым или средним масштабом параллелизма, для разреженных DNN и в сценариях с малым размером пакета.

Использование графических процессоров

Графические процессоры или GPU — это специализированное оборудование для обработки изображений и вычисления локальных свойств изображений. Математическая основа нейронных сетей и обработки изображений — это похожие, ошеломляюще параллельные задачи, включающие матрицы, что приводит к тому, что GPU все чаще используются для задач машинного обучения. [36] [37]

В 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения, то есть AlexNet, [38] , которая выиграла чемпионский титул в соревновании ISLVRC-2012. В 2010-х годах производители графических процессоров, такие как Nvidia, добавили функции, связанные с глубоким обучением, как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотека cuDNN).

В течение 2010-х годов графические процессоры продолжали развиваться в направлении содействия глубокому обучению, как для обучения, так и для вывода в таких устройствах, как беспилотные автомобили . [39] [40] Разработчики графических процессоров, такие как Nvidia NVLink, разрабатывают дополнительные возможности подключения для рабочих нагрузок потоков данных, от которых выигрывает ИИ. Поскольку графические процессоры все чаще применяются для ускорения ИИ, производители графических процессоров включили в себя аппаратное обеспечение , специфичное для нейронных сетей , для дальнейшего ускорения этих задач. [41] [42] Тензорные ядра предназначены для ускорения обучения нейронных сетей. [42]

Графические процессоры продолжают использоваться в крупномасштабных приложениях ИИ. Например, Summit , суперкомпьютер от IBM для Национальной лаборатории Оук-Ридж , [43] содержит 27 648 карт Nvidia Tesla V100, которые можно использовать для ускорения алгоритмов глубокого обучения.

Использование ПЛИС

Фреймворки глубокого обучения все еще развиваются, что затрудняет разработку индивидуального оборудования. Реконфигурируемые устройства, такие как программируемые пользователем вентильные матрицы (FPGA), облегчают развитие оборудования, фреймворков и программного обеспечения вместе друг с другом . [44] [19] [20] [45]

Microsoft использовала микросхемы FPGA для ускорения вывода для служб глубокого обучения в реальном времени. [46]

Использование НПУ

С 2017 года несколько процессоров и систем на кристалле имеют встроенные нейронные процессоры (NPU): например, Intel Meteor Lake , Apple A11 .

Появление специализированных микросхем ASIC для ускорения ИИ

В то время как графические процессоры и ПЛИС работают намного лучше, чем центральные процессоры для задач, связанных с ИИ, можно получить коэффициент эффективности до 10 [47] [48] с более специфической конструкцией, с помощью специализированной интегральной схемы (ASIC). [49] Эти ускорители используют такие стратегии, как оптимизированное использование памяти [ требуется ссылка ] и использование арифметики с более низкой точностью для ускорения вычислений и увеличения пропускной способности вычислений. [50] [51] Некоторые форматы с плавающей точкой низкой точности, используемые для ускорения ИИ, — это формат с половинной точностью и формат с плавающей точкой bfloat16 . [52] [53] Cerebras Systems создала специализированный ускоритель ИИ на основе самого большого процессора в отрасли, второго поколения Wafer Scale Engine (WSE-2), для поддержки рабочих нагрузок глубокого обучения. [54] [55]

Текущие исследования

Архитектуры вычислений в оперативной памяти

В июне 2017 года исследователи IBM анонсировали архитектуру, противоположную архитектуре фон Неймана, основанную на вычислениях в памяти и массивах памяти с изменением фазы, применяемых для обнаружения временной корреляции , намереваясь обобщить подход к гетерогенным вычислениям и системам с массовым параллелизмом . [56] В октябре 2018 года исследователи IBM анонсировали архитектуру, основанную на обработке в памяти и смоделированную на основе синаптической сети человеческого мозга, для ускорения глубоких нейронных сетей . [57] Система основана на массивах памяти с изменением фазы. [58]

Вычисления в оперативной памяти с использованием аналоговой резистивной памяти

В 2019 году исследователи из Миланского политехнического университета нашли способ решать системы линейных уравнений за несколько десятков наносекунд с помощью одной операции. Их алгоритм основан на вычислениях в оперативной памяти с аналоговой резистивной памятью, которая работает с высокой эффективностью времени и энергии, выполняя умножение матрицы на вектор за один шаг с использованием закона Ома и закона Кирхгофа. Исследователи показали, что схема обратной связи с резистивной памятью с перекрестными точками может решать алгебраические задачи, такие как системы линейных уравнений, собственные векторы матриц и дифференциальные уравнения всего за один шаг. Такой подход радикально сокращает время вычислений по сравнению с цифровыми алгоритмами. [59]

Атомно-тонкие полупроводники

В 2020 году Марега и др. опубликовали эксперименты с материалом активного канала большой площади для разработки логических устройств в памяти и схем на основе полевых транзисторов с плавающим затвором (FGFET). [60] Такие атомарно тонкие полупроводники считаются перспективными для энергоэффективных приложений машинного обучения , где одна и та же базовая структура устройства используется как для логических операций, так и для хранения данных. Авторы использовали двумерные материалы, такие как полупроводниковый дисульфид молибдена, для точной настройки FGFET в качестве строительных блоков, в которых логические операции могут выполняться с элементами памяти. [60]

Интегрированное фотонное тензорное ядро

В 1988 году Вэй Чжан и др. обсуждали быстрые оптические реализации сверточных нейронных сетей для распознавания алфавита. [15] [16] В 2021 году Дж. Фельдман и др. предложили интегрированный фотонный аппаратный ускоритель для параллельной сверточной обработки. [61] Авторы выделяют два ключевых преимущества интегрированной фотоники по сравнению с ее электронными аналогами: (1) массивно-параллельная передача данных посредством мультиплексирования с разделением по длине волны в сочетании с частотными гребнями и (2) чрезвычайно высокие скорости модуляции данных. [61] Их система может выполнять триллионы операций умножения-накопления в секунду, что указывает на потенциал интегрированной фотоники в приложениях ИИ с большим объемом данных. [61] Оптические процессоры, которые также могут выполнять обратное распространение для искусственных нейронных сетей, были экспериментально разработаны. [62]

Номенклатура

По состоянию на 2016 год эта область все еще находится в состоянии изменения, и поставщики продвигают свой собственный маркетинговый термин для того, что можно назвать «ускорителем ИИ», в надежде, что их разработки и API станут доминирующими . Нет единого мнения о границе между этими устройствами, равно как и о точной форме, которую они примут; однако несколько примеров явно нацелены на заполнение этого нового пространства с изрядным количеством совпадений в возможностях.

В прошлом, когда появились потребительские графические ускорители , отрасль в конечном итоге приняла самоназначенный термин Nvidia, «GPU», [ 63] как собирательное существительное для «графических ускорителей», которое принимало множество форм, прежде чем остановиться на общем конвейере , реализующем модель, представленную Direct3D [ необходимо разъяснение ] .

Все модели процессоров Intel Meteor Lake имеют встроенный универсальный процессорный блок ( VPU ) для ускорения вывода для компьютерного зрения и глубокого обучения. [64]

Процессоры глубокого обучения (DLP)

Вдохновленные пионерской работой DianNao Family, многие DLP предлагаются как в академической среде, так и в промышленности с оптимизированным дизайном для использования возможностей глубоких нейронных сетей для высокой эффективности. На ISCA 2016 три сессии (15%) принятых докладов были сосредоточены на архитектурных проектах глубокого обучения. Такие усилия включают Eyeriss (MIT), [65] EIE (Стэнфорд), [66] Minerva (Гарвард), [67] Stripes (Университет Торонто) в академической среде, [68] TPU (Google), [69] и MLU ( Cambricon ) в промышленности. [70] Мы перечислили несколько репрезентативных работ в Таблице 1.

Цифровые DLP

Основные компоненты архитектуры DLP обычно включают вычислительный компонент, иерархию памяти на кристалле и управляющую логику, которая управляет потоками передачи данных и вычислений.

Что касается вычислительного компонента, поскольку большинство операций в глубоком обучении можно объединить в векторные операции, наиболее распространенными способами построения вычислительных компонентов в цифровых DLP являются организация на основе MAC (множитель-накопление), либо с векторными MAC [21] [22] [24], либо с скалярными MAC. [69] [23] [65] Вместо SIMD или SIMT в общих устройствах обработки, параллелизм, специфичный для домена глубокого обучения, лучше изучен на этих организациях на основе MAC. Что касается иерархии памяти, поскольку алгоритмы глубокого обучения требуют высокой пропускной способности для предоставления вычислительному компоненту достаточного объема данных, DLP обычно используют относительно больший размер (десятки килобайт или несколько мегабайт) внутричипового буфера, но с выделенной внутричиповой стратегией повторного использования данных и стратегией обмена данными для облегчения нагрузки на пропускную способность памяти. Например, DianNao, 16 16-дюймовый векторный MAC, требует 16 × 16 × 2 = 512 16-битных данных, т. е. почти 1024 ГБ/с пропускной способности между вычислительными компонентами и буферами. При повторном использовании на кристалле такие требования к пропускной способности резко сокращаются. [21] Вместо широко используемого кэша в общих устройствах обработки DLP всегда используют память scratchpad, поскольку она может обеспечить более высокие возможности повторного использования данных за счет использования относительно регулярной схемы доступа к данным в алгоритмах глубокого обучения. Что касается логики управления, поскольку алгоритмы глубокого обучения продолжают развиваться с огромной скоростью, DLP начинают использовать выделенную ISA (архитектуру набора инструкций) для гибкой поддержки домена глубокого обучения. Сначала DianNao использовал набор инструкций в стиле VLIW, где каждая инструкция могла завершать слой в DNN. Cambricon [75] представляет первую ISA для домена глубокого обучения, которая могла поддерживать более десяти различных алгоритмов глубокого обучения. TPU также раскрывает пять ключевых инструкций ISA в стиле CISC.

Гибридные DLP

Гибридные DLP появляются для вывода DNN и ускорения обучения из-за их высокой эффективности. Архитектуры обработки в памяти (PIM) являются одним из наиболее важных типов гибридных DLP. Ключевая концепция дизайна PIM заключается в преодолении разрыва между вычислениями и памятью следующими способами: 1) Перемещение компонентов вычислений в ячейки памяти, контроллеры или микросхемы памяти для устранения проблемы стены памяти. [72] [76] [77] Такие архитектуры значительно сокращают пути данных и используют гораздо более высокую внутреннюю пропускную способность, что приводит к привлекательному улучшению производительности. 2) Создание высокоэффективных механизмов DNN путем внедрения вычислительных устройств. В 2013 году HP Lab продемонстрировала поразительную возможность внедрения структуры перекрестных связей ReRAM для вычислений. [78] Вдохновленные этой работой, предлагается провести огромную работу по исследованию новой архитектуры и проектирования системы на основе ReRAM, [71] [79] [80] [72] памяти с изменением фазы, [76] [81] [82] и т. д.

Показатели

Для оценки производительности ускорителей ИИ можно использовать такие тесты, как MLPerf и другие. [83] В таблице 2 перечислены несколько типичных тестов для ускорителей ИИ.

Потенциальные приложения

Смотрите также

Ссылки

  1. ^ "Intel представляет Movidius Compute Stick USB AI Accelerator". 21 июля 2017 г. Архивировано из оригинала 11 августа 2017 г. Получено 11 августа 2017 г.
  2. ^ «Inspurs представляет ускоритель искусственного интеллекта GX4» . 21 июня 2017 г.
  3. Wiggers, Kyle (6 ноября 2019 г.) [2019], Neural Magic привлекает 15 миллионов долларов для повышения скорости вывода ИИ на готовых процессорах, заархивировано из оригинала 6 марта 2020 г. , извлечено 14 марта 2020 г.
  4. ^ "Google разрабатывает процессоры искусственного интеллекта". 18 мая 2016 г.Google использует собственные ускорители искусственного интеллекта.
  5. ^ Мосс, Себастьян (23 марта 2022 г.). «Nvidia представляет новый графический процессор Hopper H100 с 80 миллиардами транзисторов». Data Center Dynamics . Получено 30 января 2024 г.
  6. ^ «HUAWEI раскрывает будущее мобильного ИИ на выставке IFA».
  7. ^ "Процессоры Intel Lunar Lake поступят в продажу в третьем квартале 2024 года". Intel .
  8. ^ «Архитектура AMD XDNA».
  9. ^ «Развертывание Transformers на Apple Neural Engine». Apple Machine Learning Research . Получено 24 августа 2023 г.
  10. ^ Jouppi, Norman P.; et al. (24 июня 2017 г.). «Анализ производительности тензорного процессора в центре обработки данных». ACM SIGARCH Computer Architecture News . 45 (2): 1–12. arXiv : 1704.04760 . doi : 10.1145/3140659.3080246 .
  11. ^ «Как кремниевые инновации стали «секретным соусом» успеха AWS». Amazon Science . 27 июля 2022 г. Получено 19 июля 2024 г.
  12. ^ Патель, Дилан; Нишболл, Дэниел; Кси, Майрон (9 ноября 2023 г.). «Новые китайские чипы искусственного интеллекта от Nvidia обходят ограничения США». SemiAnalysis . Получено 7 февраля 2024 г.
  13. Dvorak, JC (29 мая 1990 г.). «Inside Track». PC Magazine . Получено 26 декабря 2023 г.
  14. ^ "демонстрация сверточной нейронной сети 1993 года с использованием ускорителя DSP32". YouTube . 2 июня 2014 г.
  15. ^ ab Zhang, Wei (1988). "Нейронная сеть распознавания образов, инвариантная к сдвигу, и ее оптическая архитектура". Труды ежегодной конференции Японского общества прикладной физики .
  16. ^ ab Zhang, Wei (1990). «Параллельная распределенная модель обработки с локальными пространственно-инвариантными взаимосвязями и ее оптическая архитектура». Applied Optics . 29 (32): 4790–7. Bibcode : 1990ApOpt..29.4790Z. doi : 10.1364/AO.29.004790. PMID  20577468.
  17. ^ Asanović, K.; Beck, J.; Feldman, J.; Morgan, N.; Wawrzynek, J. (январь 1994). «Проектирование коннекционистского сетевого суперкомпьютера». International Journal of Neural Systems . 4 (4). ResearchGate: 317–26. doi :10.1142/S0129065793000250. PMID  8049794. Получено 26 декабря 2023 г.
  18. ^ "Конец универсальных компьютеров (нет)". YouTube . 17 апреля 2015 г.
  19. ^ ab Gschwind, M.; Salapura, V.; Maischberger, O. (февраль 1995 г.). "Space Efficient Neural Net Implementation" . Получено 26 декабря 2023 г. .
  20. ^ ab Gschwind, M.; Salapura, V.; Maischberger, O. (1996). "A Generic Building Block for Hopfield Neural Networks with On-Chip Learning". 1996 IEEE International Symposium on Circuits and Systems. Circuits and Systems Connecting the World. ISCAS 96. pp. 49–52. doi :10.1109/ISCAS.1996.598474. ISBN 0-7803-3073-0. S2CID  17630664.
  21. ^ abcd Чен, Тяньши; Ду, Цзидун; Сунь, Нинхуэй; Ван, Цзя; Ву, Чэнён; Чен, Юнджи; Темам, Оливье (5 апреля 2014 г.). «ДианНао». Новости компьютерной архитектуры ACM SIGARCH . 42 (1): 269–284. дои : 10.1145/2654822.2541967 . ISSN  0163-5964.
  22. ^ abc Чен, Юнджи; Луо, Тао; Лю, Шаоли; Чжан, Шиджин; Он, Лицян; Ван, Цзя; Ли, Линг; Чен, Тяньши; Сюй, Живэй; Сунь, Нинхуэй; Темам, Оливье (декабрь 2014 г.). «DaDianNao: суперкомпьютер машинного обучения». 2014 47-й ежегодный международный симпозиум IEEE/ACM по микроархитектуре . IEEE. стр. 609–622. дои : 10.1109/микро.2014.58. ISBN 978-1-4799-6998-2. S2CID  6838992.
  23. ^ abc Du, Zidong; Fasthuber, Robert; Chen, Tianshi; Ienne, Paolo; Li, Ling; Luo, Tao; Feng, Xiaobing; Chen, Yunji; Temam, Olivier (4 января 2016 г.). "ShiDianNao". ACM SIGARCH Computer Architecture News . 43 (3S): 92–104. doi :10.1145/2872887.2750389. ISSN  0163-5964.
  24. ^ abc Лю, Даофу; Чен, Тяньши; Лю, Шаоли; Чжоу, Цзиньхун; Чжоу, Шэнъюань; Теман, Оливье; Фэн, Сяобин; Чжоу, Сюэхай; Чен, Юнджи (29 мая 2015 г.). «ПуДяньНао». Новости компьютерной архитектуры ACM SIGARCH . 43 (1): 369–381. дои : 10.1145/2786763.2694358. ISSN  0163-5964.
  25. ^ Чен, Юнджи; Чен, Тяньши; Сюй, Живэй; Сунь, Нинхуэй; Темам, Оливье (28 октября 2016 г.). «Семья ДианНао». Коммуникации АКМ . 59 (11): 105–112. дои : 10.1145/2996864. ISSN  0001-0782. S2CID  207243998.
  26. ^ «Qualcomm помогает сделать ваши мобильные устройства умнее с новым комплектом разработки программного обеспечения для машинного обучения Snapdragon». Qualcomm .
  27. ^ Рубин, Бен Фокс. «Платформа Zeroth от Qualcomm может сделать ваш смартфон намного умнее». CNET . Получено 28 сентября 2021 г.
  28. ^ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). «Синергическая обработка в многоядерной архитектуре Cell». IEEE Micro . 26 (2): 10–24. doi :10.1109/MM.2006.41. S2CID  17834015.
  29. ^ Де Фабритиис, Г. (2007). «Производительность процессора Cell для биомолекулярного моделирования». Computer Physics Communications . 176 (11–12): 660–664. arXiv : physics/0611201 . Bibcode : 2007CoPhC.176..660D. doi : 10.1016/j.cpc.2007.02.107. S2CID  13871063.
  30. ^ Обработка и извлечение видеоданных по архитектуре ячеек . CiteSeerX 10.1.1.138.5133 . 
  31. ^ Бентин, Карстен; Вальд, Инго; Шербаум, Майкл; Фридрих, Хайко (2006). Симпозиум IEEE 2006 г. по интерактивной трассировке лучей . стр. 15–23. CiteSeerX 10.1.1.67.8982 . дои : 10.1109/RT.2006.280210. ISBN  978-1-4244-0693-7. S2CID  1198101.
  32. ^ "Разработка искусственной нейронной сети на гетерогенной многоядерной архитектуре для прогнозирования успешного снижения веса у лиц с ожирением" (PDF) . Архивировано из оригинала (PDF) 30 августа 2017 г. . Получено 14 ноября 2017 г. .
  33. ^ Квон, Бомджун; Чой, Тайхо; Чунг, Хиджин; Ким, Геонхо (2008). 5-я конференция IEEE по потребительским коммуникациям и сетям 2008 г. стр. 1030–1034. doi :10.1109/ccnc08.2007.235. ISBN 978-1-4244-1457-4. S2CID  14429828.
  34. ^ Дуань, Рубинг; Стрей, Альфред (2008). Euro-Par 2008 – Параллельная обработка . Конспект лекций по информатике. Том 5168. С. 665–675. doi :10.1007/978-3-540-85451-7_71. ISBN 978-3-540-85450-0.
  35. ^ "Улучшение производительности видео с помощью AVX". 8 февраля 2012 г.
  36. ^ Челлапилла, К.; Сидд Пури; Симард, П. (23 октября 2006 г.). «Высокопроизводительные сверточные нейронные сети для обработки документов». 10-й международный семинар по передовым рубежам в распознавании рукописного текста . Получено 23 декабря 2023 г.
  37. ^ Крижевский, А.; Суцкевер, И.; Хинтон, GE (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Сообщения ACM . 60 (6): 84–90. doi : 10.1145/3065386 .
  38. ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями». Сообщения ACM . 60 (6): 84–90. doi : 10.1145/3065386 .
  39. ^ Роу, Р. (17 мая 2023 г.). «Nvidia в кресле водителя для глубокого обучения». insideHPC . Получено 23 декабря 2023 г. .
  40. ^ Бон, Д. (5 января 2016 г.). «Nvidia анонсирует «суперкомпьютер» для беспилотных автомобилей на выставке CES 2016». Vox Media . Получено 23 декабря 2023 г. .
  41. ^ «Обзор оптимизированной реализации моделей глубокого обучения на платформе NVIDIA Jetson», 2019 г.
  42. ^ ab Harris, Mark (11 мая 2017 г.). "CUDA 9 Features Revealed: Volta, Cooperative Groups and More" . Получено 12 августа 2017 г. .
  43. ^ "Summit: 200 петафлопсный суперкомпьютер Национальной лаборатории Оук-Ридж". Министерство энергетики США . 2024. Получено 8 января 2024 г.
  44. ^ Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan (август 2019 г.). «Ускорение горячих точек в глубоких нейронных сетях на базе CAPI FPGA». 2019 IEEE 21-я Международная конференция по высокопроизводительным вычислениям и коммуникациям; IEEE 17-я Международная конференция по умному городу; IEEE 5-я Международная конференция по науке о данных и системах (HPCC/SmartCity/DSS) . стр. 248–256. doi :10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN 978-1-7281-2058-4. S2CID  203656070.
  45. ^ "Ускорители глубокого обучения на базе FPGA против ASIC". The Next Platform . 23 августа 2016 г. Получено 7 сентября 2016 г.
  46. ^ "Microsoft представляет проект Brainwave для искусственного интеллекта в реальном времени". Microsoft . 22 августа 2017 г.
  47. ^ "Google ускоряет машинное обучение с помощью своего Tensor Processing Unit". 19 мая 2016 г. Получено 13 сентября 2016 г.
  48. ^ «Чип может принести глубокое обучение на мобильные устройства». www.sciencedaily.com . 3 февраля 2016 г. Получено 13 сентября 2016 г.
  49. ^ "Google Cloud анонсирует 5-е поколение своих собственных TPU". 29 августа 2023 г.
  50. ^ «Глубокое обучение с ограниченной числовой точностью» (PDF) .
  51. ^ Растегари, Мохаммед; Ордонес, Висенте; Редмон, Джозеф; Фархади, Али (2016). «XNOR-Net: классификация ImageNet с использованием двоичных сверточных нейронных сетей». arXiv : 1603.05279 [cs.CV].
  52. ^ Lucian Armasu (23 мая 2018 г.). "Intel выпустит Spring Crest, свой первый процессор для нейронных сетей, в 2019 году". Tom's Hardware . Получено 23 мая 2018 г. Intel заявила, что NNP-L1000 также будет поддерживать bfloat16, числовой формат, который принимается всеми игроками отрасли МО для нейронных сетей. Компания также будет поддерживать bfloat16 в своих ПЛИС, Xeon и других продуктах МО. Nervana NNP-L1000 запланирован к выпуску в 2019 году.
  53. ^ Джошуа В. Диллон; Иэн Лэнгмор; Дастин Тран; Юджин Бревдо; Шринивас Васудеван; Дэйв Мур; Брайан Паттон; Алекс Алеми; Мэтт Хоффман; Риф А. Саурус (28 ноября 2017 г.). TensorFlow Distributions (отчет). arXiv : 1711.10604 . Bibcode :2017arXiv171110604D. Доступ 23 мая 2018 г. Все операции в TensorFlow Distributions численно стабильны при половинной, одинарной и двойной точности с плавающей точкой (как типы данных TensorFlow: tf.bfloat16 (усеченная плавающая точка), tf.float16, tf.float32, tf.float64). Конструкторы классов имеют флаг validate_args для числовых утверждений.
  54. ^ Вуди, Алекс (1 ноября 2021 г.). «Cerebras Hits the Accelerator for Deep Learning Workloads». Datanami . Получено 3 августа 2022 г.
  55. ^ "Cerebras запускает новый суперкомпьютерный процессор ИИ с 2,6 триллионами транзисторов". VentureBeat . 20 апреля 2021 г. Получено 3 августа 2022 г.
  56. ^ Абу Себастьян; Томас Тума; Николаос Папандреу; Мануэль Ле Галло; Лукас Кулл; Томас Парнелл; Эвангелос Элефтериу (2017). «Временное обнаружение корреляции с использованием вычислительной памяти с изменением фазы». Nature Communications . 8 (1): 1115. arXiv : 1706.00511 . Bibcode :2017NatCo...8.1115S. doi :10.1038/s41467-017-01481-9. PMC 5653661 . PMID  29062022. 
  57. ^ «Новая архитектура, вдохновленная мозгом, может улучшить обработку данных компьютерами и усовершенствовать искусственный интеллект». Американский институт физики . 3 октября 2018 г. Получено 5 октября 2018 г.
  58. ^ Карлос Риос; Натан Янгблад; Цзэнгуан Чэн; Мануэль Ле Галло; Вольфрам HP Пернис; К. Дэвид Райт; Абу Себастьян; Хариш Бхаскаран (2018). «Вычисления в памяти на фотонной платформе». Достижения науки . 5 (2): eaau5759. arXiv : 1801.06228 . Бибкод : 2019SciA....5.5759R. doi : 10.1126/sciadv.aau5759. ПМК 6377270 . PMID  30793028. S2CID  7637801. 
  59. ^ Чжун Сан; Джакомо Педретти; Элия Амбрози; Алессандро Брикалли; Вэй Ван; Даниэле Иелмини (2019). «Решение матричных уравнений за один шаг с помощью резистивных решеток с перекрестными точками». Труды Национальной академии наук . 116 (10): 4123–4128. Bibcode : 2019PNAS..116.4123S. doi : 10.1073/pnas.1815682116 . PMC 6410822. PMID  30782810 . 
  60. ^ аб Марега, Гильерме Мильято; Чжао, Яньфэй; Авсар, Ахмет; Ван, Чжэньюй; Трипати, Мукеш; Раденович, Александра; Кис, Анрас (2020). «Логика в памяти на основе атомарно тонкого полупроводника». Природа . 587 (2): 72–77. Бибкод :2020Natur.587...72M. дои : 10.1038/s41586-020-2861-0. ПМЦ 7116757 . ПМИД  33149289. 
  61. ^ abc Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). «Параллельная сверточная обработка с использованием интегрированного фотонного тензора». Nature . 589 (2): 52–58. arXiv : 2002.00281 . doi :10.1038/s41586-020-03070-1. PMID  33408373. S2CID  211010976.
  62. ^ «Фотонные чипы сдерживают энергетический аппетит обучения ИИ — IEEE Spectrum».
  63. ^ "NVIDIA запускает первый в мире графический процессор GeForce 256". Архивировано из оригинала 27 февраля 2016 г.
  64. ^ "Intel добавит процессорный блок VPU в чипы Meteor Lake 14-го поколения". PCMAG .
  65. ^ abc Чен, Ю-Синь; Эмер, Джоэл; Сзе, Вивьен (2017). «Eyeriss: Пространственная архитектура для энергоэффективного потока данных для сверточных нейронных сетей». IEEE Micro : 1. doi :10.1109/mm.2017.265085944. hdl : 1721.1/102369 . ISSN  0272-1732.
  66. ^ ab Хань, Сун; Лю, Синюй; Мао, Хуэйцзы; Пу, Цзин; Педрам, Ардаван; Горовиц, Марк А.; Далли, Уильям Дж. (3 февраля 2016 г.). EIE: Эффективная машина вывода на основе сжатой глубокой нейронной сети . OCLC  1106232247.
  67. ^ Reagen, Brandon; Whatmough, Paul; Adolf, Robert; Rama, Saketh; Lee, Hyunkwang; Lee, Sae Kyu; Hernandez-Lobato, Jose Miguel; Wei, Gu-Yeon; Brooks, David (июнь 2016 г.). «Minerva: Enabling Low-Power, Highly-Accurate Deep Neural Network Accelerators». 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA) . Сеул: IEEE. стр. 267–278. doi :10.1109/ISCA.2016.32. ISBN 978-1-4673-8947-1.
  68. ^ Джадд, Патрик; Альберисио, Хорхе; Мошовос, Андреас (1 января 2017 г.). «Stripes: Bit-Serial Deep Neural Network Computing». IEEE Computer Architecture Letters . 16 (1): 80–83. doi :10.1109/lca.2016.2597140. ISSN  1556-6056. S2CID  3784424.
  69. ^ abc Jouppi, N.; Young, C.; Patil, N.; Patterson, D. (24 июня 2017 г.). Анализ производительности тензорного процессора в центре обработки данных . Ассоциация вычислительной техники . С. 1–12. doi : 10.1145/3079856.3080246 . ISBN 9781450348928. S2CID  4202768.
  70. ^ "MLU 100 intelligence accelerator card" (на японском). Cambricon. 2024. Получено 8 января 2024 г.
  71. ^ ab Chi, Ping; Li, Shuangchen; Xu, Cong; Zhang, Tao; Zhao, Jishen; Liu, Yongpan; Wang, Yu; Xie, Yuan (июнь 2016 г.). "PRIME: новая архитектура обработки в памяти для вычислений нейронных сетей в основной памяти на основе ReRAM". 2016 ACM/IEEE 43-й ежегодный международный симпозиум по архитектуре компьютеров (ISCA) . IEEE. стр. 27–39. doi :10.1109/isca.2016.13. ISBN 978-1-4673-8947-1.
  72. ^ abc Song, Linghao; Qian, Xuehai; Li, Hai ; Chen, Yiran (февраль 2017 г.). «PipeLayer: конвейерный ускоритель на основе ReRAM для глубокого обучения». Международный симпозиум IEEE 2017 г. по архитектуре высокопроизводительных компьютеров (HPCA) . IEEE. стр. 541–552. doi :10.1109/hpca.2017.55. ISBN 978-1-5090-4985-1. S2CID  15281419.
  73. ^ Шин, Донджу; Ли, Джинмук; Ли, Джинсу; Ю, Хой-Джун (2017). «14.2 DNPU: реконфигурируемый процессор CNN-RNN производительностью 8,1 TOPS/Вт для глубоких нейронных сетей общего назначения». Международная конференция IEEE по твердотельным схемам (ISSCC) , 2017 г. стр. 240–241. дои : 10.1109/ISSCC.2017.7870350. ISBN 978-1-5090-3758-2. S2CID  206998709 . Получено 24 августа 2023 г. .
  74. ^ Ли, Джинмук; Ким, Чанхён; Кан, Санхун; Шин, Донджу; Ким, Сангёб; Ю, Хой-Джун (2018). "UNPU: унифицированный ускоритель глубоких нейронных сетей с производительностью 50,6 TOPS/W и точностью битов полностью переменного веса от 1 до 16 бит". Международная конференция IEEE по твердотельным схемам 2018 г. (ISSCC) . стр. 218–220. doi :10.1109/ISSCC.2018.8310262. ISBN 978-1-5090-4940-0. S2CID  3861747 . Получено 30 ноября 2023 г. .
  75. ^ Лю, Шаоли; Ду, Цзыдун; Тао, Цзиньхуа; Хань, Дун; Ло, Тао; Се, Юань; Чэнь, Юньцзи; Чэнь, Тяньши (июнь 2016 г.). «Cambricon: Архитектура набора инструкций для нейронных сетей». 2016 ACM/IEEE 43-й ежегодный международный симпозиум по архитектуре компьютеров (ISCA) . IEEE. стр. 393–405. doi :10.1109/isca.2016.42. ISBN 978-1-4673-8947-1.
  76. ^ ab Амброджио, Стефано; Нараянан, Притиш; Цай, Синью; Шелби, Роберт М.; Бойбат, Ирем; ди Нолфо, Кармело; Сидлер, Северин; Джордано, Массимо; Бодини, Мартина; Фаринья, Натан CP; Киллин, Бенджамин (июнь 2018 г.). «Эквивалентно-точное ускоренное обучение нейронных сетей с использованием аналоговой памяти». Nature . 558 (7708): 60–67. Bibcode :2018Natur.558...60A. doi :10.1038/s41586-018-0180-5. ISSN  0028-0836. PMID  29875487. S2CID  46956938.
  77. ^ Чэнь, Вэй-Хао; Линь, Вэнь-Джан; Лай, Ли-Я; Ли, Шуанчен; Сю, Цзянь-Хуа; Линь, Хуань-Тин; Ли, Хэн-Юань; Су, Цзянь-Вэй; Се, Юань; Шеу, Ши-Шюань; Чанг, Мэн-Фань (декабрь 2017 г.). «Макрос ReRAM с двумя режимами 16 МБ и функциями вычисления в памяти менее 14 нс, реализованными с помощью схемы самозавершения записи». Международная конференция IEEE по электронным приборам (IEDM) 2017 г. IEEE. стр. 28.2.1–28.2.4. doi :10.1109/iedm.2017.8268468. ISBN 978-1-5386-3559-9. S2CID  19556846.
  78. ^ Янг, Дж. Джошуа; Струков, Дмитрий Б.; Стюарт, Дункан Р. (январь 2013 г.). «Мемристивные устройства для вычислений». Nature Nanotechnology . 8 (1): 13–24. Bibcode : 2013NatNa...8...13Y. doi : 10.1038/nnano.2012.240. ISSN  1748-3395. PMID  23269430.
  79. ^ Шафии, Али; Наг, Анирбан; Муралиманохар, Навин; Баласубрамонян, Раджив; Страчан, Джон Пол; Ху, Мяо; Уильямс, Р. Стэнли; Шрикумар, Вивек (12 октября 2016 г.). "ИСААК". Новости компьютерной архитектуры ACM SIGARCH . 44 (3): 14–26. дои : 10.1145/3007787.3001139. ISSN  0163-5964. S2CID  6329628.
  80. Цзи, Юй Чжан, Юян Се, Синьфэн Ли, Шуанчен Ван, Пейци Ху, Син Чжан, Юхуэй Се, Юань (27 января 2019 г.). FPSA: комплексное системное решение для реконфигурируемой архитектуры NN-ускорителя на базе ReRAM . ОСЛК  1106329050.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  81. ^ Нандакумар, SR; Бойбат, Ирем; Джоши, Винай; Пивето, Кристоф; Ле Галло, Мануэль; Раджендран, Бипин; Себастьян, Абу; Элефтериу, Евангелос (ноябрь 2019 г.). «Модели памяти с изменением фазы для глубокого обучения и вывода». 2019 26-я Международная конференция IEEE по электронике, схемам и системам (ICECS) . IEEE. стр. 727–730. doi :10.1109/icecs46596.2019.8964852. ISBN 978-1-7281-0996-1. S2CID  210930121.
  82. ^ Джоши, Винай; Ле Галло, Мануэль; Хаефели, Саймон; Бойбат, Ирем; Нандакумар, СР; Пивето, Кристоф; Дацци, Мартино; Раджендран, Бипин; Себастьян, Абу; Элефтериу, Евангелос (18 мая 2020 г.). «Точный вывод глубокой нейронной сети с использованием вычислительной памяти с изменением фазы». Nature Communications . 11 (1): 2473. arXiv : 1906.03138 . Bibcode :2020NatCo..11.2473J. doi : 10.1038/s41467-020-16108-9 . ISSN  2041-1723. PMC 7235046 . PMID  32424184. 
  83. ^ "Nvidia заявляет о «рекордной производительности» дебюта Hopper MLPerf".
  84. ^ "Разработка системы машинного зрения для борьбы с сорняками с использованием точного внесения химикатов" (PDF) . Университет Флориды . CiteSeerX 10.1.1.7.342 . Архивировано из оригинала (PDF) 23 июня 2010 г. 
  85. ^ "Технологии и решения для беспилотных автомобилей от NVIDIA Automotive". NVIDIA .
  86. ^ "movidius создает самый интеллектуальный дрон в мире". 16 марта 2016 г.
  87. ^ «Qualcomm Research привносит машинное обучение серверного класса в повседневные устройства, делая их умнее [ВИДЕО]». Октябрь 2015 г.

Внешние ссылки