stringtranslate.com

Блок обработки тензора

Tensor Processing Unit ( TPU ) — это специализированная интегральная схема (ASIC) ускорителя искусственного интеллекта , разработанная Google для машинного обучения нейронных сетей с использованием собственного программного обеспечения Google TensorFlow . [2] Google начала использовать TPU для внутренних целей в 2015 году, а в 2018 году сделала их доступными для стороннего использования как в рамках своей облачной инфраструктуры, так и предложив уменьшенную версию чипа для продажи.

Сравнение с центральными и графическими процессорами

По сравнению с графическим процессором , TPU предназначены для большого объема вычислений с низкой точностью (например, с точностью всего 8 бит ) [3] с большим количеством операций ввода/вывода на джоуль , без аппаратного обеспечения для растеризации/ текстурного отображения . [4] По словам Нормана Джуппи, микросхемы TPU ASIC монтируются в радиаторной сборке, которая может поместиться в слот жесткого диска в стойке центра обработки данных . [5]

Различные типы процессоров подходят для различных типов моделей машинного обучения. TPU хорошо подходят для CNN , в то время как GPU имеют преимущества для некоторых полностью связанных нейронных сетей, а CPU могут иметь преимущества для RNN . [6]

История

Блок тензорной обработки был анонсирован в мае 2016 года на Google I/O , когда компания заявила, что TPU уже используется в их центрах обработки данных более года. [5] [4] В статье Google 2017 года, описывающей его создание, упоминаются предыдущие систолические матричные умножители аналогичной архитектуры, созданные в 1990-х годах. [7] Чип был специально разработан для фреймворка TensorFlow от Google , символьной математической библиотеки, которая используется для приложений машинного обучения, таких как нейронные сети . [8] Однако по состоянию на 2017 год Google все еще использовала центральные и графические процессоры для других типов машинного обучения . [5] Другие проекты ускорителей ИИ появляются также у других поставщиков и нацелены на рынки встраиваемых систем и робототехники .

TPU от Google являются собственностью компании. Некоторые модели доступны для приобретения, и 12 февраля 2018 года The New York Times сообщила, что Google «разрешит другим компаниям покупать доступ к этим чипам через свой сервис облачных вычислений». [9] Google заявила, что они использовались в серии игр AlphaGo против Ли Седоля в го -игре «человек против машины» , [4] а также в системе AlphaZero , которая создавала программы для игры в шахматы , сёги и го только по правилам игры и в дальнейшем превзошла ведущие программы в этих играх. [10] Google также использовала TPU для обработки текста в Google Street View и смогла найти весь текст в базе данных Street View менее чем за пять дней. В Google Photos отдельный TPU может обрабатывать более 100 миллионов фотографий в день. [5] Он также используется в RankBrain , который Google использует для предоставления результатов поиска. [11]

Google предоставляет третьим лицам доступ к TPU через свою службу Cloud TPU как часть Google Cloud Platform [12] и через свои службы Kaggle и Colaboratory на базе блокнотов . [13] [14]

Продукция

ТПУ первого поколения

TPU первого поколения — это 8-битный механизм умножения матриц , управляемый инструкциями CISC хост-процессора через шину PCIe 3.0 . Он производится по 28 -нм техпроцессу с размером кристалла ≤ 331  мм 2 . Тактовая частота составляет 700  МГц , а его тепловая мощность составляет 28–40  Вт . Он имеет 28  МБ встроенной памяти и 4  МБ 32-битных аккумуляторов , принимающих результаты систолического массива 256×256 8-битных умножителей . [7] Внутри пакета TPU находится 8  ГиБ двухканальной памяти DDR3 SDRAM 2133 МГц , обеспечивающей пропускную способность 34 ГБ/с. [17] Инструкции передают данные на хост или с него, выполняют умножение матриц или свертки и применяют функции активации . [7]

ТПУ второго поколения

Второе поколение TPU было анонсировано в мае 2017 года. [23] Google заявила, что конструкция TPU первого поколения была ограничена пропускной способностью памяти , а использование 16 ГБ памяти с высокой пропускной способностью во втором поколении увеличило пропускную способность до 600 ГБ/с и производительность до 45 тераФЛОПС . [ 17] Затем TPU объединяются в четырехчиповые модули с производительностью 180 терафлопс. [23] Затем 64 из этих модулей собираются в 256-чиповые модули с производительностью 11,5 петафлопс. [23] Примечательно, что в то время как TPU первого поколения были ограничены целыми числами, TPU второго поколения также могут выполнять вычисления с плавающей точкой , представляя формат bfloat16 , изобретенный Google Brain . Это делает TPU второго поколения полезными как для обучения, так и для вывода моделей машинного обучения. Google заявила, что эти TPU второго поколения будут доступны в Google Compute Engine для использования в приложениях TensorFlow. [24]

ТПУ третьего поколения

Третье поколение TPU было анонсировано 8 мая 2018 года. [25] Google объявила, что сами процессоры в два раза мощнее, чем TPU второго поколения, и будут развернуты в модулях с вчетверо большим количеством чипов, чем в предыдущем поколении. [26] [27] Это приводит к 8-кратному увеличению производительности на модуль (до 1024 чипов на модуль) по сравнению с развертыванием TPU второго поколения.

ТПУ четвертого поколения

18 мая 2021 года генеральный директор Google Сундар Пичаи рассказал о тензорных процессорах TPU v4 во время своего выступления на виртуальной конференции Google I/O. TPU v4 повысил производительность более чем в 2 раза по сравнению с чипами TPU v3. Пичаи сказал: «Один модуль v4 содержит 4096 чипов v4, и каждый модуль имеет в 10 раз большую пропускную способность межсоединений на чип в масштабе по сравнению с любой другой сетевой технологией». [28] В статье Google от апреля 2023 года утверждается, что TPU v4 на 5–87 % быстрее Nvidia A100 в тестах машинного обучения . [29]

Существует также версия «inference», называемая v4i, [30], которая не требует жидкостного охлаждения . [31]

ТПУ пятого поколения

В 2021 году Google сообщила, что физическая компоновка TPU v5 разрабатывается с помощью нового приложения глубокого обучения с подкреплением . [32] Google утверждает, что TPU v5 почти в два раза быстрее, чем TPU v4, [33] и на основе этого и относительной производительности TPU v4 по сравнению с A100 некоторые предполагают, что TPU v5 будет таким же быстрым или даже быстрее, чем H100 . [34]

Подобно тому, как v4i является облегченной версией v4, пятое поколение имеет «экономически эффективную» [35] версию под названием v5e. [19] В декабре 2023 года Google анонсировала TPU v5p, который, как утверждается, может конкурировать с H100. [36]

ТПУ шестого поколения

В мае 2024 года на конференции Google I/O компания Google анонсировала TPU v6, который будет доступен в конце 2024 года. Google заявила о повышении производительности в 4,7 раза по сравнению с TPU v5e [37] за счет более крупных блоков умножения матриц и повышенной тактовой частоты. Емкость и пропускная способность памяти с высокой пропускной способностью (HBM) также удвоились. Модуль может содержать до 256 блоков Trillium. [38]

Край ТПУ

В июле 2018 года Google анонсировала Edge TPU. Edge TPU — это специально разработанный компанией Google чип ASIC, предназначенный для запуска моделей машинного обучения (ML) для периферийных вычислений , то есть он намного меньше и потребляет гораздо меньше энергии по сравнению с TPU, размещенными в центрах обработки данных Google (также известными как Cloud TPU [39] ). В январе 2019 года Google сделала Edge TPU доступным для разработчиков с линейкой продуктов под брендом Coral. Edge TPU способен выполнять 4 триллиона операций в секунду при мощности 2 Вт. [40]

В число предлагаемых продуктов входят одноплатный компьютер (SBC), система на модуле (SoM), USB- аксессуар, карта mini PCI-e и карта M.2 . SBC Coral Dev Board и Coral SoM работают под управлением ОС Mendel Linux — производной от Debian . [41] [42] Продукты USB, PCI-e и M.2 функционируют как дополнения к существующим компьютерным системам и поддерживают системы Linux на базе Debian на хостах x86-64 и ARM64 (включая Raspberry Pi ).

Среда выполнения машинного обучения, используемая для выполнения моделей на Edge TPU, основана на TensorFlow Lite . [43] Edge TPU способен ускорять только операции прямого прохода, что означает, что он в первую очередь полезен для выполнения выводов (хотя на Edge TPU можно выполнять легкое обучение переносу [44] ). Edge TPU также поддерживает только 8-битную математику, что означает, что для того, чтобы сеть была совместима с Edge TPU, ее необходимо либо обучить с использованием метода обучения с учетом квантования TensorFlow, либо с конца 2019 года также можно использовать квантование после обучения.

12 ноября 2019 года компания Asus анонсировала пару одноплатных компьютеров (SBC) с Edge TPU. Платы Asus Tinker Edge T и Tinker Edge R разработаны для IoT и Edge AI . SBC официально поддерживают операционные системы Android и Debian . [45] [46] Компания ASUS также продемонстрировала мини-ПК под названием Asus PN60T с Edge TPU. [47]

2 января 2020 года Google анонсировала Coral Accelerator Module и Coral Dev Board Mini, которые будут продемонстрированы на выставке CES 2020 в том же месяце. Coral Accelerator Module — это многочиповый модуль с интерфейсами Edge TPU, PCIe и USB для более простой интеграции. Coral Dev Board Mini — это меньший одноплатный компьютер с Coral Accelerator Module и MediaTek 8167s SoC . [48] [49]

Пиксельное нейронное ядро

15 октября 2019 года Google анонсировала смартфон Pixel 4 , который содержит Edge TPU под названием Pixel Neural Core . Google описывает его как «настроенный для соответствия требованиям ключевых функций камеры в Pixel 4», использующий поиск нейронной сети, который жертвует некоторой точностью в пользу минимизации задержки и энергопотребления. [50]

Google Тензор

Google последовал примеру Pixel Neural Core, интегрировав Edge TPU в специализированную систему на кристалле под названием Google Tensor , которая была выпущена в 2021 году вместе с линейкой смартфонов Pixel 6. [51] Система на кристалле Google Tensor продемонстрировала «чрезвычайно большие преимущества в производительности по сравнению с конкурентами» в тестах, ориентированных на машинное обучение; хотя мгновенное энергопотребление также было относительно высоким, улучшенная производительность означала, что потреблялось меньше энергии из-за более коротких периодов, требующих пиковой производительности. [52]

Иск

В 2019 году компания Singular Computing, основанная в 2009 году Джозефом Бейтсом, приглашенным профессором Массачусетского технологического института , [53] подала иск против Google, утверждая о нарушении патентных прав на чипы TPU. [54] К 2020 году Google успешно сократила количество исков, которые должен был рассмотреть суд, до двух: иск 53 из US 8407273,  поданный в 2012 году, и иск 7 из US 9218156 , поданный в 2013 году, оба из которых заявляют о динамическом диапазоне от 10 -6 до 10 6 для чисел с плавающей точкой, чего стандартный float16 сделать не может (без обращения к субнормальным числам ), поскольку у него всего пять бит для экспоненты. В иске в суд 2023 года компания Singular Computing специально указала на использование Google bfloat16 , поскольку это превышает динамический диапазон float16 . [55] Singular утверждает, что нестандартные форматы с плавающей точкой были неочевидны в 2009 году, но Google парирует, что формат VFLOAT [56] с настраиваемым числом битов экспоненты существовал как предшествующее искусство в 2002 году. [57] К январю 2024 года последующие иски Singular довели количество оспариваемых патентов до восьми. К концу судебного разбирательства в конце того же месяца Google согласилась на урегулирование с нераскрытыми условиями. [58] [59] 

Смотрите также

Ссылки

  1. ^ Юппи и др., 2017, «Анализ производительности тензорного процессора в центре обработки данных», https://arxiv.org/abs/1704.04760
  2. ^ "Cloud Tensor Processing Units (TPU)". Google Cloud . Получено 20 июля 2020 г. .
  3. ^ Armasu, Lucian (2016-05-19). "Google's Big Chip Unveil For Machine Learning: Tensor Processing Unit With 10x Better Efficiency (Updated)". Tom's Hardware . Получено 2016-06-26 .
  4. ^ abc Jouppi, Norm (18 мая 2016 г.). «Google ускоряет задачи машинного обучения с помощью специального чипа TPU». Блог Google Cloud Platform . Получено 22.01.2017 .
  5. ^ abcd "Объяснение тензорного процессора Google: так выглядит будущее вычислений". TechRadar . Получено 19.01.2017 .
  6. ^ Ван, Ю Эмма; Вэй, Гу-Ён; Брукс, Дэвид (01.07.2019). «Сравнительный анализ платформ TPU, GPU и CPU для глубокого обучения». arXiv : 1907.10701 [cs.LG].
  7. ^ abc Jouppi, Норман П.; Янг, Клифф; Патил, Нишант; Паттерсон, Дэвид; Агравал, Гаурав; Баджва, Раминдер; Бейтс, Сара; Бхатия, Суреш; Боден, Нэн; Борчерс, Эл; Бойл, Рик; Кантен, Пьер-Люк; Чао, Клиффорд; Кларк, Крис; Кориелл, Джереми; Дейли, Майк; Дау, Мэтт; Дин, Джеффри; Гелб, Бен; Гаеммагами, Тара Вазир; Готтипати, Раджендра; Галланд, Уильям; Хагманн, Роберт; Хо, К. Ричард; Хогберг, Дуг; Ху, Джон; Хундт, Роберт; Больно, Дэн; Ибарз, Джулиан; Джеффи, Аарон; Яворски, Алек; Каплан, Александр; Хайтан, Харшит; Кох, Энди; Кумар, Навин; Лейси, Стив; Лаудон, Джеймс; Лоу, Джеймс; Ле, Димту; Лири, Крис; Лю, Чжуюань; Лак, Кайл; Ландин, Алан; МакКин, Гордон; Маджоре, Адриана; Махони, Мэр; Миллер, Киран; Нагараджан, Рахул; Нараянасвами, Рави; Ни, Рэй; Никс, Кэти; Норри, Томас; Омерник, Марк; Пенуконда, Нараяна; Фелпс, Энди; Росс, Джонатан; Росс, Мэтт; Салек, Амир; Самадиани, Эмад; Северн, Крис; Сизиков, Грегори; Снелхэм, Мэтью; Саутер, Джед; Стейнберг, Дэн; Свинг, Энди; Тан, Мерседес; Торсон, Грегори; Тиан, Бо; Тома, Хориа; Туттл, Эрик; Васудеван, Виджай; Уолтер, Ричард; Ванг, Уолтер; Wilcox, Eric; Yoon, Doe Hyun (26 июня 2017 г.). Анализ производительности тензорного процессора в центре обработки данных . Торонто, Канада. arXiv : 1704.04760 .
  8. ^ «TensorFlow: Машинное обучение с открытым исходным кодом» «Это программное обеспечение для машинного обучения, используемое для различных видов задач восприятия и понимания языка» — Джеффри Дин, минута 0:47 / 2:17 из клипа на Youtube
  9. ^ Метц, Кейд (12 февраля 2018 г.). «Google делает свои специальные чипы ИИ доступными для других». The New York Times . Получено 12 февраля 2018 г.
  10. ^ Макгурти, Колин (6 декабря 2017 г.). «AlphaZero от DeepMind крушит шахматы». chess24.com .
  11. ^ "Тензорный процессор Google может продвинуть закон Мура на 7 лет вперед". PCWorld . Получено 2017-01-19 .
  12. ^ "Часто задаваемые вопросы | Cloud TPU". Google Cloud . Получено 2021-01-14 .
  13. ^ "Google Colaboratory". colab.research.google.com . Получено 2021-05-15 .
  14. ^ "Использование TPU | TensorFlow Core". TensorFlow . Получено 2021-05-15 .
  15. ^ Jouppi, Norman P.; Yoon, Doe Hyun; Ashcraft, Matthew; Gottscho, Mark (14 июня 2021 г.). Десять уроков трех поколений, которые сформировали TPUv4i от Google (PDF) . Международный симпозиум по компьютерной архитектуре. Валенсия, Испания. doi : 10.1109/ISCA52012.2021.00010. ISBN 978-1-4503-9086-6.
  16. ^ ab "Архитектура системы | Cloud TPU". Google Cloud . Получено 2022-12-11 .
  17. ^ abc Kennedy, Patrick (22 августа 2017 г.). «Исследование случая Google TPU и GDDR5 от Hot Chips 29». Serve The Home . Получено 23 августа 2017 г.
  18. ^ Оставайтесь с нами, скоро появится дополнительная информация о TPU v4, получено 06.08.2020.
  19. ^ ab Cloud TPU v5e Inference Public Preview, получено 06.11.2023.
  20. ^ Cloud TPU v5p Google Cloud. получено 2024-04-09
  21. ^ Обучение Cloud TPU v5p, получено 09.04.2024.
  22. ^ "Представляем Trillium, TPU шестого поколения". Блог Google Cloud . Получено 29.05.2024 .
  23. ^ abc Bright, Peter (17 мая 2017 г.). «Google привносит 45 терафлопсных тензорных потоковых процессоров в свое вычислительное облако». Ars Technica . Получено 30 мая 2017 г.
  24. ^ Кеннеди, Патрик (17 мая 2017 г.). «Раскрыты подробности о Google Cloud TPU». Serve The Home . Получено 30 мая 2017 г.
  25. ^ Фрумусану, Андре (8 мая 2018 г.). "Google I/O Opening Keynote Live-Blog" . Получено 9 мая 2018 г. .
  26. ^ Фельдман, Майкл (11 мая 2018 г.). «Google предлагает взглянуть на процессор TPU третьего поколения». Топ-500 . Получено 14 мая 2018 г.
  27. ^ Teich, Paul (10 мая 2018 г.). «Tearing Apart Google's TPU 3.0 AI Coprocessor». The Next Platform . Получено 14 мая 2018 г.
  28. ^ "Google запускает чипы TPU v4 AI". www.hpcwire.com . 20 мая 2021 г. . Получено 7 июня 2021 г. .
  29. ^ Юппи, Норман (2023-04-20). «TPU v4: оптически реконфигурируемый суперкомпьютер для машинного обучения с аппаратной поддержкой встраивания». arXiv : 2304.01433 [cs.AR].
  30. ^ Кеннеди, Патрик (29.08.2023). «Google Details TPUv4 и его Crazy Optically Reconfigurable AI Network». servethehome.com . Получено 16.12.2023 .
  31. ^ «Почему Google разработала собственный чип TPU? Подробное раскрытие информации о членах команды». censtry.com . 2021-10-20 . Получено 2023-12-16 .
  32. ^ Mirhoseini, Azalia; Goldie, Anna (2021-06-01). "Методология размещения графов для быстрого проектирования чипов" (PDF) . Nature . 594 (7962): 207–212. doi :10.1038/s41586-022-04657-6. PMID  35361999. S2CID  247855593 . Получено 2023-06-04 .
  33. ^ Вахдат, Амин (2023-12-06). "Включение рабочих нагрузок ИИ следующего поколения: анонс TPU v5p и гиперкомпьютера ИИ" . Получено 2024-04-08 .
  34. ^ Афифи-Сабет, Кеумарс (2023-12-23). ​​«Google быстро превращается в грозного противника для BFF Nvidia — чип TPU v5p AI, на котором работает его гиперкомпьютер, быстрее и имеет больше памяти и пропускной способности, чем когда-либо прежде, опережая даже могучий H100». TechRadar . Получено 2024-04-08 .
  35. ^ «Расширение нашего портфеля инфраструктур, оптимизированных для ИИ: Представляем Cloud TPU v5e и анонсируем A3 GA». 2023-08-29 . Получено 2023-12-16 .
  36. ^ «Включение рабочих нагрузок ИИ следующего поколения: анонс TPU v5p и гиперкомпьютера ИИ». 2023-12-06 . Получено 2024-04-09 .
  37. ^ Веласко, Алан (15.05.2024). «Google Cloud представляет Trillium — TPU 6-го поколения с 4,7-кратным скачком производительности ИИ». HotHardware . Получено 15.05.2024 .
  38. ^ "Представляем Trillium, TPU шестого поколения". Блог Google Cloud . Получено 2024-05-17 .
  39. ^ "Cloud TPU". Google Cloud . Получено 2021-05-21 .
  40. ^ "Тесты производительности Edge TPU". Coral . Получено 2020-01-04 .
  41. ^ "Dev Board". Coral . Получено 2021-05-21 .
  42. ^ "Система-на-модуле (SoM)". Coral . Получено 2021-05-21 .
  43. ^ "Вывод интеллекта на передовые технологии с помощью Cloud IoT". Блог Google . 2018-07-25 . Получено 2018-07-25 .
  44. ^ "Переобучение модели классификации изображений на устройстве". Coral . Получено 2019-05-03 .
  45. ^ «組込み総合技術展&IoT総合技術展「ET & IoT Technology 2019」に出展することを発表» . Asus.com (на японском языке) . Проверено 13 ноября 2019 г.
  46. ^ Шилов, Антон. «ASUS и Google объединяются для создания компьютеров размером с кредитную карту с ИИ «Tinker Board». Anandtech.com . Получено 13 ноября 2019 г.
  47. ^ Офранк, Жан-Люк (29.05.2019). "ASUS Tinker Edge T & CR1S-CM-A SBC будут оснащены Google Coral Edge TPU & NXP i.MX 8M Processor". CNX Software - Embedded Systems News . Получено 14.11.2019 .
  48. ^ "Новые продукты Coral в 2020 году". Блог разработчиков Google . Получено 2020-01-04 .
  49. ^ "Ускорительный модуль". Coral . Получено 2020-01-04 .
  50. ^ «Представляем следующее поколение моделей машинного зрения: MobileNetV3 и MobileNetEdgeTPU». Блог Google AI . Получено 16.04.2020 .
  51. ^ Гупта, Суйог; Уайт, Мари (8 ноября 2021 г.). «Улучшенное машинное обучение на устройстве Pixel 6 с поиском на основе нейронной архитектуры». Блог Google AI . Получено 16 декабря 2022 г.
  52. ^ Фрумусану, Андрей (2 ноября 2021 г.). «Тензор Google внутри Pixel 6, Pixel 6 Pro: взгляд на производительность и эффективность | IP Google: Tensor TPU/NPU». AnandTech . Получено 16 декабря 2022 г. .
  53. ^ Хардести, Ларри (2011-01-03). "Удивительная полезность небрежной арифметики". MIT . Получено 2024-01-10 .
  54. ^ Брей, Хайавата (2024-01-10). «Местный изобретатель бросает вызов Google в битве за патент стоимостью в миллиард долларов». Boston Globe . Бостон . Архивировано из оригинала 2024-01-10 . Получено 2024-01-10 .
  55. ^ «SINGULAR COMPUTING LLC, Истец, против GOOGLE LLC, Ответчик: Измененная жалоба о нарушении патентных прав» (PDF) . rpxcorp.com . RPX Corporation . 2020-03-20 . Получено 2024-01-10 .
  56. ^ Ван, Сяоцзюнь; Лизер, Мириам (01.09.2010). «VFloat: библиотека переменной точности с фиксированной и плавающей точкой для реконфигурируемого оборудования». Труды ACM по реконфигурируемым технологиям и системам . 3 (3): 1–34. doi :10.1145/1839480.1839486 . Получено 10.01.2024 .
  57. ^ "Singular Computing LLC против Google LLC". casetext.com . 2023-04-06 . Получено 2024-01-10 .
  58. ^ Калкинс, Лорел Брубейкер (24 января 2024 г.). «Google урегулировала иск о чипах искусственного интеллекта, который требовал более 5 миллиардов долларов». Bloomberg Law .
  59. Бриттен, Блейк; Рэймонд, Рэй (24 января 2024 г.). «Google урегулировала судебный процесс по патенту на чипы, связанный с ИИ, который требовал 1,67 млрд долларов». Reuters .


Внешние ссылки