AMD FireStream

AMD FireStream — торговая марка AMD для линейки продуктов на базе Radeon , ориентированной на потоковую обработку и/или GPGPU в суперкомпьютерах . Первоначально разработанная ATI Technologies вокруг Radeon X1900 XTX в 2006 году, линейка продуктов ранее называлась как ATI FireSTREAM и AMD Stream Processor . ^[1] AMD FireStream также может использоваться в качестве сопроцессора с плавающей точкой для разгрузки вычислений CPU, что является частью инициативы Torrenza . Линейка FireStream была прекращена с 2012 года, когда рабочие нагрузки GPGPU были полностью свернуты в линейку AMD FirePro .

Обзор

Линейка FireStream представляет собой серию дополнительных карт расширения , выпущенных с 2006 по 2010 год, основанных на стандартных графических процессорах Radeon, но разработанных для работы в качестве сопроцессора общего назначения , а не для рендеринга и вывода 3D-графики. Как и линейка FireGL/FirePro , они получили больше памяти и пропускной способности памяти, но карты FireStream не обязательно имеют порты видеовыхода. Все поддерживают 32-битную одинарную точность с плавающей точкой , и все, кроме первого выпуска, поддерживают 64-битную двойную точность . Линейка была объединена с новыми API для обеспечения более высокой производительности, чем могли обеспечить существующие API шейдеров OpenGL и Direct3D , начиная с Close to Metal , за которым последовали OpenCL и Stream Computing SDK, и в конечном итоге интегрирована в APP SDK .

Для высокопараллельных математических рабочих нагрузок с плавающей точкой карты могут ускорить большие вычисления более чем в 10 раз; Folding@Home, самый ранний и один из самых заметных пользователей GPGPU, получил в 20-40 раз большую производительность ЦП. ^[2] Каждый пиксельный и вершинный шейдер или унифицированный шейдер в более поздних моделях может выполнять произвольные вычисления с плавающей точкой.

История

После выпуска ядер графических процессоров Radeon R520 и GeForce G70 с программируемыми шейдерами большая пропускная способность с плавающей точкой привлекла внимание академических и коммерческих групп, экспериментировавших с их использованием для неграфической работы. Интерес привел к тому, что ATI (и Nvidia ) создали продукты GPGPU — способные вычислять математические формулы общего назначения в массовом параллельном режиме — для обработки тяжелых вычислений, традиционно выполняемых на центральных процессорах и специализированных математических сопроцессорах с плавающей точкой . Предполагалось, что GPGPU будут иметь немедленный прирост производительности в 10 раз или более по сравнению с современными многосокетными вычислениями только на центральном процессоре.

С почти завершенной разработкой высокопроизводительного X1900 XFX, ATI основала на нем свой первый дизайн потокового процессора, объявив его как предстоящий ATI FireSTREAM вместе с новым API Close to Metal на SIGGRAPH 2006. ^[3] Само ядро в основном не изменилось, за исключением удвоения встроенной памяти и пропускной способности, аналогично FireGL V7350 ; новый драйвер и поддержка программного обеспечения составили большую часть разницы. Folding@home начала использовать X1900 для общих вычислений, используя предварительную версию драйвера ATI Catalyst версии 6.5, и сообщила об улучшении производительности GPU по сравнению с CPU в 20-40 раз. ^[2] Первый продукт был выпущен в конце 2006 года и был переименован в AMD Stream Processor после слияния с AMD. ^[4]

Бренд стал AMD FireStream со вторым поколением потоковых процессоров в 2007 году, основанным на чипе RV650 с новыми унифицированными шейдерами и поддержкой двойной точности. ^[5] Асинхронный DMA также повысил производительность, позволяя использовать больший пул памяти без помощи ЦП. Была выпущена одна модель, 9170, по начальной цене 1999 долларов. Планы включали разработку потокового процессора на модуле MXM к 2008 году для ноутбуков, ^[6] но он так и не был выпущен.

Третье поколение быстро последовало в 2008 году с существенным улучшением производительности ядра RV770; 9250 имел почти вдвое большую производительность, чем 9170, и стал первым однокристальным процессором терафлоп , несмотря на снижение цены до менее 1000 долларов. ^[7] Вскоре после этого был выпущен более быстрый собрат, 9270, по цене 1999 долларов.

В 2010 году вышло последнее поколение FireStreams, карты 9350 и 9370, основанные на чипе Cypress, представленном в HD 5800. Это поколение снова удвоило производительность по сравнению с предыдущим, до 2 терафлопс в 9350 и 2,6 терафлопс в 9370, ^[8] и было первым поколением, созданным с нуля для OpenCL . Это поколение также было единственным, которое имело полностью пассивное охлаждение, а активное охлаждение было недоступно.

Поколения Northern и Southern Islands были пропущены, и в 2012 году AMD объявила, что новые серии FirePro W (рабочая станция) и S (сервер), основанные на новой архитектуре Graphics Core Next, заменят карты FireStream. ^[9]

Модели

FireStream 9170 включает Direct3D 10.1, OpenGL 3.3 и APP Stream
FireStream 92x0 включает Direct3D 10.1, OpenGL 3.3 и OpenCL 1.0
FireStream 93x0 включает Direct3D 11, OpenGL 4.3 и OpenCL 1.2 с последними обновлениями драйверов

^ Производительность точности рассчитывается на основе базовой (или повышенной) тактовой частоты ядра на основе операции FMA .

Программное обеспечение

AMD FireStream был запущен с широким спектром поддержки программных платформ. Одной из поддерживающих фирм была PeakStream (приобретенная Google в июне 2007 года), которая первой предоставила открытую бета- версию программного обеспечения для поддержки CTM и AMD FireStream, а также процессоров x86 и Cell (Cell Broadband Engine). Было заявлено, что FireStream в типичных приложениях работает в 20 раз быстрее, чем обычные процессоры после запуска программного обеспечения PeakStream ^{[ необходима цитата ]} . RapidMind также предоставила программное обеспечение для потоковой обработки, которое работало с ATI и NVIDIA, а также с процессорами Cell. ^[19]

Комплект для разработки программного обеспечения

После отказа от недолговечного API Close to Metal , AMD сосредоточилась на OpenCL . AMD впервые выпустила свой Stream Computing SDK (v1.0) в декабре 2007 года в рамках AMD EULA для работы на Windows XP . ^[19] SDK включает в себя «Brook+», аппаратно оптимизированную версию языка Brook , разработанную Стэнфордским университетом, который сам по себе является вариантом ANSI C ( язык C ), с открытым исходным кодом и оптимизированную для потоковых вычислений. Также будут включены AMD Core Math Library (ACML) и AMD Performance Library (APL) с оптимизацией для AMD FireStream и видеобиблиотеки COBRA (далее переименованной в «Accelerated Video Transcoding» или AVT) для ускорения транскодирования видео . Другая важная часть SDK, Compute Abstraction Layer (CAL), представляет собой уровень разработки программного обеспечения, предназначенный для низкоуровневого доступа через аппаратный интерфейс CTM к архитектуре графического процессора для программного обеспечения настройки производительности, написанного на различных языках программирования высокого уровня .

В августе 2011 года AMD выпустила версию 2.5 ATI APP Software Development Kit, ^[19] которая включает поддержку OpenCL 1.1 , параллельного языка вычислений , разработанного Khronos Group . Концепция вычислительных шейдеров , официально называемая DirectCompute, в API следующего поколения Microsoft , называемом DirectX 11, уже включена в графические драйверы с поддержкой DirectX 11.

SDK для приложений AMD

Показатели

Согласно продемонстрированной AMD системе ^[20] с двумя двухъядерными процессорами AMD Opteron и двумя ядрами графического процессора Radeon R600, работающими на Microsoft Windows XP Professional , 1 терафлоп (TFLOPS) может быть достигнут с помощью универсального умножения-сложения (MADD). Для сравнения, процессор Intel Core 2 Quad Q9650 3.0 GHz в то время мог достичь 48 GFLOPS. ^[21]

В ходе демонстрации антивирусного сканирования Kaspersky SafeStream, оптимизированного для потоковых процессоров AMD, в 2007 году удалось выполнить сканирование в 21 раз быстрее с ускорением на базе R670, чем при поиске, полностью запущенном на Opteron. ^[22]

Ограничения

Рекурсивные функции не поддерживаются в Brook+, поскольку все вызовы функций встраиваются во время компиляции. Используя CAL, функции (рекурсивные или иные) поддерживаются до 32 уровней. ^[23]
Поддерживается только билинейная фильтрация текстур; текстуры с множественным отображением и анизотропная фильтрация не поддерживаются.
Функции не могут иметь переменное число аргументов. Та же проблема возникает и для рекурсивных функций.
Преобразование чисел с плавающей точкой в целые числа на графических процессорах выполняется иначе, чем на процессорах x86; оно не полностью соответствует стандарту IEEE-754 .
Выполнение "глобальной синхронизации" на GPU не очень эффективно, что заставляет GPU разделять ядро и выполнять синхронизацию на CPU. Учитывая переменное количество мультипроцессоров и другие факторы, идеального решения этой проблемы может и не быть.
Пропускная способность шины и задержка между центральным и графическим процессорами могут стать узким местом.

Смотрите также

Обработка потока
ROCм
Архитектура гетерогенной системы
NVIDIA Tesla аналогичное решение от Nvidia
Аналогичное решение Intel Xeon Phi от Intel
Открытый язык вычислений ( OpenCL ) – отраслевой стандарт
Compute Unified Device Architecture ( CUDA ) — фирменное решение, доступное только Nvidia
Список графических процессоров AMD

Ссылки

^ Пресс-релиз AMD
^ ab Gasior, Geoff (16 октября 2006 г.). «Более пристальный взгляд на Folding@home на GPU». The Tech Report . Получено 26.05.2016 .
^ ATI SIGGRAPH 2006 Presentation (PDF) (Отчет). ATI Technologies. Архивировано из оригинала (PDF) 2016-12-21 . Получено 2016-05-26 .
^ Valich, Theo (16 ноября 2006 г.). "ATI FireSTREAM AMD Stream board reveal". The Inquirer . Архивировано из оригинала 21 августа 2009 г. Получено 2016-05-26 .{{cite news}}: CS1 maint: неподходящий URL ( ссылка )
^ "AMD представляет первый потоковый процессор с технологией двойной точности с плавающей точкой". AMD. 8 ноября 2007 г. Архивировано из оригинала 2017-06-19 . Получено 2016-05-26 .
^ Презентация AMD WW HPC 2007 (PDF) (Отчет). стр. 37.
^ "AMD Stream Processor First to Break 1 Teraflop Barrier". AMD. 16 июня 2008 г. Архивировано из оригинала 2017-06-19 . Получено 2016-05-26 .
^ "Новейшие вычислительные ускорители AMD FireStream(TM) GPU обеспечивают почти двукратную пиковую производительность одинарной и двойной точности и производительность на ватт по сравнению с последним поколением". AMD. 23 июня 2010 г. Архивировано из оригинала 2017-06-19 . Получено 2016-05-26 .
^ Смит, Райан (14 августа 2012 г.). "Обзор AMD Firepro W9000 W8000. Часть 1". Anandtech.com . Получено 28 июня 2016 г. .
^ «За гранью 3D — ATI R580: Radeon X1900 XTX и Crossfire» . За пределами 3D .
^ "AMD представляет первый потоковый процессор с технологией двойной точности с плавающей точкой". AMD. 8 ноября 2007 г. Получено 26 мая 2016 г.
^ "Характеристики AMD FireStream 9170". TechPowerUp .
^ AMD FireStream 9250 - Страница продукта Архивировано 13 мая 2010 г. на Wayback Machine
^ "Характеристики AMD FireStream 9250". TechPowerUp .
^ AMD FireStream 9270 - Страница продукта Архивировано 16 февраля 2010 г. на Wayback Machine
^ "Характеристики AMD FireStream 9270". TechPowerUp .
^ "Характеристики AMD FireStream 9350". TechPowerUp .
^ "Характеристики AMD FireStream 9370". TechPowerUp .
^ abc Страница загрузки AMD APP SDK Архивировано 03.09.2012 на Wayback Machine и Stream Computing SDK EULA Архивировано 6 марта 2009 г. на Wayback Machine , получено 29 декабря 2007 г.
↑ Отчет HardOCP Архивировано 2016-03-04 на Wayback Machine , получено 17 июля 2007 г.
^ Показатели соответствия экспорту микропроцессоров Intel
^ Valich, Theo (12 сентября 2007 г.). «GPGPU радикально ускоряет антивирусное программное обеспечение». The Inquirer . Архивировано из оригинала 23 сентября 2009 г. Получено 26 мая 2016 г.{{cite news}}: CS1 maint: неподходящий URL ( ссылка )
^ Справочное руководство по языкам AMD среднего уровня, август 2008 г.

Внешние ссылки

Часто задаваемые вопросы по технологии ATI Stream Архивировано 30.12.2010 на Wayback Machine
ATI Stream опубликовал статьи и презентации
ATI Stream SDK
Статья AnandTech о распределенных вычислениях
Справочное руководство по среднему языку AMD (CAL) v2.0 февраль 2009 г.