Расширенные векторные расширения

Расширенные векторные расширения ( AVX , также известные как Gesher New Instructions , а затем Sandy Bridge New Instructions ) — это SIMD- расширения архитектуры набора команд x86 для микропроцессоров от Intel и Advanced Micro Devices (AMD). Они были предложены Intel в марте 2008 года и впервые поддержаны Intel с процессором Sandy Bridge ^[1], поступившим в первом квартале 2011 года, а затем AMD с процессором Bulldozer ^[2] , поступившим в третий квартал 2011 года. AVX предоставляет новые функции, новые инструкции и новая схема кодирования.

AVX2 (также известный как Новые инструкции Haswell ) расширяет большинство целочисленных команд до 256 бит и вводит новые инструкции. Впервые они были поддержаны Intel в процессоре Haswell , который был выпущен в 2013 году.

AVX-512 расширяет поддержку AVX до 512-битной с использованием новой кодировки префикса EVEX , предложенной Intel в июле 2013 года и впервые поддержанной Intel с помощью сопроцессора Knights Landing , который был поставлен в 2016 году. ^[3]^[4] В обычных процессорах AVX-512 был представлен с сервером Skylake и процессорами HEDT в 2017 году.

Расширенные векторные расширения

AVX использует шестнадцать регистров YMM для выполнения одной инструкции над несколькими частями данных (см. SIMD ). Каждый регистр YMM может хранить и выполнять одновременные математические операции над:

восемь 32-битных чисел с плавающей запятой одинарной точности или
четыре 64-битных числа двойной точности с плавающей запятой.

Ширина SIMD-регистров увеличена со 128 бит до 256 бит и переименована с XMM0–XMM7 в YMM0–YMM7 (в режиме x86-64 с XMM0–XMM15 на YMM0–YMM15). Устаревшие инструкции SSE по-прежнему можно использовать через префикс VEX для работы с младшими 128 битами регистров YMM.

AVX представляет формат инструкций SIMD с тремя операндами, называемый схемой кодирования VEX , в котором регистр назначения отличается от двух исходных операндов. Например, инструкция SSE , использующая традиционную форму с двумя операндами a ← a + b , теперь может использовать неразрушающую форму с тремя операндами c ← a + b , сохраняя оба исходных операнда. Первоначально формат трех операндов AVX был ограничен инструкциями с операндами SIMD (YMM) и не включал инструкции с регистрами общего назначения (например, EAX). Позже он использовался для кодирования новых инструкций для регистров общего назначения в более поздних расширениях, таких как BMI . Кодирование VEX также используется для инструкций, работающих с регистрами маски k0-k7, которые были представлены в AVX-512 .

Требования к выравниванию операндов SIMD-памяти смягчены. ^[5] В отличие от своих аналогов, не закодированных VEX, большинство векторных инструкций, закодированных VEX, больше не требуют выравнивания своих операндов в памяти по размеру вектора. Примечательно, что VMOVDQAинструкция по-прежнему требует выравнивания своего операнда в памяти.

Новая схема кодирования VEX представляет новый набор префиксов кода, который расширяет пространство кода операции , позволяет инструкциям иметь более двух операндов и позволяет векторным регистрам SIMD иметь длину более 128 бит. Префикс VEX также можно использовать в устаревших инструкциях SSE, придавая им форму с тремя операндами и позволяя им более эффективно взаимодействовать с инструкциями AVX без необходимости использования VZEROUPPERи VZEROALL.

Инструкции AVX поддерживают как 128-битный, так и 256-битный SIMD. 128-битные версии могут быть полезны для улучшения старого кода без необходимости расширения векторизации и во избежание штрафов за переход от SSE к AVX. Они также быстрее в некоторых ранних реализациях AVX от AMD. Этот режим иногда называют AVX-128. ^[6]

Новые инструкции

Эти инструкции AVX дополняют те, которые являются 256-битными расширениями устаревших 128-битных инструкций SSE; большинство из них можно использовать как с 128-битными, так и с 256-битными операндами.

Процессоры с AVX

Интел
- Процессоры Sandy Bridge , 1 квартал 2011 г. ^[9]
- Процессоры Sandy Bridge E , четвертый квартал 2011 г. ^[10]
- Процессоры Ivy Bridge , первый квартал 2012 г.
- Процессоры Ivy Bridge E , третий квартал 2013 г.
- Процессоры Haswell , второй квартал 2013 г.
- Процессоры Haswell E , третий квартал 2014 г.
- Процессоры Broadwell , четвертый квартал 2014 г.
- Процессоры Skylake , третий квартал 2015 г.
- Процессоры Broadwell E , второй квартал 2016 г.
- Процессоры Kaby Lake , третий квартал 2016 г. (ULV для мобильных устройств)/первый квартал 2017 г. (настольные/мобильные компьютеры)
- Процессоры Skylake-X , второй квартал 2017 г.
- Процессоры Coffee Lake , четвертый квартал 2017 г.
- Процессоры Cannon Lake , второй квартал 2018 г.
- Переработчики Whiskey Lake , третий квартал 2018 г.
- Процессоры Cascade Lake , четвертый квартал 2018 г.
- Процессоры Ice Lake , третий квартал 2019 г.
- Процессоры Comet Lake (только под брендом Core и Xeon), третий квартал 2019 г.
- Процессоры Tiger Lake (торговые марки Core, Pentium и Celeron ^{[11] ), третий квартал 2020 г.}
- Процессоры Rocket Lake , первый квартал 2021 г.
- Процессоры Alder Lake (под брендом Core, Pentium и Celeron), четвертый квартал 2021 г. Поддерживается как в ядрах Golden Cove P, так и в ядрах Gracemont E.
- Процессоры Raptor Lake , четвертый квартал 2022 г.
- Процессоры Sapphire Rapids , первый квартал 2023 г.
- Процессоры Meteor Lake
- Процессоры Arrow Lake
- Процессоры Lunar Lake

Не все процессоры перечисленных семейств поддерживают AVX. Как правило, процессоры коммерческого номинала Core i3/i5/i7/i9 поддерживают их, тогда как процессоры Pentium и Celeron до Tiger Lake ^[12] их не поддерживают.

АМД :
- Процессоры на базе Jaguar и новее
- Процессоры на базе Puma и новее
- Процессоры «Тяжелое оборудование»
  - Процессоры на базе Bulldozer , IV квартал 2011 г. ^[13]
  - Процессоры на базе Piledriver , IV квартал 2012 г. ^[14]
  - Процессоры на базе Steamroller , 1 квартал 2014 г.
  - Процессоры на базе экскаватора и новее, 2015 г.
- Процессоры на базе Zen , 1 квартал 2017 г.
- Процессоры на базе Zen+ , второй квартал 2018 г.
- Процессоры на базе Zen 2 , третий квартал 2019 г.
- Процессоры Zen 3 , четвертый квартал 2020 г.
- Процессоры Zen 4 , четвертый квартал 2022 г.

Вопросы совместимости будущих процессоров Intel и AMD обсуждаются в разделе «Набор инструкций XOP» .

С ПОМОЩЬЮ :
- Нано Четырехъядерный процессор
- Эдем X4
Чжаосинь :
- Процессоры на базе WuDaoKou (KX-5000 и KH-20000)

Поддержка компилятора и ассемблера

Absoft поддерживает флаг -mavx.
Компилятор Free Pascal поддерживает AVX и AVX2 с ключами -CfAVX и -CfAVX2 начиная с версии 2.7.1.
Студия RAD (v11.0 Alexandria) поддерживает AVX2 и AVX512. ^[15]
Встроенные функции ассемблера GNU Assembler (GAS) поддерживают эти инструкции (доступны через GCC), а также примитивы Intel и встроенный ассемблер Intel (тесно совместимый с GAS, хотя и более общий в обработке локальных ссылок внутри встроенного кода).
GCC , начиная с версии 4.6 (хотя существовала ветка 4.3 с определенной поддержкой), и Intel Compiler Suite, начиная с версии 11.1, поддерживают AVX.
Компилятор Open64 версии 4.5.1 поддерживает AVX с флагом -mavx.
PathScale поддерживает флаг -mavx.
Компилятор Vector Pascal поддерживает AVX через флаг -cpuAVX32.
Компилятор Visual Studio 2010/2012 поддерживает AVX через встроенный переключатель и /arch:AVX .
Другие ассемблеры, такие как версия MASM VS2010, YASM, ^[16] FASM , NASM и JWASM .

Поддержка операционной системы

AVX добавляет новое состояние регистра через 256-битный файл регистров YMM, поэтому для правильного сохранения и восстановления расширенных регистров AVX между переключениями контекста требуется явная поддержка операционной системы . Следующие версии операционной системы поддерживают AVX:

DragonFly BSD : поддержка добавлена в начале 2013 года.
FreeBSD : поддержка добавлена в патче, представленном 21 января 2012 г. ^[17] , который был включен в стабильную версию 9.1 ^[18]
Linux : поддерживается начиная с версии ядра 2.6.30, ^[19] , выпущенной 9 июня 2009 г. ^[20]
macOS : поддержка добавлена в обновлении 10.6.8 ( Snow Leopard ) ^[21]^{[ ненадежный источник? ]} выпущен 23 июня 2011 г. Фактически, macOS Ventura не поддерживает процессоры без набора инструкций AVX2. ^[22]
OpenBSD : поддержка добавлена 21 марта 2015 г. ^[23]
Solaris : поддерживается в Solaris 10 Update 10 и Solaris 11.
Windows : поддерживается в Windows 7 SP1, Windows Server 2008 R2 SP1, ^[24] Windows 8 , Windows 10.
- Windows Server 2008 R2 SP1 с Hyper-V требует исправления для поддержки процессоров AMD AVX (серии Opteron 6200 и 4200), KB2568088.

Расширенные векторные расширения 2

Advanced Vector Extensions 2 (AVX2), также известный как Haswell New Instructions , ^[25] представляет собой расширение набора инструкций AVX, представленного в микроархитектуре Intel Haswell . AVX2 вносит следующие дополнения:

расширение большинства векторных целочисленных инструкций SSE и AVX до 256 бит
Получите поддержку, позволяющую загружать векторные элементы из несмежных ячеек памяти.
DWORD- и QWORD-детализация «любой к любому» перестановки
векторные сдвиги.

Иногда расширение с тремя операндами с объединенным умножением-накоплением (FMA3) считается частью AVX2, поскольку оно было представлено Intel в той же микроархитектуре процессора. Это отдельное расширение, использующее собственный флаг CPUID и описанное на отдельной странице , а не ниже.

Новые инструкции

Процессоры с AVX2

Интел
- Процессоры Haswell (только под брендом Core и Xeon), второй квартал 2013 г.
- Процессоры Haswell E , третий квартал 2014 г.
- Процессоры Broadwell , четвертый квартал 2014 г.
- Процессоры Broadwell E , третий квартал 2016 г.
- Процессоры Skylake , третий квартал 2015 г.
- Процессоры Kaby Lake , третий квартал 2016 г. (ULV для мобильных устройств)/первый квартал 2017 г. (настольные/мобильные компьютеры)
- Процессоры Skylake-X , второй квартал 2017 г.
- Процессоры Coffee Lake , четвертый квартал 2017 г.
- Процессоры Cannon Lake , второй квартал 2018 г.
- Переработчики Whiskey Lake , третий квартал 2018 г.
- Процессоры Cascade Lake , второй квартал 2019 г.
- Процессоры Ice Lake , третий квартал 2019 г.
- Процессоры Comet Lake , третий квартал 2019 г.
- Процессоры Tiger Lake (торговые марки Core, Pentium и Celeron ^{[11] ), третий квартал 2020 г.}
- Процессоры Rocket Lake , первый квартал 2021 г.
- Процессоры Alder Lake (торговые марки Xeon, Core, Pentium и Celeron ^[11] ), четвертый квартал 2021 г. Поддерживается как в ядрах Golden Cove P, так и в ядрах Gracemont E.
- Процессоры Raptor Lake , четвертый квартал 2022 г.
- Процессоры Sapphire Rapids , первый квартал 2023 г.
- Процессоры Meteor Lake
- Процессоры Arrow Lake
- Процессоры Lunar Lake
АМД
- Процессор экскаватора и новее, второй квартал 2015 г.
- Процессоры Zen , 1 квартал 2017 г.
- Процессоры Zen+ , второй квартал 2018 г.
- Процессоры Zen 2 , третий квартал 2019 г.
- Процессоры Zen 3 , четвертый квартал 2020 г.
- Процессоры Zen 4 , четвертый квартал 2022 г.
- Процессоры Zen 5 , 2024 г.
С ПОМОЩЬЮ :
- Нано Четырехъядерный процессор
- Эдем X4

AVX-512

AVX-512 — это 512-битное расширение 256-битных инструкций SIMD Advanced Vector Extensions для архитектуры набора команд x86, предложенных Intel в июле 2013 года и поддерживаемых процессором Intel Knights Landing . ^[3]

Инструкции AVX-512 кодируются новым префиксом EVEX . Он допускает 4 операнда, 8 новых 64-битных регистров опмаски , скалярный режим памяти с автоматической трансляцией, явный контроль округления и режим адресации памяти со сжатым смещением . Ширина файла регистров увеличена до 512 бит, а общее количество регистров увеличено до 32 (регистры ZMM0-ZMM31) в режиме x86-64.

AVX-512 состоит из нескольких подмножеств команд, не все из которых предназначены для поддержки всеми процессорами, их реализующими. Набор инструкций состоит из следующего:

AVX-512 Foundation (F) — добавляет несколько новых инструкций и расширяет большинство 32-битных и 64-битных инструкций SSE-SSE4.1 и AVX/AVX2 с плавающей запятой схемой кодирования EVEX для поддержки 512-битных регистров, масок операций, параметров. широковещательная рассылка, а также встроенный контроль округления и исключений.
Инструкции по обнаружению конфликтов AVX-512 (CD) - эффективное обнаружение конфликтов, позволяющее векторизовать больше циклов, поддерживается Knights Landing ^[3]
AVX-512 Экспоненциальные и обратные инструкции (ER) - экспоненциальные и обратные операции, предназначенные для реализации трансцендентных операций, поддерживаемые Knights Landing ^[3]
AVX-512 Prefetch Instructions (PF) — новые возможности предварительной выборки, поддерживаемые Knights Landing ^[3]
Расширения векторной длины (VL) AVX-512 — расширяет большинство операций AVX-512 для работы с регистрами XMM (128-бит) и YMM (256-бит) (включая XMM16-XMM31 и YMM16-YMM31 в режиме x86-64) ^{[ 26]}
AVX-512 Байтовые и словесные инструкции (BW) – расширяют AVX-512 для поддержки 8-битных и 16-битных целочисленных операций ^[26]
AVX-512 Инструкции с двойным и четверным словом (DQ) — расширенные 32-битные и 64-битные целочисленные операции ^[26]
AVX-512 Integer Fused Multiply Add (IFMA) – объединенное умножение для 512-битных целых чисел. ^[27]^{: 746}
Инструкции по манипулированию векторными байтами AVX-512 (VBMI) добавляют инструкции по перестановке векторных байтов, которых нет в AVX-512BW.
AVX-512 Векторные инструкции нейронной сети Точность переменной слова (4VNNIW) — векторные инструкции для глубокого обучения.
AVX-512 Fused Multiply Accumulation Packed Single Precision (4FMAPS) — векторные инструкции для глубокого обучения.
VPOPCNTDQ – количество бит установлено в 1. ^[28]
VPCLMULQDQ – умножение четверных слов без переноса. ^[28]
AVX-512 Vector Neural Network Instructions (VNNI) – векторные инструкции для глубокого обучения. ^[28]
AVX-512 Galois Field New Instructions (GFNI) – векторные инструкции для расчета поля Галуа . ^[28]
AVX-512 Векторные инструкции AES (VAES) – векторные инструкции для кодирования AES . ^[28]
AVX-512 Инструкция по манипулированию векторными байтами 2 (VBMI2) – загрузка байтов/слов, сохранение и объединение со сдвигом. ^[28]
Битовые алгоритмы AVX-512 (BITALG) — инструкции по манипуляции битами/словами , расширяющие VPOPCNTDQ. ^[28]
AVX-512 Bfloat16 Инструкции с плавающей запятой (BF16) – векторные инструкции для ускорения ИИ.
AVX-512 Инструкции с плавающей запятой половинной точности (FP16) — векторные инструкции для работы с числами с плавающей запятой и комплексными числами с пониженной точностью.

Для всех реализаций требуется только расширение ядра AVX-512F (AVX-512 Foundation), хотя все современные процессоры также поддерживают CD (обнаружение конфликтов); вычислительные сопроцессоры будут дополнительно поддерживать ER, PF, 4VNNIW, 4FMAPS и VPOPCNTDQ, а центральные процессоры — VL, DQ, BW, IFMA, VBMI, VPOPCNTDQ, VPCLMULQDQ и т. д.

Обновленные инструкции SSE/AVX в AVX-512F используют ту же мнемонику, что и версии AVX; они могут работать с 512-битными регистрами ZMM, а также поддерживают 128/256-битные регистры XMM/YMM (с AVX-512VL) и целочисленные операнды в виде байтов, слов, двойных и четверных слов (с AVX-512BW/DQ и VBMI). ^[27]^{: 23}

Процессоры с AVX-512

^[29]

^Примечание 1. AVX-512 по умолчанию отключен в процессорах Alder Lake . На некоторых материнских платах с некоторыми версиями BIOS AVX-512 можно включить в BIOS, но для этого необходимо отключить E-ядра.^[30] Однако Intel начала включать AVX-512 в новые процессоры Alder Lake.^[31]

Компиляторы, поддерживающие AVX-512

GCC 4.9 и новее ^[32]
Clang 3.9 и новее ^[33]
ICC 15.0.1 и новее ^[34]
Компилятор C++ Microsoft Visual Studio 2017 ^[35]

AVX-ВННИ, AVX-IFMA

AVX-VNNI — это кодированный VEX вариант расширения набора команд AVX512-VNNI . Аналогично, AVX-IFMA является вариантом AVX512-IFMA с кодировкой VEX . Эти расширения предоставляют тот же набор операций, что и их аналоги AVX-512, но ограничены 256-битными векторами и не поддерживают какие-либо дополнительные функции кодирования EVEX , такие как широковещательная рассылка, регистры opmask или доступ к более чем 16 векторным регистрам. Эти расширения позволяют поддерживать операции VNNI и IFMA, даже если в процессоре не реализована полная поддержка AVX-512 .

Процессоры с AVX-VNNI

Интел
- Процессоры Alder Lake , четвертый квартал 2021 г.
- Процессоры Raptor Lake , четвертый квартал 2022 г.
- Процессоры Sapphire Rapids , первый квартал 2023 г.
- Процессоры Meteor Lake
- Процессоры Emerald Rapids
- Процессоры Arrow Lake
- Процессоры Lunar Lake
АМД
- Процессоры Zen 5 ^[36] , 2024 г.

Процессоры с AVX-IFMA

Интел
- Переработчики Сьерра Форест
- Процессоры Гранд Ридж
- Процессоры Meteor Lake

AVX10

AVX10, анонсированный в августе 2023 года, представляет собой новый «конвергентный» набор инструкций AVX. Он решает несколько проблем AVX-512, в частности то, что он разделен на слишком много частей ^[37] (20 флагов функций) и что он делает обязательным поддержку 512-битных векторов. AVX10 представляет собой упрощенный интерфейс CPUID для проверки поддержки инструкций, состоящий из номера версии AVX10 (указывающего набор поддерживаемых инструкций, причем более поздние версии всегда являются надмножеством более ранних) и доступной максимальной длины вектора (256 или 512 бит). . ^[38] Для указания версии и длины вектора используется комбинированное обозначение: например, AVX10.2/256 указывает, что ЦП поддерживает вторую версию AVX10 с максимальной шириной вектора 256 бит. ^[39]

Первая и «ранняя» версия AVX10, получившая обозначение AVX10.1, не будет содержать никаких инструкций или функций кодирования, кроме тех, что уже есть в AVX-512 (F, CD, VL, DQ, BW, IFMA, VBMI, VBMI2, BITALG, ВННИ, GFNI, VPOPCNTDQ, VPCLMULQDQ, VAES, BF16, FP16). Вторая, «полноценная» версия, AVX10.2, представляет новые функции, такие как встроенное округление YMM и подавление всех исключений. Для процессоров, поддерживающих AVX10 и 512-битные векторы, все устаревшие флаги функций AVX-512 останутся установленными, чтобы приложения, поддерживающие AVX-512, могли продолжать использовать инструкции AVX-512. ^[39]

AVX10.1/512 будет доступен на Granite Rapids. ^[39]

АПХ

APX — новое расширение. Он не ориентирован на векторные вычисления, но предоставляет RISC-подобные расширения архитектуры x86-64 за счет удвоения количества регистров общего назначения до 32 и введения форматов инструкций с тремя операндами. AVX затрагивается лишь косвенно, поскольку APX вводит расширенные операнды. ^[40]^[41]

Приложения

Подходит для интенсивных вычислений с плавающей запятой в мультимедийных, научных и финансовых приложениях (AVX2 добавляет поддержку целочисленных операций).
Повышает параллелизм и производительность вычислений SIMD с плавающей запятой .
Уменьшает нагрузку на регистры благодаря неразрушающим инструкциям.
Улучшает производительность программного обеспечения Linux RAID (требуется AVX2, AVX недостаточно) ^[42]

Программное обеспечение

Blender использует AVX, AVX2 и AVX-512 в движке рендеринга Cycles. ^[43]
Bloombase использует AVX, AVX2 и AVX-512 в своем криптографическом модуле Bloombase (BCM).
Botan использует AVX и AVX2, если они доступны, для ускорения некоторых алгоритмов, таких как ChaCha.
Инструментарий BSAFE C использует AVX и AVX2, где это необходимо, для ускорения различных криптографических алгоритмов. ^[44]
Crypto++ использует AVX и AVX2, если они доступны, для ускорения некоторых алгоритмов, таких как Salsa и ChaCha.
Esri ArcGIS Data Store использует AVX2 для хранения графиков. ^[45]
OpenSSL использует криптографические функции, оптимизированные для AVX и AVX2, начиная с версии 1.0.2. ^[46] Поддержка AVX-512 была добавлена в версии 3.0.0. ^[47] Некоторые из этих оптимизаций также присутствуют в различных клонах и форках, таких как LibreSSL.
Prime95 /MPrime, программное обеспечение, используемое для GIMPS , начало использовать инструкции AVX с версии 27.1, AVX2 с 28.6 и AVX-512 с 29.1. ^[48]
Декодер dav1d AV1 может использовать AVX2 и AVX-512 на поддерживаемых процессорах. ^[49]^[50]
Кодер SVT-AV1 AV1 может использовать AVX2 и AVX-512 для ускорения кодирования видео. ^[51]
dnetc , программное обеспечение, используемое распределенным.net , имеет ядро AVX2, доступное для его проекта RC5, и вскоре выпустит его для своего проекта OGR-28.
Einstein@Home использует AVX в некоторых своих распределенных приложениях, которые ищут гравитационные волны . ^[52]
Folding@home использует AVX в вычислительных ядрах, реализованных с помощью библиотеки GROMACS .
Helios использует аппаратное ускорение AVX и AVX2 на 64-битном оборудовании x86. ^[53]
Horizon: Zero Dawn использует AVX в своем игровом движке Decima.
PCSX2 и RPCS3 — это эмуляторы PS2 и PS3 с открытым исходным кодом соответственно, которые используют инструкции AVX2 и AVX-512 для эмуляции игр.
Интерфейс сетевых устройств — протокол IP-видео/аудио, разработанный NewTek для производства прямых трансляций, использует AVX и AVX2 для повышения производительности.
Для TensorFlow начиная с версии 1.6 и для более поздних версий требуется процессор, поддерживающий как минимум AVX. ^[54]
Видеокодеры x264 , x265 и VTM могут использовать AVX2 или AVX-512 для ускорения кодирования.
Различные майнеры криптовалюты на базе ЦП (например, cpuminer пулера для биткойнов и лайткойнов ) используют AVX и AVX2 для различных процедур, связанных с криптографией, включая SHA-256 и scrypt .
libsodium использует AVX в реализации скалярного умножения для алгоритмов Curve25519 и Ed25519 , AVX2 для BLAKE2b , Salsa20 , ChaCha20 и AVX2 и AVX-512 в реализации алгоритма Argon2 .
Эталонная реализация кодера/декодера VP8/VP9 с открытым исходным кодом libvpx , использует AVX2 или AVX-512, если они доступны.
libjpeg-turbo использует AVX2 для ускорения обработки изображений.
FFTW может использовать AVX, AVX2 и AVX-512, если они доступны.
LLVMpipe, программный рендерер OpenGL в Mesa , использующий Gallium и инфраструктуру LLVM , использует AVX2, когда он доступен.
glibc использует AVX2 (с FMA ) и AVX-512 для оптимизированной реализации различных математических (т.е. expf, sinf, powf, atanf, atan2f) и строковых ( memmove, memcpyи т.д.) функций в libc .
Ядро Linux может использовать AVX или AVX2 вместе с AES-NI в качестве оптимизированной реализации криптографического алгоритма AES-GCM .
Ядро Linux использует AVX или AVX2, если они доступны, в оптимизированной реализации нескольких других криптографических шифров: Camellia , CAST5 , CAST6 , Serpent , Twofish , MORUS-1280 и других примитивов: Poly1305 , SHA-1 , SHA-256 , SHA-512 . ЧаЧа20 .
POCL, портативный компьютерный язык, обеспечивающий реализацию OpenCL , по возможности использует AVX, AVX2 и AVX-512.
.NET и .NET Framework могут использовать AVX, AVX2 через общее System.Numerics.Vectorsпространство имен.
.NET Core , начиная с версии 2.1 и более широко после версии 3.0, может напрямую использовать все внутренние функции AVX, AVX2 через пространство System.Runtime.Intrinsics.X86имен.
EmEditor 19.0 и выше использует AVX2 для ускорения обработки. ^[55]
Для программного синтезатора Massive X от Native Instruments требуется AVX. ^[56]
Microsoft Teams использует инструкции AVX2 для создания размытого или специального фона позади участников видеочата ^[57] , а также для подавления фонового шума. ^[58]
Пользовательские сборки Windows Pale Moon значительно увеличивают скорость просмотра благодаря использованию AVX2.
simdjson, библиотека синтаксического анализа JSON , использует AVX2 и AVX-512 для повышения скорости декодирования. ^[59]^[60]
x86-simd-sort, библиотека с алгоритмами сортировки для 16, 32 и 64-битных числовых типов данных, использует AVX2 и AVX-512. Библиотека используется в NumPy и OpenJDK для ускорения алгоритмов сортировки. ^[61]
zlib-ng, оптимизированная версия zlib , содержит версии AVX2 и AVX-512 некоторых алгоритмов сжатия данных.
Механизм OCR Tesseract использует AVX, AVX2 и AVX-512 для ускорения распознавания символов. ^[62]

Даунклокинг

Поскольку инструкции AVX шире и выделяют больше тепла, в некоторых процессорах Intel предусмотрены возможности снижения ограничения частоты Turbo Boost при выполнении таких инструкций. В Skylake и его производных дросселирование разделено на три уровня: ^[63]^[64]

L0 (100%): нормальный предел турбонаддува.
L1 (~85%): предел усиления AVX. Мягкий запуск с помощью 256-битных «тяжелых» инструкций (модуль с плавающей запятой: математические операции FP и целочисленное умножение). Жесткий запуск «легкими» (всеми остальными) 512-битными инструкциями.
L2 (~60%): ^{[ сомнительно – обсудить ]} Предел «форсажа AVX-512». Мягкий запуск с помощью 512-битных тяжелых инструкций.

Частотный переход может быть мягким или жестким. Жесткий переход означает, что частота снижается, как только обнаруживается такая инструкция; мягкий переход означает, что частота снижается только после достижения порогового числа совпадающих инструкций. Ограничение указано для каждого потока. ^[63]

В Ледяном озере сохранились только два уровня: ^[65]

L0 (100%): нормальный предел турбонаддува.
L1 (~97%): запускается любыми 512-битными инструкциями, но только когда активно одноядерное ускорение; не срабатывает при загрузке нескольких ядер.

Процессоры Rocket Lake не запускают снижение частоты при выполнении каких-либо векторных инструкций независимо от размера вектора. ^[65] Однако снижение тактовой частоты все равно может произойти по другим причинам, например, из-за достижения пределов температуры и мощности.

Снижение тактовой частоты означает, что использование AVX в смешанной рабочей нагрузке с процессором Intel может привести к снижению частоты. Отказ от использования широких и тяжелых инструкций поможет свести к минимуму последствия в таких случаях. AVX-512VL позволяет использовать 256-битные или 128-битные операнды в AVX-512, что делает его разумным вариантом по умолчанию для смешанных нагрузок. ^[66]

В поддерживаемых и разблокированных вариантах процессоров, которые понижают тактовую частоту, коэффициенты регулируются и могут быть полностью отключены (установлены на 0x) с помощью утилиты разгона/настройки Intel или в BIOS, если они поддерживаются. ^[67]

Смотрите также

Расширение набора команд F16C
Расширения защиты памяти
Scalable Vector Extension for ARM — новый набор векторных команд (дополняющий VFP и NEON ), аналогичный AVX-512, с некоторыми дополнительными возможностями.

Внешние ссылки

Руководство по внутренним компонентам Intel
Справочное руководство по языку ассемблера x86

Расширенные векторные расширения

Расширенные векторные расширения

Новые инструкции

Процессоры с AVX

Поддержка компилятора и ассемблера

Поддержка операционной системы

Расширенные векторные расширения 2

Новые инструкции

Процессоры с AVX2

AVX-512

Процессоры с AVX-512

Компиляторы, поддерживающие AVX-512

AVX-ВННИ, AVX-IFMA

Процессоры с AVX-VNNI

Процессоры с AVX-IFMA

AVX10

АПХ

Приложения

Программное обеспечение

Даунклокинг

Смотрите также

Рекомендации

Внешние ссылки