Потоковые SIMD-расширения

В вычислительной технике Streaming SIMD Extensions ( SSE ) — это расширение набора команд одной инструкции, нескольких данных ( SIMD ) для архитектуры x86 , разработанное Intel и представленное в 1999 году в серии центральных процессоров (ЦП) Pentium III вскоре после появления передовых микроустройств (AMD) 3DNow! . SSE содержит 70 новых инструкций (65 уникальных мнемоник ^[1] с использованием 70 кодировок), большинство из которых работают с данными с плавающей запятой одинарной точности . Инструкции SIMD могут значительно повысить производительность, когда одни и те же операции необходимо выполнить с несколькими объектами данных. Типичными приложениями являются цифровая обработка сигналов и обработка графики .

Первой разработкой Intel IA-32 SIMD был набор инструкций MMX . У MMX было две основные проблемы: он повторно использовал существующие регистры x87 с плавающей запятой, из-за чего процессоры не могли одновременно работать как с данными с плавающей запятой, так и с SIMD, и работал только с целыми числами . Инструкции SSE с плавающей запятой работают с новым независимым набором регистров, регистрами XMM, и добавляют несколько целочисленных инструкций, которые работают с регистрами MMX.

Впоследствии SSE был расширен Intel до SSE2 , SSE3 , SSSE3 и SSE4 . Поскольку он поддерживает математические вычисления с плавающей запятой, он имел более широкое применение, чем MMX, и стал более популярным. Добавление поддержки целых чисел в SSE2 сделало MMX в значительной степени ненужным, хотя в некоторых ситуациях можно добиться дальнейшего повышения производительности ^{[ когда? ]} с использованием MMX параллельно с операциями SSE.

Первоначально SSE назывался Katmai New Instructions ( KNI ), причем Katmai — кодовое название первой версии ядра Pentium III. Во время проекта Katmai Intel стремилась отличить его от своей более ранней линейки продуктов, особенно от своего флагманского Pentium II . Позже он был переименован в Internet Streaming SIMD Extensions ( ISSE ^[2] ), а затем в SSE.

Вскоре после выпуска оригинального Athlon в августе 1999 года компания AMD добавила подмножество SSE, 19 из них, называемое новыми инструкциями MMX ^[3] и известное как несколько вариантов и комбинаций SSE и MMX, см. [расширения]. В конечном итоге AMD добавила полную поддержку инструкций SSE, начиная со своих процессоров Athlon XP и Duron ( ядро Morgan ).

Регистры

Первоначально в SSE были добавлены восемь новых 128-битных регистров, известных как XMM0сквозные XMM7. Расширения AMD64 от AMD (первоначально называвшиеся x86-64 ) добавили еще восемь регистров XMM8через XMM15, и это расширение дублируется в архитектуре Intel 64 . Также имеется новый 32-битный регистр управления/состояния MXCSR. Регистры XMM8через XMM15доступны только в 64-битном режиме работы.

SSE использовал только один тип данных для регистров XMM:

четыре 32-битных числа одинарной точности с плавающей запятой

Позже SSE2 расширит использование регистров XMM, включив в него:

два 64-битных числа двойной точности с плавающей запятой или
два 64-битных целых числа или
четыре 32-битных целых числа или
восемь 16-битных коротких целых чисел или
шестнадцать 8-битных байтов или символов.

Поскольку эти 128-битные регистры представляют собой дополнительные состояния машины, которые операционная система должна сохранять при переключении задач , они отключены по умолчанию до тех пор, пока операционная система явно не включит их. Это означает, что ОС должна знать, как использовать инструкции FXSAVEи FXRSTOR— расширенную пару инструкций, которая может одновременно сохранять все состояния регистров x86 и SSE. Эта поддержка была быстро добавлена во все основные операционные системы IA-32.

Первый процессор, поддерживающий SSE, Pentium III , разделял ресурсы выполнения между SSE и модулем с плавающей запятой (FPU). ^[2] Хотя скомпилированное приложение может чередовать инструкции FPU и SSE бок о бок, Pentium III не будет выдавать инструкции FPU и SSE в одном и том же такте . Это ограничение снижает эффективность конвейерной обработки , но отдельные регистры XMM позволяют смешивать SIMD и скалярные операции с плавающей запятой без снижения производительности из-за явного переключения режима MMX/с плавающей запятой.

Инструкции ССЕ

SSE представила как скалярные , так и упакованные инструкции с плавающей запятой.

Инструкции с плавающей запятой

Перемещение данных из памяти в регистр/регистра в память/регистра в регистр
- Скаляр –MOVSS
- Упакованный –MOVAPS, MOVUPS, MOVLPS, MOVHPS, MOVLHPS, MOVHLPS, MOVMSKPS
Арифметика
- Скаляр –ADDSS, SUBSS, MULSS, DIVSS, RCPSS, SQRTSS, MAXSS, MINSS, RSQRTSS
- Упакованный –ADDPS, SUBPS, MULPS, DIVPS, RCPPS, SQRTPS, MAXPS, MINPS, RSQRTPS
Сравнивать
- Скаляр –CMPSS, COMISS, UCOMISS
- Упакованный –CMPPS
Перетасовка и распаковка данных
- Упакованный –SHUFPS, UNPCKHPS, UNPCKLPS
Преобразование типов данных
- Скаляр –CVTSI2SS, CVTSS2SI, CVTTSS2SI
- Упакованный –CVTPI2PS, CVTPS2PI, CVTTPS2PI
Побитовые логические операции
- Упакованный –ANDPS, ORPS, XORPS, ANDNPS

Целочисленные инструкции

Арифметика
- PMULHUW, PSADBW, PAVGB, PAVGW, PMAXUB, PMINUB, PMAXSW, PMINSW
Перемещение данных
- PEXTRW, PINSRW
Другой
- PMOVMSKB, PSHUFW

Прочие инструкции

MXCSRуправление
- LDMXCSR, STMXCSR
Управление кэшем и памятью
- MOVNTQ, MOVNTPS, MASKMOVQ, PREFETCH0, PREFETCH1, PREFETCH2, PREFETCHNTA, SFENCE

Пример

Следующий простой пример демонстрирует преимущество использования SSE. Рассмотрим такую операцию, как сложение векторов, которая очень часто используется в приложениях компьютерной графики. Чтобы сложить два четырехкомпонентных вектора одинарной точности с использованием x86, требуются четыре инструкции сложения с плавающей запятой.

 vec_res . х = v1 . х + v2 . Икс ; vec_res . у = v1 . у + v2 . й ; vec_res . z = v1 . г + v2 . з ; vec_res . ш = v1 . ш + v2 . ш ;

Это соответствует четырем инструкциям x86 FADD в объектном коде. С другой стороны, как показывает следующий псевдокод, одна 128-битная инструкция «упакованного сложения» может заменить четыре инструкции скалярного сложения.

 movaps xmm0 , [ v1 ] ;xmm0 = v1.w | v1.z | v1.у | v1.x addps xmm0 , [ v2 ] ;xmm0 = v1.w+v2.w | v1.z+v2.z | v1.y+v2.y | v1.x+v2.x movaps [ vec_res ], xmm0 ;xmm0

Более поздние версии

SSE2 , новые инструкции Willamette (WNI), представленные в Pentium 4 , представляют собой значительное усовершенствование SSE. В SSE2 добавлены две основные функции: операции с плавающей запятой двойной точности (64 бита) для всех операций SSE и целочисленные операции MMX над 128-битными регистрами XMM. В исходном наборе инструкций SSE преобразование в целые числа и обратно помещало целочисленные данные в 64-битные регистры MMX. SSE2 позволяет программисту выполнять математические операции SIMD с любым типом данных (от 8-битного целого числа до 64-битного числа с плавающей запятой) полностью с помощью файла векторных регистров XMM без необходимости использования устаревших регистров MMX или FPU. Он предлагает ортогональный набор инструкций для работы с распространенными типами данных.
SSE3 , также называемый новыми инструкциями Prescott (PNI), представляет собой постепенное обновление SSE2, добавляющее несколько математических инструкций, ориентированных на DSP, и некоторые инструкции по управлению процессами (потоками). Это также позволяло складывать или умножать два числа, хранящихся в одном регистре, что было невозможно в SSE2 и более ранних версиях. Эта возможность, известная в терминологии Intel как горизонтальная, стала основным дополнением к набору инструкций SSE3. AMD 3DNow! расширение тоже может сделать последнее.
SSSE3 , Merom New Instructions (MNI), представляет собой обновление SSE3, добавляющее 16 новых инструкций, которые включают в себя перестановку байтов в слове, умножение 16-битных чисел с фиксированной запятой с правильным округлением и инструкции накопления внутри слова. SSSE3 часто путают с SSE4, поскольку этот термин использовался во время разработки микроархитектуры Core .
SSE4 , новые инструкции Penryn (PNI), — это еще одно важное усовершенствование, добавляющее инструкцию скалярного произведения , дополнительные целочисленные инструкции, popcntинструкцию ( подсчет населения : подсчет количества битов, установленных на 1, широко используемую, например, в криптографии ) и многое другое.
XOP , FMA4 и CVT16 — новые версии, анонсированные AMD в августе 2007 года ^[4]^[5] и пересмотренные в мае 2009 года. ^[6]
Advanced Vector Extensions (AVX), Gesher New Instructions (GNI), представляет собой расширенную версию SSE, анонсированную Intel, с расширенным каналом данных со 128 бит до 256 бит и инструкциями с 3 операндами (вместо 2). Intel выпустила процессоры в начале 2011 года с поддержкой AVX. ^[7]
AVX2 — это расширение набора инструкций AVX.
AVX-512 (3.1 и 3.2) — это 512-битные расширения 256-битных инструкций SIMD Advanced Vector Extensions для архитектуры набора команд x86.

Идентификация

Следующие программы можно использовать, чтобы определить, какие версии SSE поддерживаются в системе (если таковые имеются).

Утилита идентификации процессоров Intel ^[8]
CPU-Z — утилита идентификации процессора, материнской платы и памяти.
lscpu — предоставляется пакетом util-linux в большинстве дистрибутивов Linux.

Внешние ссылки

Руководство по внутренним компонентам Intel