POWER7 — это семейство суперскалярных многоядерных микропроцессоров , основанных на архитектуре набора команд Power ISA 2.06 , выпущенной в 2010 году и пришедшей на смену POWER6 и POWER6+ . POWER7 был разработан IBM на нескольких площадках, включая IBM в Рочестере, Миннесота ; Остин, Техас; Эссекс-Джанкшен, Вирджиния ; Исследовательский центр Т. Дж. Уотсона , Нью-Йорк; Бромонт, королевский адвокат [1] и лаборатории IBM Deutschland Research & Development GmbH, Бёблинген , Германия. IBM анонсировала серверы на базе POWER7 8 февраля 2010 года. [2] [3]
В ноябре 2006 года IBM выиграла контракт DARPA на сумму 244 миллиона долларов на разработку петамасштабной суперкомпьютерной архитектуры до конца 2010 года в рамках проекта HPCS . В контракте также указано, что архитектура должна быть доступна на коммерческой основе. Предложение IBM, PERCS (Продуктивная, простая в использовании, надежная компьютерная система), по которому они выиграли контракт, основано на процессоре POWER7, операционной системе AIX и General Parallel File System . [4]
Одной из функций, над которой сотрудничали IBM и DARPA, является модификация аппаратного обеспечения адресации и таблицы страниц для поддержки глобального общего пространства памяти для кластеров POWER7. Это позволяет ученым-исследователям программировать кластер, как если бы это была единая система, без использования передачи сообщений. С точки зрения производительности это важно, поскольку некоторые ученые не знакомы с MPI или другими методами параллельного программирования, используемыми в кластерах. [5]
Суперскалярная многоядерная архитектура POWER7 представляет собой существенное развитие конструкции POWER6, в ней больше внимания уделяется энергоэффективности за счет нескольких ядер и одновременной многопоточности (SMT). [6] Архитектура POWER6 была создана с нуля для максимизации частоты процессора за счет энергоэффективности. Он достиг замечательных 5 ГГц. В то время как POWER6 оснащен двухъядерным процессором, каждый из которых поддерживает двустороннюю одновременную многопоточность (SMT), процессор IBM POWER 7 имеет до восьми ядер по четыре потока на ядро, что обеспечивает общую мощность 32 одновременных потоков. [7]
IBM заявила на ISCA 29 [8] , что пиковая производительность была достигнута за счет высокочастотных конструкций с 10–20 задержками FO4 на этап конвейера за счет энергоэффективности. Однако двоичный модуль с плавающей запятой POWER6 реализует «6-тактный конвейер с 13 FO4 ». [9] [ необходимо разъяснение ] Таким образом, конвейер для ЦП POWER7 был снова изменен, как и для конструкций POWER5 и POWER6. В некотором смысле эта переработка аналогична повороту Intel в 2005 году, который оставил микроархитектуру x86 7-го поколения P4.
POWER7 доступен с 4, 6 или 8 физическими ядрами на микрочип, с числом каналов от 1 до 32, с количеством SMT до 1024 и немного другой микроархитектурой и интерфейсами для поддержки расширенных/подспецификаций по сравнению с Power ISA. и/или различные системные архитектуры. Например, в суперкомпьютерной (HPC) системе Power 775 он выполнен в виде 32-процессорного четырехчипового модуля (QCM) с 256 физическими ядрами и 1024 SMT. [10] Существует также специальный режим TurboCore, который может отключить половину ядер восьмиядерного процессора, но эти 4 ядра имеют доступ ко всем контроллерам памяти и кэшу L3 на повышенных тактовых частотах. Это повышает производительность каждого ядра, что важно для рабочих нагрузок, требующих максимальной последовательной производительности за счет снижения параллельной производительности. Режим TurboCore может вдвое сократить «затраты на программное обеспечение для тех приложений, которые лицензируются по числу ядер, одновременно увеличивая производительность на ядро этого программного обеспечения». [11] Новые масштабируемые высокопроизводительные серверы IBM Power 780 с новым режимом оптимизации рабочей нагрузки TurboCore и обеспечивающие удвоение производительности на ядро по сравнению с системами на базе POWER6. [11]
Каждое ядро поддерживает четырехпоточную одновременную многопоточность (SMT). POWER7 имеет около 1,2 миллиарда транзисторов и имеет площадь 567 мм 2 , изготовлен по 45-нм техпроцессу. Заметным отличием от POWER6 является то, что POWER7 выполняет инструкции не по порядку, а не по порядку. Несмотря на снижение максимальной частоты по сравнению с POWER6 (4,25 ГГц против 5,0 ГГц), каждое ядро имеет более высокую производительность, чем POWER6, при этом каждый процессор имеет до 4 раз больше ядер.
POWER7 имеет следующие характеристики: [12] [13]
В технической спецификации дополнительно указано: [15]
Каждое ядро процессора POWER7 реализует агрессивное выполнение инструкций вне порядка (OoO) для обеспечения высокой эффективности использования доступных путей выполнения. Процессор POWER7 оснащен блоком последовательности инструкций, который способен отправлять до шести инструкций за цикл в набор очередей. Блокам выполнения инструкций может быть выдано до восьми инструкций за цикл.
Это дает следующие теоретические показатели производительности одинарной точности (SP) (на основе 8-ядерной реализации с частотой 4,14 ГГц):
4 64-битных модуля SIMD на ядро и 128-битный модуль SIMD VMX на ядро могут выполнять 12 операций умножения-сложения за цикл, что дает 24 операции SP FP за цикл. На частоте 4,14 ГГц это дает 4,14 миллиарда * 24 = 99,36 SP GFLOPS, а на 8 ядрах — 794,88 SP GFLOPS.
Пиковая производительность двойной точности (DP) составляет примерно половину пиковой производительности SP.
Для сравнения, процессоры Intel с архитектурой Haswell 2013 года могут выполнять 16 DP FLOP или 32 SP FLOP за цикл (8/16 DP/SP с объединенным умножением и сложением в двух 256-битных векторных модулях AVX2 FP). [16] При частоте 3,4 ГГц (i7-4770) это соответствует пиковой производительности 108,8 SP GFLOPS на ядро и 435,2 SP GFLOPS для 4-ядерного чипа, что дает примерно одинаковый уровень производительности на ядро, без учета эффектов или преимуществ Технология Intel Turbo Boost .
Это теоретическое сравнение максимальной производительности справедливо и на практике: POWER7 и i7-4770 получили одинаковые оценки в тестах с плавающей запятой SPEC CPU2006 (однопоточные): 71,5 [17] для POWER7 против 74,0 [18] для i7-4770.
Обратите внимание, что чип POWER7 значительно превосходил (2×–5×) i7 в некоторых тестах (bwaves, cactusADM, lbm), но при этом был значительно медленнее (2x–3x) в большинстве других. Это указывает на серьезные архитектурные различия между двумя чипами/материнскими платами/системами памяти и т. д.: они были разработаны с учетом разных рабочих нагрузок.
Однако в целом, в очень широком смысле, можно сказать, что производительность вычислений с плавающей запятой у POWER7 аналогична производительности Haswell i7.
IBM представила процессор POWER7+ на конференции Hot Chips 24 в августе 2012 года. Это обновленная версия с более высокими скоростями, большим объемом кэш-памяти и встроенными ускорителями. Он производится по 32-нм техпроцессу. [19]
Первыми устройствами, поставляемыми с процессорами POWER7+, были серверы IBM Power 770 и 780. Чипы имеют до 80 МБ кэш-памяти L3 (10 МБ на ядро), улучшенную тактовую частоту (до 4,4 ГГц) и 20 LPAR на ядро. [20]
По состоянию на октябрь 2011 года [update]линейка систем на базе POWER7 включает модели IBM Power Systems Express (710, 720, 730, 740 и 750), модели Enterprise (770, 780 и 795) и модели высокопроизводительных вычислений (755 и 775). ). Корпоративные модели отличаются наличием возможностей мощности по требованию. Максимальные характеристики указаны в таблице ниже.
IBM также предлагает 5 BladeCenter на базе POWER7 . [23] Технические характеристики приведены в таблице ниже.
Ниже приведены проекты суперкомпьютеров, в которых используется процессор POWER7: