SW26010 — это 260-ядерный многоядерный процессор, разработанный Шанхайским центром развития технологий и промышленности интегральных схем (ICC для краткости) ( китайский : 上海集成电路技术与产业促进中心 (简称ICC)). Он реализует архитектуру Sunway , 64-битную архитектуру сокращенного набора команд (RISC), разработанную в Китае . [1] SW26010 имеет четыре кластера из 64 вычислительно-обрабатывающих элементов (CPE), которые расположены в массиве восемь на восемь. CPE поддерживают инструкции SIMD и способны выполнять восемь операций с плавающей точкой двойной точности за цикл. Каждый кластер сопровождается более традиционным ядром общего назначения , называемым элементом обработки управления (MPE), которое обеспечивает функции надзора. [1] Каждый кластер имеет свой собственный выделенный контроллер DDR3 SDRAM и банк памяти с собственным адресным пространством . [2] [3] Процессор работает на тактовой частоте 1,45 ГГц. [4]
Ядра CPE имеют 64 КБ оперативной памяти для данных и 16 КБ для инструкций и взаимодействуют через сеть на чипе вместо традиционной иерархии кэша . [5] MPE имеют более традиционную настройку с 32 КБ кэшей инструкций и данных L1 и 256 КБ кэша L2 . [1] Наконец, сеть на чипе подключается к единому интерфейсу системного взаимодействия, который соединяет чип с внешним миром.
SW26010 используется в суперкомпьютере Sunway TaihuLight , который с марта по июнь 2018 года был самым быстрым суперкомпьютером в мире по рейтингу проекта TOP500 . [6] Система использует 40 960 SW26010 для достижения 93,01 PFLOPS на тесте LINPACK .
SW26010P включает 6 основных групп (CG), каждая из которых включает один управляющий процессорный элемент (MPE) и один кластер вычислительных процессорных элементов (CPE) 8×8. Каждый CG имеет свой контроллер памяти (MC), подключенный к 16 ГБ памяти DDR4 с пропускной способностью 51,2 ГБ/с. Обмен данными между каждыми двумя CPE в одном кластере CPE достигается через интерфейс удаленного доступа к памяти (RMA) (замена функции связи регистров в предыдущем поколении). Каждый CPE имеет быструю локальную память данных (LDM) объемом 256 КБ. Каждый процессор SW26010P состоит из 390 процессорных элементов. [7]
ядро CPE имеет один
конвейер
с плавающей точкой , который может выполнять 8 флопсов за цикл на ядро (64-битная арифметика с плавающей точкой), а MPE имеет двойной конвейер, каждый из которых может выполнять 8 флопсов за цикл на конвейер (64-битная арифметика с плавающей точкой).
отчете TOP500 говорится, что чип также лишен традиционного кэша L1-L2-L3, а вместо этого имеет 12 КБ кэша инструкций и 64 КБ «локальной блокнотной памяти», которая работает как кэш L1.