stringtranslate.com

10000 рэндов

НЭК ВР10000.

R10000 под кодовым названием «T5» представляет собой RISC- микропроцессорную реализацию архитектуры набора команд MIPS IV (ISA) , разработанную MIPS Technologies, Inc. (MTI), в то время являвшейся подразделением Silicon Graphics, Inc. (SGI). Главные дизайнеры — Крис Роуэн и Кеннет С. Йегер. Микроархитектура R10000 известна как ANDES, аббревиатура от «Архитектура с непоследовательным динамическим планированием выполнения». R10000 в значительной степени заменяет R8000 в сегменте high-end и R4400 в других сегментах. MTI была полупроводниковой компанией без производственных мощностей ; R10000 был изготовлен компаниями NEC и Toshiba . Предыдущие производители микропроцессоров MIPS, такие как Integrated Device Technology (IDT) и три других, не производили R10000, поскольку это было дороже, чем R4000 и R4400.

История

R10000 был представлен в январе 1996 года с тактовой частотой 175 МГц и 195 МГц. Версия с частотой 150 МГц была представлена ​​в линейке продуктов O2 в 1997 году, но вскоре была снята с производства из-за предпочтения клиентов версии с частотой 175 МГц. R10000 не был доступен в больших объемах до конца года из-за проблем с производством на литейных заводах MIPS. Версия с частотой 195 МГц была в дефиците на протяжении всего 1996 года, и в результате ее цена составила 3000 долларов США. [1]

25 сентября 1996 года SGI объявила, что R10000, изготовленные NEC в период с марта по конец июля того же года, были неисправны, потребляли слишком большой ток и вызывали отключение систем во время работы. В результате SGI отозвала 10 000 R10 000, которые были поставлены в системы, что повлияло на доходы компании.

В 1997 году версия R10000, изготовленная по технологии 0,25 мкм, позволила микропроцессору достичь частоты 250 МГц.

Пользователи

Среди пользователей R10000:

Описание

Штамповочный штамп NEC VR10000.

R10000 — это четырехпроцессорная суперскалярная конструкция, реализующая переименование регистров и выполняющая инструкции вне очереди . Его конструкция отличается от предыдущих микропроцессоров MTI, таких как R4000, которые представляют собой гораздо более простую скалярную конструкцию с упорядоченным порядком , производительность которой в значительной степени зависит от высоких тактовых частот.

R10000 извлекает четыре инструкции за каждый цикл из своего кэша инструкций . Эти инструкции декодируются, а затем помещаются в очереди инструкций целых чисел, с плавающей запятой или загрузки/сохранения в зависимости от типа инструкции. Блоку декодирования помогают предварительно декодированные инструкции из кэша команд, которые добавляют пять бит к каждой инструкции, чтобы позволить блоку быстро определить, в каком исполнительном блоке выполняется инструкция, и изменить формат инструкции для оптимизации декодирования. процесс.

Каждая из очередей инструкций может принимать до четырех инструкций от декодера, что позволяет избежать узких мест. Очереди инструкций выдают инструкции своим исполнительным устройствам динамически в зависимости от доступности операндов и ресурсов. Каждая из очередей, за исключением очереди загрузки/сохранения, может выдавать до двух инструкций за каждый цикл своим исполнительным модулям. Очередь загрузки/сохранения может выдавать только одну инструкцию. Таким образом, R10000 может выдавать до пяти инструкций за один цикл.

Целочисленная единица

Целочисленный блок состоит из файла целочисленных регистров и трех конвейеров : двух целочисленных и одного загрузочного хранилища. Целочисленный файл регистров имеет ширину 64 бита и содержит 64 записи, из которых 32 являются архитектурными регистрами и 32 — регистрами переименования, которые реализуют переименование регистров. Регистровый файл имеет семь портов чтения и три порта записи. Оба целочисленных конвейера имеют сумматор и логическую единицу. Однако только первый конвейер имеет механизм переключения стволов и аппаратные средства для подтверждения предсказания условных ветвей. Второй конвейер используется для доступа к множителю и делителю. Умножения являются конвейерными и имеют задержку в шесть циклов для 32-битных целых чисел и десять для 64-битных целых чисел. Дивизия не конвейерная. Делитель использует алгоритм без восстановления , который производит один бит за цикл. Задержки для 32-битного и 64-битного деления составляют 35 и 67 циклов соответственно.

Модуль с плавающей запятой

Блок операций с плавающей запятой (FPU) состоит из четырех функциональных блоков: сумматора, умножителя, блока деления и блока квадратного корня. Сумматор и умножитель являются конвейерными, а устройства деления и квадратного корня — нет. Задержка сложения и умножения составляет три цикла, а сумматор и умножитель могут принимать новую инструкцию каждый цикл. Блок деления имеет задержку 12 или 19 циклов, в зависимости от того, имеет ли деление одинарную или двойную точность соответственно.

Устройство извлечения квадратного корня выполняет инструкции по извлечению квадратного корня и обратного извлечения квадратного корня . Инструкции квадратного корня имеют задержку 18 или 33 цикла для одинарной или двойной точности соответственно. Новая инструкция извлечения квадратного корня может передаваться блоку деления каждые 20 или 35 циклов для одинарной и двойной точности соответственно. Обратные квадратные корни имеют более длительную задержку: от 30 до 52 циклов для одинарной точности (32 бита) и двойной точности (64 бита) соответственно.

Файл регистров с плавающей запятой содержит шестьдесят четыре 64-битных регистра, из которых тридцать два являются архитектурными, а остальные — регистрами переименования. Сумматор имеет собственные выделенные порты чтения и записи, тогда как умножитель использует их совместно с делителем и устройством квадратного корня.

В единицах деления и квадратного корня используется алгоритм SRT . MIPS IV ISA имеет инструкцию умножения-сложения. Эта инструкция реализована в R10000 с обходом — результат умножения может обойти файл регистров и быть доставлен в конвейер сложения в качестве операнда, таким образом, это не объединенное умножение-сложение и имеет задержку в четыре цикла.

Тайники

R10000 имеет два сравнительно больших встроенных кэша: кэш инструкций объемом 32 КБ и кэш данных объемом 32 КБ. Кэш инструкций является двусторонним наборно-ассоциативным и имеет размер строки 128 байт. Инструкции частично декодируются путем добавления четырех битов к каждой инструкции (длина которой составляет 32 бита) перед помещением в кэш.

Кэш данных объемом 32 КБ является двухпортовым посредством двустороннего чередования. Он состоит из двух банков по 16 КБ , каждый из которых является двусторонним наборно-ассоциативным. Кэш имеет строки длиной 64 байта, использует протокол обратной записи , виртуально индексируется и физически помечается тегами , что позволяет индексировать кэш за один и тот же такт и поддерживать согласованность с вторичным кэшем.

Внешний вторичный унифицированный кэш поддерживал емкость от 512 КБ до 16 МБ. Он реализован с помощью стандартной синхронной статической памяти с произвольным доступом (SSRAM). Доступ к кешу осуществляется через собственную 128-битную шину, защищенную 9-битным кодом исправления ошибок (ECC). Кэш и шина работают на той же тактовой частоте, что и R10000, максимальная частота которого составляла 200 МГц. При частоте 200 МГц шина обеспечивала пиковую пропускную способность 3,2 ГБ/с. Кэш является двунаправленным, ассоциативным, но, чтобы избежать большого количества контактов, R10000 предсказывает, к какому пути осуществляется доступ.

Адресация

MIPS IV — это 64-битная архитектура, но для снижения стоимости R10000 не реализует весь физический или виртуальный адрес . Вместо этого он имеет 40-битный физический адрес и 44-битный виртуальный адрес, поэтому он способен адресовать 1 ТБ физической памяти и 16 ТБ виртуальной памяти .

Системная шина Avalanche

R10000 использует шину Avalanche, 64-битную шину , работающую на частотах до 100 МГц. Avalanche представляет собой мультиплексированную шину адресов и данных, поэтому при частоте 100 МГц максимальная теоретическая пропускная способность составляет 800 МБ/с, но ее пиковая пропускная способность составляет 640 МБ/с, поскольку для передачи адресов требуется несколько циклов.

Контроллер системного интерфейса поддерживает бесклеевую симметричную многопроцессорную обработку (SMP) с участием до четырех микропроцессоров. Системы, использующие R10000 с внешней логикой, могут масштабироваться до сотен процессоров. Примером такой системы является Origin 2000 .

Изготовление

R10000 состоит примерно из 6,8 миллионов транзисторов, из которых примерно 4,4 миллиона содержатся в первичном кэше. [2] Размеры матрицы 16,640 на 17,934 мм при площади матрицы 298,422 мм 2 . Он изготовлен по технологии 0,35 мкм и упакован в керамическую решетчатую решетку с 599 контактными площадками (LGA). До того, как R10000 был представлен, в отчете Microprocessor Report , посвященном Форуму микропроцессоров 1994 года, сообщалось, что он был упакован в 527-контактную керамическую решетчатую решетку выводов (CPGA); и что поставщики также исследовали возможность использования 339-контактного многочипового модуля (MCM), содержащего кристалл микропроцессора и 1 МБ кэш-памяти. [3]

Производные

R10000 был дополнен несколькими последовательными производными. Тактовая частота всех производных после R12000 поддерживается как можно более низкой, чтобы поддерживать рассеиваемую мощность в диапазоне от 15 до 20 Вт, чтобы их можно было плотно упаковать в системы высокопроизводительных вычислений (HPC) SGI.

12000 рэндов

Штамп NEC VR12000.

R12000 является производным от R10000, созданного MIPS и завершенного SGI. Его изготовили NEC и Toshiba. Версия, произведенная NEC, называется VR12000. Микропроцессор был представлен в ноябре 1998 года. Он доступен на частотах 270, 300 и 360 МГц. R12000 был разработан как временное решение после отмены проекта Beast, который должен был создать преемника R10000. В число пользователей R12000 входят NEC, Siemens-Nixdorf , SGI и Tandem Computers (а позже и Compaq, после приобретения ими Tandem).

R12000 совершенствует микроархитектуру R10000 за счет: добавления дополнительного каскада конвейера для улучшения тактовой частоты за счет разрешения критического пути; увеличение количества записей в таблице истории ветвей, улучшение прогнозирования; изменение очередей инструкций, чтобы они учитывали возраст находящейся в очереди инструкции, позволяя, если это возможно, выполнять более старые инструкции раньше новых.

R12000 был изготовлен компаниями NEC и Toshiba по КМОП-технологии 0,25 мкм с четырьмя уровнями алюминиевых межсоединений . Использование нового процесса не означает, что R12000 представлял собой простой термоусадочный кристалл с измененной микроархитектурой; Компоновка матрицы оптимизирована для использования преимуществ процесса 0,25 мкм. [4] [5] VR12000, изготовленный NEC, содержал 7,15 миллиона транзисторов и имел размеры 15,7 на 14,6 мм (229,22 мм 2 ).

Р12000А

R12000A является производной от R12000, разработанного SGI. Представленный в июле 2000 года, он работает на частоте 400 МГц и был изготовлен компанией NEC по технологии 0,18 мкм с алюминиевыми межсоединениями .

14000 рэндов

R14000 является дальнейшим развитием R12000, анонсированного в июле 2001 года. R14000 работает на частоте 500 МГц, что обеспечивается за счет КМОП- процесса 0,13 мкм с пятью уровнями медных межсоединений, из которых он изготовлен. В нем улучшена микроархитектура R12000 за счет поддержки SSRAM с двойной скоростью передачи данных (DDR) для вторичного кэша и системной шины 200 МГц. [6]

Р14000А

R14000A является дальнейшим развитием R14000, анонсированного в феврале 2002 года. Он работает на частоте 600 МГц, рассеивает около 17 Вт и был изготовлен корпорацией NEC по технологии КМОП 0,13 мкм с семью уровнями медных межсоединений. [6]

16000 рэндов

R16000 под кодовым названием «N0» является последней производной от R10000. Он разработан SGI и изготовлен NEC по технологии 0,11 мкм с восемью уровнями медных межсоединений. Микропроцессор был представлен 9 января 2003 года, дебютировал на частоте 700 МГц для Fuel , а также использовался в Onyx4 Ultimate Vision. [7] В апреле 2003 года для Origin 350 была представлена ​​версия с частотой 600 МГц . Улучшения заключаются в кэше инструкций и данных размером 64 КБ.

Р16000А

R16000A относится к микропроцессорам R16000 с тактовой частотой выше 700 МГц. Первый R16000A — это версия с частотой 800 МГц, представленная 4 февраля 2004 года. Позже была представлена ​​​​версия с частотой 900 МГц, и эта версия в течение некоторого времени была самым быстрым из общеизвестных R16000A — позже SGI сообщила, что избранным компаниям были поставлены модели R16000 с частотой 1,0 ГГц. клиенты. Среди пользователей R16000 были HP и SGI. SGI использовала микропроцессор на своих рабочих станциях Fuel и Tezro ; а также серверы и суперкомпьютеры Origin 3000 . HP использовала R16000A в своих отказоустойчивых серверах NonStop Himalaya S-Series, унаследованных от Tandem через Compaq.

18000 рэндов

R18000 представляет собой отмененную дальнейшую разработку микроархитектуры R10000, в которую были внесены значительные улучшения от Silicon Graphics, Inc., описанные на симпозиуме Hot Chips в 2001 году. R18000 был разработан специально для серверов и суперкомпьютеров ccNUMA компании SGI. Каждый узел будет иметь два R18000, подключенных через мультиплексную шину к системному контроллеру, который будет связывать микропроцессоры с их локальной памятью и остальной частью системы через сеть гиперкуба.

В R18000 улучшены очереди команд с плавающей запятой и изменен блок операций с плавающей запятой, включённый в него два блока умножения-сложения, что в четыре раза увеличивает пиковое количество FLOPS. Деление и извлечение квадратного корня будут выполняться в отдельных неконвейерных модулях параллельно с модулями умножения-сложения. Системный интерфейс и иерархия памяти также были существенно переработаны. Он будет иметь 52-битный виртуальный адрес и 48-битный физический адрес. Двунаправленный мультиплексированный адрес и системная шина данных более ранних моделей будут заменены двумя однонаправленными каналами DDR: 64-битным мультиплексированным адресом и путем записи и 128-битным путем чтения. Пути могут быть разделены с другим R18000 посредством мультиплексирования. Шину также можно настроить в конфигурации SysAD или Avalanche для обратной совместимости с системами R10000.

R18000 будет иметь четырехпоточный ассоциативный вторичный кэш объемом 1 МБ, который будет встроен в кристалл; дополненный дополнительным третичным кэшем, построенным на основе SSRAM с одинарной скоростью передачи данных (SDR) или с двойной скоростью передачи данных (DDR) или DDR SDRAM емкостью от 2 до 64 МБ. Кэш L3 будет иметь теги кэша, эквивалентные 400 КБ, расположенные на кристалле, чтобы уменьшить задержку. Доступ к кэшу L3 будет осуществляться через 144-битную шину, из которой 128 бит предназначены для данных и 16 бит для ECC. Тактовую частоту кэша L3 можно будет программировать.

R18000 должен был быть изготовлен по технологии NEC UX5, КМОП-процессу 0,13 мкм с девятью уровнями медных межсоединений . Для плотного размещения в системах он должен был бы использовать источник питания 1,2 В и рассеивать меньше тепла, чем современные серверные микропроцессоры.

Примечания

  1. Гвеннап, Линли (27 января 1997 г.). «Альфа-паруса, цепы PowerPC». Отчет о микропроцессоре , стр. 1, 6–9., с. 8.»
  2. ^ Йегер, Кеннет К. (апрель 1996 г.). «Суперскалярный микропроцессор MIPS R10000» (PDF) . IEEE микро . 16 (2): 28. дои : 10.1109/40.491460. Архивировано из оригинала (PDF) 19 июля 2011 года.
  3. Гвеннап, Линли (24 октября 1994 г.). «MIPS R10000 использует несвязанную архитектуру» (PDF) . Отчет микропроцессора . 8 (14): 4.
  4. Гвеннап, Линли (6 октября 1997 г.). «MIPS R12000 достигнет 300 МГц» (PDF) . Отчет микропроцессора . 11 (13).
  5. ^ Халфхилл, Том Р. (январь 1998 г.). «RISC дает отпор Mips R12000». Байт . Том. 23, нет. 1. С. 49–50.
  6. ^ ab ComputerWire (2 июля 2002 г.). «SGI разработает чипы MIPS для Origin, Onyx». Регистр .
  7. ^ Silicon Graphics, Inc. (9 января 2003 г.). SGI повышает соотношение цены и производительности графических процессоров семейства Visual Workstation до 25%. ( Пресс-релиз ).

Рекомендации