Исполнение вне очереди

В компьютерной инженерии выполнение вне очереди (или, более формально, динамическое выполнение ) — это парадигма , используемая в высокопроизводительных центральных процессорах для использования командных циклов , которые в противном случае были бы потрачены впустую. В этой парадигме процессор выполняет инструкции в порядке, определяемом доступностью входных данных и исполнительных блоков ^[1] , а не их исходным порядком в программе. ^[2]^[3] При этом процессор может избежать простоя во время ожидания завершения предыдущей инструкции и тем временем обрабатывать следующие инструкции, которые могут выполняться немедленно и независимо. ^[4]

История

Выполнение вне порядка — это ограниченная форма архитектуры потоков данных , которая была основной областью исследований в области компьютерной архитектуры в 1970-х и начале 1980-х годов.

Раннее использование в суперкомпьютерах

Первой машиной, использовавшей выполнение вне очереди, была CDC 6600 (1964), разработанная Джеймсом Э. Торнтоном , которая использовала табло для предотвращения конфликтов. Он разрешает выполнение инструкции, если ее исходные операнды (регистры чтения) не должны быть записаны какой-либо невыполненной ранее командой (истинная зависимость), а регистр назначения (записи) не является регистром, используемым какой-либо невыполненной ранее командой (ложная зависимость). ). В 6600 отсутствуют средства, позволяющие избежать остановки исполнительного устройства из-за ложных зависимостей ( конфликты записи после записи (WAW) и записи после чтения (WAR), которые Торнтон назвал соответственно конфликтами первого порядка и конфликтами третьего порядка , который назвал истинными зависимостями ( чтение) после записи (RAW)) как конфликт второго порядка), поскольку каждый адрес имеет только одно местоположение, на которое он ссылается. WAW хуже, чем WAR для 6600, потому что когда исполнительный блок сталкивается с WAR, другие исполнительные блоки все равно получают и выполняют инструкции, но при WAW назначение инструкций исполнительным блокам прекращается, и они не могут получать дальнейшие инструкции. до тех пор, пока регистр назначения инструкции, вызывающей WAW, не будет записан предыдущей инструкцией. ^[5]

Примерно два года спустя IBM System/360 Model 91 (1966) представила переименование регистров с помощью алгоритма Томасуло ^[6] , который устраняет ложные зависимости (WAW и WAR), делая возможным полное выполнение вне порядка. Инструкция, адресующая запись в регистр r _n, может быть выполнена до того, как будет выполнена более ранняя инструкция, использующая регистр r _n , путем фактической записи в альтернативный (переименованный) регистр alt-r _n , который превращается только в обычный регистр r _n . когда все предыдущие инструкции, адресованные r _n , были выполнены, но до этого момента r _n дается для более ранних инструкций и alt-r _n для более поздних, адресованных r _n .

В модели 91 переименование регистров реализовано с помощью обхода , называемого общей шиной данных (CDB), и буферов операндов источника памяти, в результате чего физические архитектурные регистры остаются неиспользованными в течение многих циклов, поскольку самое старое состояние регистров, к которым обращается любая невыполненная инструкция, находится в CDB. . Еще одним преимуществом модели 91 перед 6600 является возможность выполнять инструкции вне очереди в одном исполнительном блоке , а не только между блоками, как в 6600. Это достигается с помощью станций резервирования , с которых инструкции передаются в исполнительный блок. когда он готов, в отличие от очереди FIFO каждого исполнительного устройства 6600. Модель 91 также способна переупорядочивать загрузки и сохранения для выполнения перед предыдущими загрузками и сохранениями, ^[7] в отличие от 6600, который имеет только ограниченная возможность перемещать грузы мимо грузов и магазины мимо магазинов, но не грузы мимо магазинов и магазины мимо грузов. ^[8] Переименованы только регистры с плавающей запятой модели 91, что делает ее подпадающей под те же ограничения WAW и WAR, что и CDC 6600, при выполнении вычислений с фиксированной запятой. И 91, и 6600 также страдают от неточных исключений , которые необходимо было устранить, прежде чем выполнение вне очереди можно было бы применять в целом и сделать практичным за пределами суперкомпьютеров.

Точные исключения

Чтобы иметь точные исключения, после исключения должно быть доступно правильное состояние выполнения программы. К 1985 году были разработаны различные подходы, описанные Джеймсом Э. Смитом и Эндрю Р. Плешкуном. ^[9] CDC Cyber 205 был предшественником, поскольку при прерывании виртуальной памяти все состояние процессора (включая информацию о частично выполненных инструкциях) сохраняется в невидимом пакете обмена , чтобы он мог возобновиться в том же состоянии. исполнения. ^[10] Однако, чтобы сделать все исключения точными, должен быть способ отменить действие инструкций. CDC Cyber 990 (1984) реализует точные прерывания с использованием буфера истории, в котором хранятся старые (перезаписанные) значения регистров, которые восстанавливаются, когда исключение требует отмены инструкций. ^[9] Смит смоделировал, что добавление буфера переупорядочения (или буфера истории или его эквивалента) в Cray-1S снизит производительность выполнения первых 14 циклов Ливермора (невекторизованных) всего на 3%. ^[9] Важные академические исследования по этому вопросу провел Йель Пэтт с помощью своего симулятора HPSm. ^[11]

В 1980-х годах многие ранние RISC- микропроцессоры, такие как Motorola 88100 , имели неправильную обратную запись в регистры, что приводило к неточным исключениям. Инструкции начали выполнение по порядку, но некоторым (например, с плавающей запятой) для завершения выполнения потребовалось больше циклов. Однако выполнение самых основных инструкций за один такт значительно уменьшило масштаб проблемы по сравнению с CDC 6600.

Развязка

Смит также исследовал, как заставить различные исполнительные блоки работать более независимо друг от друга, а также от памяти, внешнего интерфейса и ветвления. ^[12] Он реализовал эти идеи в книге Astronautics ZS-1 (1988), в которой был отделен конвейер целых чисел/загрузки/сохранения от конвейера с плавающей запятой, что позволило переупорядочивать данные между конвейерами. ЗС-1 также был способен выполнять нагрузки раньше предыдущих магазинов. В своей статье 1984 года он высказал мнение, что принудительное применение точных исключений только в конвейере целых чисел/памяти должно быть достаточным для многих случаев использования, поскольку оно допускает даже использование виртуальной памяти . Каждый конвейер имел буфер инструкций, который отделял его от декодера команд и предотвращал остановку внешнего интерфейса. Чтобы еще больше отделить доступ к памяти от выполнения, каждый из двух конвейеров был связан с двумя адресуемыми очередями , которые эффективно выполняли ограниченное переименование регистров. ^[7] Похожая разделенная архитектура использовалась чуть ранее в Culler 7. ^[13] ISA ZS-1, как и последующий POWER от IBM, способствовал раннему выполнению ветвей.

Исследование приносит свои плоды

С POWER1 (1990) IBM вернулась к внеочередному исполнению. Это был первый процессор, сочетавший переименование регистров (хотя опять же только регистров с плавающей запятой) с точными исключениями. Он использует файл физического регистра (т. е. динамически переназначаемый файл как с незафиксированными, так и с зафиксированными значениями) вместо буфера переупорядочения, полного данных, но возможность отмены инструкций необходима только в модуле ветвления, который реализует буфер истории (называемый стеком счетчика программы). от IBM), чтобы отменить изменения в регистрах счета, связи и состояния. Возможность изменения порядка даже инструкций с плавающей запятой по-прежнему очень ограничена; из-за неспособности POWER1 переупорядочивать инструкции арифметических операций с плавающей запятой (результаты стали доступны в определенном порядке), их регистры назначения не переименовываются. POWER1 также не имеет станций резервирования , необходимых для внеочередного использования одного и того же исполнительного устройства. ^[14]^[15] В следующем году IBM ES/9000 модели 900 переименовала регистры также для регистров общего назначения. Он также имеет станции резервирования с шестью записями для двойного целочисленного блока (в каждом цикле из шести инструкций можно выбрать и затем выполнить до двух) и шестью записями для FPU. Другие устройства имеют простые очереди FIFO. Расстояние до заказа — до 32 инструкций. ^[16] A19 из мэйнфреймов A-серии Unisys также был выпущен в 1991 году и, как утверждалось, имел нестандартное исполнение, а один аналитик назвал технологию A19 опережающей конкурентов на три-пять лет. ^[17]^[18]

Широкое внедрение

Первые суперскалярные однокристальные процессоры ( Intel i960 CA в 1989 году) использовали простое табло планирования, как и CDC 6600 четверть века назад, но в 1992-1996 годах быстрое развитие технологий, ставшее возможным за счет увеличения количества транзисторов , привело к сокращению их распространения. на персональные компьютеры. Motorola 88110 (1992) использовала буфер истории для возврата инструкций. ^[19] Загрузки могут выполняться перед предыдущими сохранениями. Пока хранилища и филиалы ожидали начала выполнения, последующие инструкции других типов могли продолжать проходить через все этапы конвейера, включая обратную запись. Емкость буфера истории на 12 записей налагала ограничение на расстояние повторного заказа. ^[20]^[21]^[22] PowerPC 601 (1993) представлял собой развитие однокристального процессора RISC , который сам по себе является упрощением POWER1. 601 позволял инструкциям ветвления и операциям с плавающей запятой обгонять целочисленные инструкции, уже находящиеся в очереди извлеченных инструкций, четыре младшие записи которой сканировались на предмет возможности диспетчеризации. В случае промаха в кэше порядок загрузки и сохранения может быть переупорядочен. Переименовать можно только регистр связи и счетчика. ^[28] Осенью 1994 года NexGen и IBM совместно с Motorola предложили переименование регистров общего назначения в однокристальные процессоры. Nx586 компании NexGen был первым процессором x86 , способным выполнять внеочередное выполнение, реализованное с помощью микро-ОП . Расстояние дозаказа — до 14 микроОП. ^[29] В PowerPC 603 были переименованы регистры общего назначения и регистры FP. Каждый из четырех исполнительных блоков без ветвей может иметь перед собой одну ожидающую команду, не блокируя поток команд к другим блокам. Буфер переупорядочения с пятью записями позволяет не более чем четырем инструкциям обогнать невыполненную команду. Благодаря буферу хранилища загрузка может получить доступ к кешу раньше предыдущего хранилища. ^[30]^[31]

PowerPC 604 (1995) был первым однокристальным процессором с переупорядочением на уровне исполнительных блоков , поскольку каждый из трех из шести его блоков имел станцию резервирования с двумя входами, позволяющую новой записи выполняться раньше старой. Емкость буфера переупорядочения составляет 16 инструкций. Очередь загрузки из четырех записей и очередь сохранения из шести записей отслеживают изменение порядка загрузки и сохранения в случае промахов в кэше. ^[32] HAL SPARC64 (1995) превысил возможности повторного заказа модели ES/9000 900, имея три станции резервирования с 8 входами для целых чисел, чисел с плавающей запятой и блока генерации адресов , а также станцию резервирования с 12 входами для загрузки. /store, что позволяет лучше переупорядочивать доступ к кешу/памяти, чем предыдущие процессоры. Одновременно в переупорядоченном состоянии могут находиться^до⁶⁴инструкций . Буфер повторного заказа на 40 записей. Грузы можно повторно заказать как перед погрузкой, так и перед складами. ^[35]

Практически достижимая скорость выполнения за такт еще больше выросла, поскольку полное выполнение вне очереди было далее принято SGI / MIPS ( R10000 ) и HP PA-RISC ( PA-8000 ) в 1996 году. В том же году Cyrix 6x86 и AMD K5 привнесла передовые методы переупорядочения в обычные персональные компьютеры . С тех пор, как в 1998 году компания DEC Alpha получила возможность выполнения внеочередного выполнения ( Alpha 21264 ), наиболее производительные процессорные ядра с нарушением порядка не имели аналогов среди ядер с нарушением порядка, кроме HP / Intel Itanium 2 и IBM POWER6 , хотя последние имел неисправный блок операций с плавающей запятой . ^[36] Другие высокопроизводительные процессоры с упорядоченным порядком сильно отстали, а именно Sun UltraSPARC III / IV и мэйнфреймы IBM, которые во второй раз потеряли возможность выполнения внеочередного выполнения, оставаясь в нормальном порядке до поколение z10 . Позже крупные процессоры с упорядоченным выполнением были ориентированы на многопоточную производительность, но в конечном итоге серия SPARC T и Xeon Phi перешли на выполнение вне порядка в 2011 и 2016 годах соответственно.

Почти все процессоры для телефонов и других приложений более низкого уровня оставались в порядке до c. 2010. Сначала на Snapdragon появился Qualcomm Scorpion (дистанция дозаказа 32) , ^[37] а чуть позже на смену A8 пришла Arm A9 . Для бюджетных персональных компьютеров x86 первые модели Intel Atom были первыми, кто бросил вызов AMD Bobcat , а в 2013 году на смену им пришел вышедший из строя Silvermont . ^[38] Поскольку сложность внеочередного выполнения не позволяет достичь наименьшего минимального энергопотребления, стоимости и размера, упорядоченное исполнение по-прежнему распространено в микроконтроллерах и встроенных системах , а также в ядрах телефонного класса, таких как Arm A55 . и A510 в конфигурациях big.LITTLE .

Основная концепция

Чтобы оценить исполнение вне порядка, полезно сначала описать порядок выполнения, чтобы иметь возможность сравнить их. Инструкции не могут быть выполнены мгновенно: они требуют времени (несколько циклов). Поэтому результаты будут отставать там, где они необходимы. В порядке все равно приходится отслеживать зависимости. Однако его подход довольно прост: каждый раз останавливаться. out-of-order использует гораздо более сложные методы отслеживания данных, как показано ниже.

Процессоры по порядку

В более ранних процессорах обработка инструкций выполняется в цикле команд, обычно состоящем из следующих шагов:

Инструкция получения .
Если входные операнды доступны (например, в регистрах процессора), инструкция отправляется соответствующему функциональному блоку . Если один или несколько операндов недоступны в течение текущего тактового цикла (обычно потому, что они извлекаются из памяти ), процессор останавливается до тех пор, пока они не станут доступны.
Команда выполняется соответствующим функциональным блоком.
Функциональный блок записывает результаты обратно в файл регистра .

Часто в процессоре упорядоченного порядка имеется запись битового вектора , в регистры которого будет записываться конвейер. ^[39] Если для каких-либо входных операндов в этом векторе установлен соответствующий бит, выполнение команды останавливается. По сути, вектор выполняет значительно упрощенную роль защиты от опасностей, связанных с регистрами. Таким образом, при выполнении вне порядка используются двумерные матрицы, тогда как при выполнении по порядку используется одномерный вектор для предотвращения опасностей.

Неисправные процессоры

Эта новая парадигма разбивает обработку инструкций на следующие этапы:

Получение инструкции.
Расшифровка инструкций.
Переименование инструкции.
Отправка инструкций в очередь инструкций (также называемую буфером инструкций или станциями резервирования ).
Инструкция ожидает в очереди, пока не станут доступны ее входные операнды. Инструкция может покинуть очередь раньше старых инструкций.
Команда выдается соответствующему функциональному блоку и выполняется этим блоком.
Результаты ставятся в очередь.
Только после того, как результаты всех старых инструкций будут записаны обратно в файл регистров, этот результат записывается обратно в файл регистров. Это называется этапом окончания или выхода на пенсию.

Ключевая концепция обработки OoOE заключается в том, чтобы позволить процессору избежать зависаний, которые возникают, когда данные, необходимые для выполнения операции, недоступны. В приведенной выше схеме процессор OoOE избегает остановки, которая возникает на этапе (2) процессора упорядоченного выполнения, когда инструкция не полностью готова к обработке из-за отсутствия данных.

Процессоры OoOE вовремя заполняют эти слоты другими готовыми инструкциями , а затем переупорядочивают результаты в конце, чтобы создать впечатление, что инструкции были обработаны как обычно. То, как инструкции упорядочиваются в исходном компьютерном коде, известно как порядок программы , в процессоре они обрабатываются в порядке данных , в том порядке, в котором данные, операнды, становятся доступными в регистрах процессора. Для преобразования одного порядка в другой и поддержания логического порядка вывода необходима довольно сложная схема; сам процессор выполняет инструкции в случайном порядке.

Преимущество обработки OoOE возрастает по мере углубления конвейера команд и увеличения разницы в скорости между основной памятью (или кэш-памятью ) и процессором. На современных машинах процессор работает во много раз быстрее, чем память, поэтому за время ожидания поступления данных исправный процессор мог бы обработать большое количество инструкций.

Разделение диспетчеризации и проблем позволяет исключить проблемы, выходящие за рамки заказа.

Одним из отличий, созданных новой парадигмой, является создание очередей, которые позволяют отделить этап отправки от этапа выдачи, а этап выпуска — от этапа выполнения. Ранним названием парадигмы была «отдельная архитектура» . В более ранних процессорах с упорядоченным выполнением эти этапы работали довольно синхронно и конвейерно.

Инструкции программы не могут выполняться в первоначально указанном порядке, пока конечный результат верен. Он отделяет этапы выборки и декодирования от этапа выполнения в конвейерном процессоре с помощью буфера .

Целью буфера является разделение доступа к памяти и выполнения функций в компьютерной программе и достижение высокой производительности за счет использования мелкозернистого параллелизма между ними. ^[40] При этом он эффективно скрывает все задержки памяти с точки зрения процессора.

Теоретически больший буфер может увеличить пропускную способность. Однако если процессор имеет неправильное предсказание перехода , возможно, придется очистить весь буфер, что приведет к потере большого количества тактовых циклов и снижению эффективности. Более того, буферы большего размера выделяют больше тепла и занимают больше места на кристалле . По этой причине сегодня разработчики процессоров отдают предпочтение многопоточному подходу к проектированию.

Разделенные архитектуры обычно считаются бесполезными для вычислений общего назначения, поскольку они плохо обрабатывают код с интенсивным управлением. ^[41] Код с интенсивным управлением включает в себя такие вещи, как вложенные ветки, которые часто встречаются в ядрах операционных систем . Разделенные архитектуры играют важную роль в планировании архитектур с очень длинными командами (VLIW). ^[42]

Чтобы избежать ложных зависимостей операндов, которые уменьшают частоту выдачи инструкций не по порядку, используется метод, называемый переименованием регистров . В этой схеме физических регистров больше, чем определено архитектурой. Физические регистры помечены таким образом, что одновременно могут существовать несколько версий одного и того же архитектурного регистра.

Разделение выполнения и обратной записи позволяет перезапустить программу.

Очередь результатов необходима для решения таких проблем, как неправильные прогнозы ветвей и исключения/ловушки. Очередь результатов позволяет перезапускать программы после исключения, что требует выполнения инструкций в программном порядке. Очередь позволяет отбрасывать результаты из-за неверных прогнозов в старых инструкциях ветвления и исключений, возникающих в старых инструкциях.

Возможность выдавать инструкции мимо ветвей, которые еще не решены, известна как спекулятивное выполнение .

Микроархитектурный выбор

Инструкции отправляются в централизованную очередь или в несколько распределенных очередей?

Процессоры IBM PowerPC используют очереди, которые распределены между различными функциональными блоками, тогда как другие процессоры с нарушением порядка используют централизованную очередь. IBM использует термин «станции резервирования» для обозначения своих распределенных очередей.

Существует ли реальная очередь результатов или результаты записываются непосредственно в файл регистра? В последнем случае функция организации очереди обрабатывается картами регистров, которые содержат информацию о переименовании регистров для каждой выполняющейся инструкции.

Ранние процессоры Intel с нарушением порядка используют очередь результатов, называемую буфером повторного порядка , тогда как большинство более поздних процессоров с нарушением порядка используют карты регистров.

Точнее: микропроцессоры семейства Intel P6 имеют как буфер повторного порядка (ROB), так и таблицу псевдонимов регистров (RAT). ROB был мотивирован главным образом восстановлением неверного прогноза ветвей.

Семейство Intel P6 является одним из первых микропроцессоров OoOE, но было вытеснено архитектурой NetBurst . Спустя годы NetBurst оказался тупиком из-за своего длинного конвейера, предполагавшего возможность гораздо более высоких рабочих частот. Материалы не смогли соответствовать амбициозным целевым показателям конструкции из-за проблем с температурой, и более поздние разработки на основе NetBurst, а именно Tejas и Jayhawk, были отменены. Intel вернулась к дизайну P6 в качестве основы микроархитектур Core и Nehalem . Последующие микроархитектуры Sandy Bridge , Ivy Bridge и Haswell представляют собой отход от методов переупорядочения, используемых в P6, и используют методы переупорядочения из EV6 и P4 , но с несколько более коротким конвейером. ^[43]^[44]

Смотрите также

В Wikibook Microprocessor Design есть страница на тему: Выполнение вне порядка.

дальнейшее чтение

Смит, Джеймс Э .; Плешкун, А.Р. (июнь 1985 г.). «Реализация точных прерываний в конвейерных процессорах». Новости компьютерной архитектуры ACM SIGARCH . 13 (3): 36–44. дои : 10.1145/327070.327125.