Иерархия кэша

Иерархия кэша, или многоуровневый кэш , — это архитектура памяти, в которой используется иерархия хранилищ памяти, основанная на различной скорости доступа к данным кэша. Очень запрашиваемые данные кэшируются в хранилищах памяти с высокоскоростным доступом, что обеспечивает более быстрый доступ к ядрам центрального процессора (ЦП).

Иерархия кэша является формой и частью иерархии памяти и может рассматриваться как форма многоуровневого хранилища . ^[1] Эта конструкция была предназначена для того, чтобы позволить ядрам ЦП работать быстрее, несмотря на задержку доступа к основной памяти . Доступ к основной памяти может стать узким местом для производительности ядра ЦП, поскольку ЦП ожидает данных, в то время как обеспечение высокой скорости всей основной памяти может быть непомерно дорогим. Высокоскоростные кэши являются компромиссом, обеспечивающим высокоскоростной доступ к данным, наиболее часто используемым процессором, что позволяет увеличить тактовую частоту процессора . ^[2]

Фон

В истории разработки компьютеров и электронных микросхем был период, когда увеличение скорости процессора опережало улучшение скорости доступа к памяти. ^[3] Разрыв между скоростью процессоров и памятью означал, что процессор часто простаивал. ^[4] Процессоры становились все более способными запускать и выполнять большее количество инструкций за заданное время, но время, необходимое для доступа к данным из основной памяти, не позволяло программам в полной мере воспользоваться этой возможностью. ^[5] Эта проблема побудила создание моделей памяти с более высокими скоростями доступа, чтобы реализовать потенциал более быстрых процессоров. ^[6]

Результатом этого стала концепция кэш-памяти , впервые предложенная Морисом Уилксом , британским ученым-компьютерщиком из Кембриджского университета в 1965 году. Он назвал такие модели памяти «ведомой памятью». ^[7] Примерно между 1970 и 1990 годами в статьях Ананта Агарвала , Алана Джея Смита , Марка Д. Хилла , Томаса Р. Пьюзака и других обсуждались лучшие конструкции кэш-памяти. В то время были реализованы первые модели кэш-памяти, но даже по мере того, как исследователи проводили исследования и предлагали лучшие конструкции, потребность в более быстрых моделях памяти сохранялась. Эта необходимость возникла из-за того, что, хотя ранние модели кэша улучшали задержку доступа к данным, с учетом стоимости и технических ограничений было невозможно, чтобы кэш компьютерной системы приблизился к размеру основной памяти. Начиная с 1990 года, были предложены такие идеи, как добавление еще одного уровня кэша (второго уровня) в качестве резервной копии кэша первого уровня. Жан-Лу Баер , Вен-Ханн Ван, Эндрю В. Уилсон и другие провели исследование этой модели. Когда несколько симуляций и реализаций продемонстрировали преимущества моделей двухуровневого кэша, концепция многоуровневых кэшей стала новой и в целом лучшей моделью кэш-памяти. С 2000 года модели многоуровневого кэша получили широкое распространение и в настоящее время реализованы во многих системах, например, трехуровневые кэши, присутствующие в продуктах Intel Core i7. ^[8]

Многоуровневый кэш

Доступ к основной памяти для выполнения каждой инструкции может привести к медленной обработке, при этом тактовая частота зависит от времени, необходимого для поиска и выборки данных. Чтобы скрыть эту задержку памяти от процессора, используется кэширование данных. ^[9] Всякий раз, когда процессору требуются данные, они извлекаются из основной памяти и сохраняются в меньшей структуре памяти, называемой кэшем. Если эти данные еще потребуются, сначала выполняется поиск в кеше, а затем в основной памяти. ^[10] Эта структура расположена ближе к процессору с точки зрения времени, затрачиваемого на поиск и выборку данных по отношению к основной памяти. ^[11] Преимущества использования кэша можно доказать, рассчитав среднее время доступа (AAT) для иерархии памяти с кэшем и без него. ^[12]

Среднее время доступа (AAT)

Кэши, будучи небольшими по размеру, могут приводить к частым промахам (когда поиск в кэше не дает искомой информации), что приводит к вызову основной памяти для выборки данных. Следовательно, на AAT влияет частота ошибок каждой структуры, в которой он ищет данные. ^[13]

{\text{AAT}}={\text{время попадания}}+(({\text{скорость промахов}})\times ({\text{штраф за промах}}))

AAT для основной памяти определяется временем обращения _{к основной памяти} . AAT для кешей может быть задан как

_Кэш времени попадания + ( _кэш частоты промахов × время штрафа за промах _{, необходимое для перехода в основную память после отсутствия кеша} ). ^{[ нужны дальнейшие объяснения ]}

Время попадания для кэшей меньше, чем время попадания для основной памяти, поэтому AAT для извлечения данных значительно ниже при доступе к данным через кэш, а не через основную память. ^[14]

Компромиссы

Хотя использование кэша может улучшить задержку памяти, оно не всегда может привести к необходимому улучшению времени, затрачиваемого на выборку данных, из-за способа организации и прохождения кэшей. Например, кэши с прямым отображением одинакового размера обычно имеют более высокий уровень ошибок, чем полностью ассоциативные кэши. Это также может зависеть от производительности компьютера, тестирующего процессор, и от шаблона инструкций. Но использование полностью ассоциативного кеша может привести к большему энергопотреблению, поскольку каждый раз приходится просматривать весь кеш. В связи с этим компромисс между энергопотреблением (и соответствующим выделением тепла) и размером кэша становится критически важным при проектировании кэша. ^[13]

Эволюция

В случае промаха кэша цель использования такой структуры окажется бесполезной, и компьютеру придется обратиться к основной памяти для получения необходимых данных. Однако при использовании многоуровневого кэша , если компьютер пропускает кэш, ближайший к процессору (кэш первого уровня или L1), он будет искать следующий ближайший уровень кэша и переходить к основной памяти, только если они методы не работают. Общая тенденция заключается в том, чтобы кэш L1 оставался небольшим и находился на расстоянии 1–2 тактовых циклов ЦП от процессора, при этом размер кэшей нижних уровней увеличивается для хранения большего количества данных, чем L1, следовательно, они становятся более удаленными, но с меньшими ошибками. ставка. Это приводит к улучшению AAT. ^[15] Количество уровней кэша может быть спроектировано архитекторами в соответствии с их требованиями после проверки компромисса между стоимостью, AAT и размером. ^[16]^[17]

Повышение производительности

Благодаря технологии масштабирования, которая позволила разместить системы памяти на одном кристалле, большинство современных процессоров имеют до трех или четырех уровней кэша. ^[18] Сокращение AAT можно понять на этом примере, где компьютер проверяет AAT на наличие различных конфигураций вплоть до кэшей L3.

Пример : основная память = 50 нс , L1 = 1 нс с частотой промахов 10 %, L2 = 5 нс с частотой промахов 1 %, L3 = 10 нс с частотой промахов 0,2 %.

Без кэша, AAT = 50 нс
Кэш L1, AAT = 1 нс + (0,1 × 50 нс) = 6 нс
Кэш-память L1–2, AAT = 1 нс + (0,1 × [5 нс + (0,01 × 50 нс)]) = 1,55 нс
Кэш-память L1–3, AAT = 1 нс + (0,1 × [5 нс + (0,01 × [10 нс + (0,002 × 50 нс)])]) = 1,5101 нс

Недостатки

Кэш-память требует более высоких предельных затрат , чем основная память, и, таким образом, может увеличить стоимость всей системы. ^[19]
Кэшированные данные хранятся только до тех пор, пока в кеш подается питание.
Увеличенная площадь кристалла, необходимая для системы памяти. ^[20]
Преимущества могут быть сведены к минимуму или устранены в случае больших программ с плохой временной локальностью , которые часто обращаются к основной памяти. ^[21]

Характеристики

Банковские против унифицированных

В банковском кеше кеш разделен на кеш, предназначенный для хранения инструкций , и кеш, предназначенный для данных. Напротив, унифицированный кеш содержит как инструкции, так и данные в одном кеше. ^[22] Во время процесса процессор обращается к кэшу L1 (или к кэшу самого верхнего уровня в зависимости от его подключения к процессору) для извлечения как инструкций, так и данных. Требование одновременного выполнения обоих действий требует наличия нескольких портов и большего времени доступа к единому кэшу. Наличие нескольких портов требует дополнительного оборудования и проводки, что приводит к значительной структуре между кэшами и процессорами. ^[23] Чтобы избежать этого, кэш L1 часто организуется как групповой кэш, что приводит к меньшему количеству портов, меньшему количеству оборудования и, как правило, к меньшему времени доступа. ^[13]

Современные процессоры имеют разделенный кэш, а в системах с многоуровневым кэшем кэши более высокого уровня могут быть объединены, а кэши нижних уровней разделены. ^[24]

Политика включения

схема системы памяти, показывающая копию L1 внутри L2 и копию L2 внутри L3. — Инклюзивная организация кэша

Может ли блок, присутствующий на верхнем уровне кэша, также присутствовать на нижнем уровне кэша, определяется политикой включения системы памяти , которая может быть инклюзивной, эксклюзивной или неинклюзивной-неэксклюзивной (NINE). ^{[ нужна цитата ]}

При использовании инклюзивной политики все блоки, присутствующие в кеше верхнего уровня, должны также присутствовать и в кеше нижнего уровня. Каждый компонент кэша верхнего уровня является подмножеством компонента кэша нижнего уровня. В этом случае, поскольку происходит дублирование блоков, происходит некоторая потеря памяти. Однако проверка происходит быстрее. ^{[ нужна цитата ]}

В соответствии с политикой эксклюзивности все компоненты иерархии кэша являются полностью эксклюзивными, так что ни один элемент кэша верхнего уровня не будет присутствовать ни в одном из компонентов кэша нижнего уровня. Это позволяет полностью использовать кэш-память. Однако существует высокая задержка доступа к памяти. ^[25]

Вышеуказанные политики требуют соблюдения ряда правил для их реализации. Если ни один из них не является обязательным, результирующая политика включения называется неинклюзивной неэксклюзивной (NINE). Это означает, что кэш верхнего уровня может присутствовать или отсутствовать в кеше нижнего уровня. ^[21]

Написание политик

Существует две политики, определяющие способ обновления измененного блока кэша в основной памяти: сквозная запись и обратная запись. ^{[ нужна цитата ]}

В случае политики сквозной записи всякий раз, когда значение блока кэша изменяется, оно также модифицируется в иерархии памяти нижнего уровня. ^[26] Эта политика гарантирует безопасное хранение данных по мере их записи по всей иерархии.

Однако в случае политики обратной записи измененный блок кэша будет обновлен в иерархии нижнего уровня только тогда, когда блок кэша будет удален. «Грязный бит» прикрепляется к каждому блоку кэша и устанавливается при каждом изменении блока кэша. ^[27] Во время вытеснения блоки с установленным грязным битом будут записаны в иерархию нижнего уровня. В соответствии с этой политикой существует риск потери данных, поскольку последняя измененная копия данных хранится только в кэше, и поэтому необходимо соблюдать некоторые методы исправления.

В случае записи, когда байт отсутствует в блоке кэша, байт может быть перенесен в кэш, как это определено политикой выделения записи или запрета записи. ^[28] Политика распределения записи гласит, что в случае промаха записи блок извлекается из основной памяти и помещается в кэш перед записью. ^[29] В политике записи без выделения, если блок пропущен в кеше, он будет записываться в иерархию памяти нижнего уровня без извлечения блока в кеш. ^[30]

Обычными комбинациями политик являются «блокировка записи», «выделение записи» и «запись через запись без выделения» .

Общий и частный

Частный кэш назначается одному конкретному ядру процессора и не может быть доступен другим ядрам. В некоторых архитектурах каждое ядро имеет свой собственный кэш; это создает риск дублирования блоков в архитектуре системного кэша, что приводит к снижению использования емкости. Однако этот тип выбора конструкции в архитектуре многоуровневого кэша также может быть полезен для снижения задержки доступа к данным. ^[28]^[31]^[32]

Общий кеш — это кеш, к которому могут получить доступ несколько ядер. ^[33] Поскольку он является общим, каждый блок в кеше уникален и, следовательно, имеет более высокую вероятность попадания, поскольку не будет повторяющихся блоков. Однако задержка доступа к данным может увеличиться, поскольку несколько ядер пытаются получить доступ к одному и тому же кэшу. ^[34]

В многоядерных процессорах выбор конструкции: общий или частный кэш влияет на производительность процессора. ^[35] На практике кэш верхнего уровня L1 (или иногда L2) ^[36]^[37] реализуется как частный, а кэши нижнего уровня реализуются как общие. Такая конструкция обеспечивает высокую скорость доступа к кэшам высокого уровня и низкую частоту ошибок для кэшей нижнего уровня. ^[35]

Последние модели реализации

Микроархитектура Intel Broadwell (2014 г.)

Кэш L1 (инструкции и данные) – 64 КБ на ядро
Кэш L2 — 256 КБ на ядро
Кэш L3 — общий от 2 МБ до 6 МБ
Кэш L4 — 128 МБ eDRAM (только модели Iris Pro) ^[36]

Микроархитектура Intel Kaby Lake (2016 г.)

Кэш L1 (инструкции и данные) – 64 КБ на ядро
Кэш L2 — 256 КБ на ядро
Кэш L3 — общий от 2 до 8 МБ ^[37]

Микроархитектура AMD Zen (2017 г.)

Кэш L1 — 32 КБ данных и 64 КБ инструкций на ядро, 4-сторонний
Кэш L2 — 512 КБ на ядро, 4-поточный включительно
Кэш L3 — 4 МБ локального и удаленного на 4-ядерный CCX, 2 CCX на чиплет, 16-канальный невключительно. До 16 МБ на настольных процессорах и 64 МБ на серверных процессорах

Микроархитектура AMD Zen 2 (2019 г.)

Кэш L1 — 32 КБ данных и 32 КБ инструкций на ядро, 8-поточный
Кэш L2 — 512 КБ на ядро, 8-поточный включительно
Кэш-память L3 — 16 МБ локально на 4-ядерный CCX, 2 CCX на чиплет, 16-поточный невключительно. До 64 МБ на настольных процессорах и 256 МБ на серверных процессорах

IBM POWER7 (2010 г.)

Кэш L1 (инструкции и данные) – каждый 64-банковый, каждый банк имеет порты 2 + 1 WR, 32 КБ, 8-канальный ассоциативный, блок 128 байт, сквозная запись
Кэш L2 — 256 КБ, 8-поточный, блок 128 байт, обратная запись, включая L1, задержка доступа 2 нс
Кэш L3 – 8 областей по 4 МБ (всего 32 МБ), локальная область 6 нс, удаленная 30 нс, каждая область 8-сторонняя ассоциативность, массив данных DRAM, массив тегов SRAM ^[39]