Максвелл (микроархитектура)

Maxwell — кодовое название микроархитектуры графического процессора , разработанной Nvidia в качестве преемника микроархитектуры Kepler . Архитектура Maxwell была представлена в более поздних моделях серии GeForce 700 и также используется в сериях GeForce 800M , GeForce 900 и Quadro Mxxx, а также в некоторых продуктах Jetson .

Первыми продуктами на базе Maxwell стали GeForce GTX 745 (OEM), GeForce GTX 750 и GeForce GTX 750 Ti. Обе были выпущены 18 февраля 2014 года, обе с кодовым номером чипа GM107. Более ранние графические процессоры серии GeForce 700 использовали чипы Kepler с кодовыми номерами GK1xx. Графические процессоры Maxwell первого поколения (кодовые номера GM10x) также используются в сериях GeForce 800M и Quadro Kxxx. Второе поколение продуктов на базе Maxwell было представлено 18 сентября 2014 года с GeForce GTX 970 и GeForce GTX 980, за которыми последовали GeForce GTX 960 22 января 2015 года, GeForce GTX Titan X 17 марта 2015 года и GeForce GTX 980 Ti 1 июня 2015 года. Последней и самой простой картой Maxwell 2.0 стала GTX950, выпущенная 20 августа 2015 года. Эти графические процессоры имеют кодовые номера чипов GM20x.

Maxwell представила улучшенную конструкцию потокового мультипроцессора (SM), которая повысила энергоэффективность ^[1], шестое и седьмое поколение PureVideo HD и вычислительную мощность CUDA 5.2.

Архитектура названа в честь Джеймса Клерка Максвелла , основателя теории электромагнитного излучения.

Архитектура Maxwell используется в системе на кристалле (SOC), процессоре мобильных приложений Tegra X1 .

Первое поколение Maxwell (GM10x)

Первое поколение графических процессоров Maxwell (GM107/GM108) было выпущено как GeForce GTX 745, GTX 750/750 Ti, GTX 850M/860M (GM107) и GeForce 830M/840M (GM108). Эти новые чипы представили несколько дополнительных функций, ориентированных на потребителя, поскольку Nvidia вместо этого сосредоточилась больше на повышении энергоэффективности графического процессора. Кэш L2 был увеличен с 256 КБ на Kepler до 2 МБ на Maxwell, что снизило потребность в большей пропускной способности памяти. Соответственно, шина памяти была уменьшена со 192 бит на Kepler (GK106) до 128 бит, что уменьшило площадь кристалла, стоимость и энергопотребление. ^[2]

Потоковый мультипроцессорный дизайн «SMX» от Kepler также был переоснащен и разделен, переименован в «SMM» для Maxwell. Структура планировщика варпа была унаследована от Kepler, при этом блоки текстур и ядра FP64 CUDA по-прежнему были общими, но компоновка большинства блоков исполнения была разделена таким образом, что каждый планировщик варпа в SMM управлял одним набором из 32 ядер FP32 CUDA, одним набором из 8 блоков загрузки/хранения и одним набором из 8 блоков специальных функций. Это контрастирует с Kepler, где каждый SMX имел 4 планировщика, которые планировали для общего пула блоков исполнения. ^[3] Последнее требовало кросс-бара шириной SMX, который использовал ненужную мощность, чтобы позволить всем блокам исполнения быть общими. ^[3] И наоборот, более модульный дизайн Maxwell обеспечивает более тонкое и эффективное распределение ресурсов, экономя энергию, когда рабочая нагрузка не оптимальна для общих ресурсов. Nvidia утверждает, что 128-ядерный SMM CUDA имеет 90% производительности 192-ядерного SMX CUDA, при этом эффективность увеличивается в 2 раза. ^[2] Кроме того, каждый графический процессорный кластер, или GPC, содержит до 4 блоков SMX в Kepler и до 5 блоков SMM в первом поколении Maxwell. ^[2]

GM107 также поддерживает CUDA Compute Capability 5.0 по сравнению с 3.5 на GPU GK110/GK208 и 3.0 на GPU GK10x. Динамический параллелизм и HyperQ, две функции в GPU GK110/GK208, также поддерживаются во всей линейке продуктов Maxwell. Maxwell также предоставляет собственные атомарные операции с общей памятью для 32-битных целых чисел и собственные операции сравнения и обмена (CAS) с общей памятью 32-битных и 64-битных, которые можно использовать для реализации других атомарных функций.

Видеокодер Nvidia, NVENC, был модернизирован и стал в 1,5–2 раза быстрее, чем на графических процессорах на базе Kepler, что означает, что он может кодировать видео со скоростью воспроизведения в шесть–восемь раз выше. ^{[2] Nvidia также заявляет об увеличении производительности декодирования видео}PureVideo Feature Set E в восемь–десять раз за счет кэша видеодекодера в сочетании с повышением эффективности памяти. Однако H.265 не поддерживается для полного аппаратного декодирования в графических процессорах Maxwell первого поколения, поскольку используется сочетание аппаратного и программного декодирования (декодирование ЦП). ^[2] При декодировании видео в графических процессорах Maxwell используется новое состояние низкого энергопотребления «GC5» для экономии энергии. ^[2]

Считалось, что графические процессоры Maxwell используют рендеринг на основе плиток ^[4] , но на самом деле они используют кэширование плиток ^[5] .

Начиная с первого поколения Maxwell, протокол вывода графики UEFI полностью поддерживается на графических процессорах NVIDIA.

Чипсы

ГМ107
ГМ108

Второе поколение Maxwell (GM20x)

Второе поколение графических процессоров Maxwell представило несколько новых технологий: Dynamic Super Resolution, ^[6] Third Generation Delta Color Compression, ^[7] Multi-Pixel Programming Sampling, ^[8] Nvidia VXGI (Real-Time-Voxel- Global Illumination ), ^[9] VR Direct, ^[9]^[10]^[11] Multi-Projection Acceleration, ^[7] Multi-Frame Sampled Anti-Aliasing (MFAA) ^[12] (однако поддержка Coverage-Sampling Anti-Aliasing (CSAA) была удалена), ^[13] и Direct3D12 API на уровне функций 12_1. Также была добавлена поддержка HDMI 2.0. ^[14]^[15]

Соотношение ROP к контроллеру памяти было изменено с 8:1 на 16:1. ^[16] Однако некоторые ROP в GTX 970, как правило, простаивают, поскольку недостаточно включенных SMM для обеспечения их работой, что снижает максимальную скорость заполнения. ^[17]

Механизм Polymorph Engine, отвечающий за тесселяцию, был обновлен до версии 3.0 во втором поколении графических процессоров Maxwell, что привело к повышению производительности тесселяции на единицу/такт.

Второе поколение Maxwell также имеет до 4 блоков SMM на GPC по сравнению с 5 блоками SMM на GPC. ^[16]

GM204 поддерживает CUDA Compute Capability 5.2 (по сравнению с 5.0 на графических процессорах GM107/GM108, 3.5 на графических процессорах GK110/GK208 и 3.0 на графических процессорах GK10x). ^[7]^[16]^[18]

Графические процессоры GM20x имеют обновленный NVENC, который поддерживает кодирование HEVC и добавляет поддержку разрешений кодирования H.264 при 1440p/60FPS и 4K/60FPS (по сравнению с NVENC на графических процессорах Maxwell первого поколения GM10x, которые поддерживали только кодирование H.264 1080p/60FPS). ^[11]

После жалоб потребителей ^[19] Nvidia показала, что она может отключать отдельные блоки, каждый из которых содержит 256 КБ кэша L2 и 8 ROP, без отключения всех контроллеров памяти. ^[20] Это происходит за счет разделения шины памяти на высокоскоростные и низкоскоростные сегменты, к которым нельзя получить доступ одновременно для чтения, поскольку блок L2/ROP, управляющий обоими контроллерами GDDR5, разделяет канал возврата чтения и шину данных записи между контроллерами GDDR5. Это делает невозможным одновременное чтение с обоих контроллеров GDDR5 или одновременную запись на оба контроллера GDDR5. ^[20] Это используется в GeForce GTX 970, которую, следовательно, можно описать как имеющую 3,5 ГБ в высокоскоростном сегменте на 224-битной шине и 512 МБ в низкоскоростном сегменте на 32-битной шине. ^[20] Пиковая скорость такого графического процессора все еще может быть достигнута, но пиковая скорость достижима только в том случае, если один сегмент выполняет операцию чтения, а другой сегмент выполняет операцию записи. ^[20]

Чипсы

ГМ200
ГМ204
ГМ206

Производительность

Теоретическая вычислительная мощность графического процессора Maxwell с одинарной точностью в FLOPS вычисляется как 2 (операций на инструкцию FMA на ядро CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в Гц).

Теоретическая мощность обработки двойной точности графического процессора Maxwell составляет 1/32 от производительности одинарной точности (что было отмечено как очень низкий показатель по сравнению с предыдущим поколением Kepler ). ^[21]

Преемник

Преемник Maxwell носит кодовое название Pascal . ^[22] Архитектура Pascal отличается более высокой пропускной способностью, унифицированной памятью и NVLink . ^[22]

Смотрите также

Ссылки

^ "5 вещей, которые вы должны знать о новой архитектуре графического процессора Maxwell". 2014-02-21.
^ abcdef Смит, Райан; ТС, Ганеш (18 февраля 2014 г.). «Обзор NVIDIA GeForce GTX 750 Ti и GTX 750: Maxwell делает свой ход». AnandTech . Архивировано из оригинала 18 февраля 2014 г. . Получено 18 февраля 2014 г. .
^ Райан Смит, Ганеш Т. С. «Maxwell: Разработано для энергоэффективности — Обзор NVIDIA GeForce GTX 750 Ti и GTX 750: Maxwell делает свой ход».
^ Кантер, Дэвид (1 августа 2016 г.). «Растеризация на основе тайлов в графических процессорах Nvidia». Real World Technologies . Получено 1 апреля 2016 г.
^ «О рендеринге на основе плиток от NVIDIA». Tech Power Up . 1 марта 2017 г. Получено 9 мая 2020 г.
^ «Динамическое суперразрешение улучшает ваши игры с графикой качества 4K на HD-мониторах». www.nvidia.com .
^ abc "Архивная копия" (PDF) . Архивировано из оригинала (PDF) 2017-07-21 . Получено 2014-09-19 .{{cite web}}: CS1 maint: архивная копия как заголовок ( ссылка )
^ "NVIDIA BatteryBoost: избавьтесь от кирпича". NVIDIA .
^ ab "Статьи, руководства, игровые новости, избранные истории GeForce". www.nvidia.com .
^ «Как Maxwell VR Direct приближает виртуальную реальность к реальности». Официальный блог NVIDIA .
^ Райан Смит. «Дисплей имеет значение: HDMI 2.0, HEVC и VR Direct — Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
^ «Многокадровое сэмплированное сглаживание обеспечивает лучшую производительность для геймеров Maxwell». www.nvidia.com .
^ «Новые чипы nVidia Maxwell не поддерживают быстрый CSAA».
^ "Видеокарты и ноутбуки серии GeForce RTX 20". NVIDIA .
^ Райан Смит. «Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
^ abc Райан Смит. «Архитектура Maxwell 2: Знакомство с GM204 — Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
^ "Вот еще одна причина, по которой GeForce GTX 970 медленнее, чем GTX 980". Технический отчет .
^ "Maxwell: Самый передовой графический процессор CUDA из когда-либо созданных". Parallel Forall . 19 сентября 2014 г.
↑ Джеффри Тим (3 декабря 2015 г.). «У GTX970 от Nvidia довольно серьезная ошибка распределения памяти». Lazygamer.net .
^ abcd Райан Смит. «Глубже: кросс-панель памяти Maxwell 2 и разделы ROP — GeForce GTX 970: исправление спецификаций и исследование распределения памяти».
^ Смит, Райан (17 марта 2015 г.). "Обзор NVIDIA GeForce GTX Titan X". AnandTech . стр. 2 . Получено 6 декабря 2015 г. . ...ничтожная собственная скорость FP64 всего 1/32
^ ab "NVIDIA обновляет дорожную карту графических процессоров; анонсирует Pascal". Официальный блог NVIDIA .