stringtranslate.com

Максвелл (микроархитектура)

Фотография Джеймса Клерка Максвелла, эпонима архитектуры

Maxwell — кодовое название микроархитектуры графического процессора , разработанной Nvidia в качестве преемника микроархитектуры Kepler . Архитектура Maxwell была представлена ​​в более поздних моделях серии GeForce 700 и также используется в сериях GeForce 800M , GeForce 900 и Quadro Mxxx, а также в некоторых продуктах Jetson .

Первыми продуктами на базе Maxwell стали GeForce GTX 745 (OEM), GeForce GTX 750 и GeForce GTX 750 Ti. Обе были выпущены 18 февраля 2014 года, обе с кодовым номером чипа GM107. Более ранние графические процессоры серии GeForce 700 использовали чипы Kepler с кодовыми номерами GK1xx. Графические процессоры Maxwell первого поколения (кодовые номера GM10x) также используются в сериях GeForce 800M и Quadro Kxxx. Второе поколение продуктов на базе Maxwell было представлено 18 сентября 2014 года с GeForce GTX 970 и GeForce GTX 980, за которыми последовали GeForce GTX 960 22 января 2015 года, GeForce GTX Titan X 17 марта 2015 года и GeForce GTX 980 Ti 1 июня 2015 года. Последней и самой простой картой Maxwell 2.0 стала GTX950, выпущенная 20 августа 2015 года. Эти графические процессоры имеют кодовые номера чипов GM20x.

Maxwell представила улучшенную конструкцию потокового мультипроцессора (SM), которая повысила энергоэффективность [1], шестое и седьмое поколение PureVideo HD и вычислительную мощность CUDA 5.2.

Архитектура названа в честь Джеймса Клерка Максвелла , основателя теории электромагнитного излучения.

Архитектура Maxwell используется в системе на кристалле (SOC), процессоре мобильных приложений Tegra X1 .

Первое поколение Maxwell (GM10x)

Чип Maxwell 107 на видеокарте GTX 750 Ti со снятым радиатором

Первое поколение графических процессоров Maxwell (GM107/GM108) было выпущено как GeForce GTX 745, GTX 750/750 Ti, GTX 850M/860M (GM107) и GeForce 830M/840M (GM108). Эти новые чипы представили несколько дополнительных функций, ориентированных на потребителя, поскольку Nvidia вместо этого сосредоточилась больше на повышении энергоэффективности графического процессора. Кэш L2 был увеличен с 256 КБ на Kepler до 2 МБ на Maxwell, что снизило потребность в большей пропускной способности памяти. Соответственно, шина памяти была уменьшена со 192 бит на Kepler (GK106) до 128 бит, что уменьшило площадь кристалла, стоимость и энергопотребление. [2]

Потоковый мультипроцессорный дизайн «SMX» от Kepler также был переоснащен и разделен, переименован в «SMM» для Maxwell. Структура планировщика варпа была унаследована от Kepler, при этом блоки текстур и ядра FP64 CUDA по-прежнему были общими, но компоновка большинства блоков исполнения была разделена таким образом, что каждый планировщик варпа в SMM управлял одним набором из 32 ядер FP32 CUDA, одним набором из 8 блоков загрузки/хранения и одним набором из 8 блоков специальных функций. Это контрастирует с Kepler, где каждый SMX имел 4 планировщика, которые планировали для общего пула блоков исполнения. [3] Последнее требовало кросс-бара шириной SMX, который использовал ненужную мощность, чтобы позволить всем блокам исполнения быть общими. [3] И наоборот, более модульный дизайн Maxwell обеспечивает более тонкое и эффективное распределение ресурсов, экономя энергию, когда рабочая нагрузка не оптимальна для общих ресурсов. Nvidia утверждает, что 128-ядерный SMM CUDA имеет 90% производительности 192-ядерного SMX CUDA, при этом эффективность увеличивается в 2 раза. [2] Кроме того, каждый графический процессорный кластер, или GPC, содержит до 4 блоков SMX в Kepler и до 5 блоков SMM в первом поколении Maxwell. [2]

GM107 также поддерживает CUDA Compute Capability 5.0 по сравнению с 3.5 на GPU GK110/GK208 и 3.0 на GPU GK10x. Динамический параллелизм и HyperQ, две функции в GPU GK110/GK208, также поддерживаются во всей линейке продуктов Maxwell. Maxwell также предоставляет собственные атомарные операции с общей памятью для 32-битных целых чисел и собственные операции сравнения и обмена (CAS) с общей памятью 32-битных и 64-битных, которые можно использовать для реализации других атомарных функций.

Видеокодер Nvidia, NVENC, был модернизирован и стал в 1,5–2 раза быстрее, чем на графических процессорах на базе Kepler, что означает, что он может кодировать видео со скоростью воспроизведения в шесть–восемь раз выше. [2] Nvidia также заявляет об увеличении производительности декодирования видео PureVideo Feature Set E в восемь–десять раз за счет кэша видеодекодера в сочетании с повышением эффективности памяти. Однако H.265 не поддерживается для полного аппаратного декодирования в графических процессорах Maxwell первого поколения, поскольку используется сочетание аппаратного и программного декодирования (декодирование ЦП). [2] При декодировании видео в графических процессорах Maxwell используется новое состояние низкого энергопотребления «GC5» для экономии энергии. [2]

Считалось, что графические процессоры Maxwell используют рендеринг на основе плиток [4] , но на самом деле они используют кэширование плиток [5] .

Начиная с первого поколения Maxwell, протокол вывода графики UEFI полностью поддерживается на графических процессорах NVIDIA.

Чипсы

Второе поколение Maxwell (GM20x)

Снимок кристалла графического процессора GM200, обнаруженного внутри видеокарт GeForce GTX 980 Ti

Второе поколение графических процессоров Maxwell представило несколько новых технологий: Dynamic Super Resolution, [6] Third Generation Delta Color Compression, [7] Multi-Pixel Programming Sampling, [8] Nvidia VXGI (Real-Time-Voxel- Global Illumination ), [9] VR Direct, [9] [10] [11] Multi-Projection Acceleration, [7] Multi-Frame Sampled Anti-Aliasing (MFAA) [12] (однако поддержка Coverage-Sampling Anti-Aliasing (CSAA) была удалена), [13] и Direct3D12 API на уровне функций 12_1. Также была добавлена ​​поддержка HDMI 2.0. [14] [15]

Соотношение ROP к контроллеру памяти было изменено с 8:1 на 16:1. [16] Однако некоторые ROP в GTX 970, как правило, простаивают, поскольку недостаточно включенных SMM для обеспечения их работой, что снижает максимальную скорость заполнения. [17]

Механизм Polymorph Engine, отвечающий за тесселяцию, был обновлен до версии 3.0 во втором поколении графических процессоров Maxwell, что привело к повышению производительности тесселяции на единицу/такт.

Второе поколение Maxwell также имеет до 4 блоков SMM на GPC по сравнению с 5 блоками SMM на GPC. [16]

GM204 поддерживает CUDA Compute Capability 5.2 (по сравнению с 5.0 на графических процессорах GM107/GM108, 3.5 на графических процессорах GK110/GK208 и 3.0 на графических процессорах GK10x). [7] [16] [18]

Графические процессоры GM20x имеют обновленный NVENC, который поддерживает кодирование HEVC и добавляет поддержку разрешений кодирования H.264 при 1440p/60FPS и 4K/60FPS (по сравнению с NVENC на графических процессорах Maxwell первого поколения GM10x, которые поддерживали только кодирование H.264 1080p/60FPS). [11]

После жалоб потребителей [19] Nvidia показала, что она может отключать отдельные блоки, каждый из которых содержит 256 КБ кэша L2 и 8 ROP, без отключения всех контроллеров памяти. [20] Это происходит за счет разделения шины памяти на высокоскоростные и низкоскоростные сегменты, к которым нельзя получить доступ одновременно для чтения, поскольку блок L2/ROP, управляющий обоими контроллерами GDDR5, разделяет канал возврата чтения и шину данных записи между контроллерами GDDR5. Это делает невозможным одновременное чтение с обоих контроллеров GDDR5 или одновременную запись на оба контроллера GDDR5. [20] Это используется в GeForce GTX 970, которую, следовательно, можно описать как имеющую 3,5 ГБ в высокоскоростном сегменте на 224-битной шине и 512 МБ в низкоскоростном сегменте на 32-битной шине. [20] Пиковая скорость такого графического процессора все еще может быть достигнута, но пиковая скорость достижима только в том случае, если один сегмент выполняет операцию чтения, а другой сегмент выполняет операцию записи. [20]

Чипсы

Производительность

Теоретическая вычислительная мощность графического процессора Maxwell с одинарной точностью в FLOPS вычисляется как 2 (операций на инструкцию FMA на ядро ​​CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в Гц).

Теоретическая мощность обработки двойной точности графического процессора Maxwell составляет 1/32 от производительности одинарной точности (что было отмечено как очень низкий показатель по сравнению с предыдущим поколением Kepler ). [21]

Преемник

Преемник Maxwell носит кодовое название Pascal . [22] Архитектура Pascal отличается более высокой пропускной способностью, унифицированной памятью и NVLink . [22]

Смотрите также

Ссылки

  1. ^ "5 вещей, которые вы должны знать о новой архитектуре графического процессора Maxwell". 2014-02-21.
  2. ^ abcdef Смит, Райан; ТС, Ганеш (18 февраля 2014 г.). «Обзор NVIDIA GeForce GTX 750 Ti и GTX 750: Maxwell делает свой ход». AnandTech . Архивировано из оригинала 18 февраля 2014 г. . Получено 18 февраля 2014 г. .
  3. ^ Райан Смит, Ганеш Т. С. «Maxwell: Разработано для энергоэффективности — Обзор NVIDIA GeForce GTX 750 Ti и GTX 750: Maxwell делает свой ход».
  4. ^ Кантер, Дэвид (1 августа 2016 г.). «Растеризация на основе тайлов в графических процессорах Nvidia». Real World Technologies . Получено 1 апреля 2016 г.
  5. ^ «О рендеринге на основе плиток от NVIDIA». Tech Power Up . 1 марта 2017 г. Получено 9 мая 2020 г.
  6. ^ «Динамическое суперразрешение улучшает ваши игры с графикой качества 4K на HD-мониторах». www.nvidia.com .
  7. ^ abc "Архивная копия" (PDF) . Архивировано из оригинала (PDF) 2017-07-21 . Получено 2014-09-19 .{{cite web}}: CS1 maint: архивная копия как заголовок ( ссылка )
  8. ^ "NVIDIA BatteryBoost: избавьтесь от кирпича". NVIDIA .
  9. ^ ab "Статьи, руководства, игровые новости, избранные истории GeForce". www.nvidia.com .
  10. ^ «Как Maxwell VR Direct приближает виртуальную реальность к реальности». Официальный блог NVIDIA .
  11. ^ Райан Смит. «Дисплей имеет значение: HDMI 2.0, HEVC и VR Direct — Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
  12. ^ «Многокадровое сэмплированное сглаживание обеспечивает лучшую производительность для геймеров Maxwell». www.nvidia.com .
  13. ^ «Новые чипы nVidia Maxwell не поддерживают быстрый CSAA».
  14. ^ "Видеокарты и ноутбуки серии GeForce RTX 20". NVIDIA .
  15. ^ Райан Смит. «Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
  16. ^ abc Райан Смит. «Архитектура Maxwell 2: Знакомство с GM204 — Обзор NVIDIA GeForce GTX 980: Maxwell Mark 2».
  17. ^ "Вот еще одна причина, по которой GeForce GTX 970 медленнее, чем GTX 980". Технический отчет .
  18. ^ "Maxwell: Самый передовой графический процессор CUDA из когда-либо созданных". Parallel Forall . 19 сентября 2014 г.
  19. Джеффри Тим (3 декабря 2015 г.). «У GTX970 от Nvidia довольно серьезная ошибка распределения памяти». Lazygamer.net .
  20. ^ abcd Райан Смит. «Глубже: кросс-панель памяти Maxwell 2 и разделы ROP — GeForce GTX 970: исправление спецификаций и исследование распределения памяти».
  21. ^ Смит, Райан (17 марта 2015 г.). "Обзор NVIDIA GeForce GTX Titan X". AnandTech . стр. 2 . Получено 6 декабря 2015 г. . ...ничтожная собственная скорость FP64 всего 1/32
  22. ^ ab "NVIDIA обновляет дорожную карту графических процессоров; анонсирует Pascal". Официальный блог NVIDIA .