Maxwell — кодовое название микроархитектуры графического процессора , разработанной Nvidia в качестве преемника микроархитектуры Kepler . Архитектура Maxwell была представлена в более поздних моделях серии GeForce 700 и также используется в сериях GeForce 800M , GeForce 900 и Quadro Mxxx, а также в некоторых продуктах Jetson .
Первыми продуктами на базе Maxwell стали GeForce GTX 745 (OEM), GeForce GTX 750 и GeForce GTX 750 Ti. Обе были выпущены 18 февраля 2014 года, обе с кодовым номером чипа GM107. Более ранние графические процессоры серии GeForce 700 использовали чипы Kepler с кодовыми номерами GK1xx. Графические процессоры Maxwell первого поколения (кодовые номера GM10x) также используются в сериях GeForce 800M и Quadro Kxxx. Второе поколение продуктов на базе Maxwell было представлено 18 сентября 2014 года с GeForce GTX 970 и GeForce GTX 980, за которыми последовали GeForce GTX 960 22 января 2015 года, GeForce GTX Titan X 17 марта 2015 года и GeForce GTX 980 Ti 1 июня 2015 года. Последней и самой простой картой Maxwell 2.0 стала GTX950, выпущенная 20 августа 2015 года. Эти графические процессоры имеют кодовые номера чипов GM20x.
Maxwell представила улучшенную конструкцию потокового мультипроцессора (SM), которая повысила энергоэффективность [1], шестое и седьмое поколение PureVideo HD и вычислительную мощность CUDA 5.2.
Архитектура названа в честь Джеймса Клерка Максвелла , основателя теории электромагнитного излучения.
Архитектура Maxwell используется в системе на кристалле (SOC), процессоре мобильных приложений Tegra X1 .
Первое поколение графических процессоров Maxwell (GM107/GM108) было выпущено как GeForce GTX 745, GTX 750/750 Ti, GTX 850M/860M (GM107) и GeForce 830M/840M (GM108). Эти новые чипы представили несколько дополнительных функций, ориентированных на потребителя, поскольку Nvidia вместо этого сосредоточилась больше на повышении энергоэффективности графического процессора. Кэш L2 был увеличен с 256 КБ на Kepler до 2 МБ на Maxwell, что снизило потребность в большей пропускной способности памяти. Соответственно, шина памяти была уменьшена со 192 бит на Kepler (GK106) до 128 бит, что уменьшило площадь кристалла, стоимость и энергопотребление. [2]
Потоковый мультипроцессорный дизайн «SMX» от Kepler также был переоснащен и разделен, переименован в «SMM» для Maxwell. Структура планировщика варпа была унаследована от Kepler, при этом блоки текстур и ядра FP64 CUDA по-прежнему были общими, но компоновка большинства блоков исполнения была разделена таким образом, что каждый планировщик варпа в SMM управлял одним набором из 32 ядер FP32 CUDA, одним набором из 8 блоков загрузки/хранения и одним набором из 8 блоков специальных функций. Это контрастирует с Kepler, где каждый SMX имел 4 планировщика, которые планировали для общего пула блоков исполнения. [3] Последнее требовало кросс-бара шириной SMX, который использовал ненужную мощность, чтобы позволить всем блокам исполнения быть общими. [3] И наоборот, более модульный дизайн Maxwell обеспечивает более тонкое и эффективное распределение ресурсов, экономя энергию, когда рабочая нагрузка не оптимальна для общих ресурсов. Nvidia утверждает, что 128-ядерный SMM CUDA имеет 90% производительности 192-ядерного SMX CUDA, при этом эффективность увеличивается в 2 раза. [2] Кроме того, каждый графический процессорный кластер, или GPC, содержит до 4 блоков SMX в Kepler и до 5 блоков SMM в первом поколении Maxwell. [2]
GM107 также поддерживает CUDA Compute Capability 5.0 по сравнению с 3.5 на GPU GK110/GK208 и 3.0 на GPU GK10x. Динамический параллелизм и HyperQ, две функции в GPU GK110/GK208, также поддерживаются во всей линейке продуктов Maxwell. Maxwell также предоставляет собственные атомарные операции с общей памятью для 32-битных целых чисел и собственные операции сравнения и обмена (CAS) с общей памятью 32-битных и 64-битных, которые можно использовать для реализации других атомарных функций.
Видеокодер Nvidia, NVENC, был модернизирован и стал в 1,5–2 раза быстрее, чем на графических процессорах на базе Kepler, что означает, что он может кодировать видео со скоростью воспроизведения в шесть–восемь раз выше. [2] Nvidia также заявляет об увеличении производительности декодирования видео PureVideo Feature Set E в восемь–десять раз за счет кэша видеодекодера в сочетании с повышением эффективности памяти. Однако H.265 не поддерживается для полного аппаратного декодирования в графических процессорах Maxwell первого поколения, поскольку используется сочетание аппаратного и программного декодирования (декодирование ЦП). [2] При декодировании видео в графических процессорах Maxwell используется новое состояние низкого энергопотребления «GC5» для экономии энергии. [2]
Считалось, что графические процессоры Maxwell используют рендеринг на основе плиток [4] , но на самом деле они используют кэширование плиток [5] .
Начиная с первого поколения Maxwell, протокол вывода графики UEFI полностью поддерживается на графических процессорах NVIDIA.
Второе поколение графических процессоров Maxwell представило несколько новых технологий: Dynamic Super Resolution, [6] Third Generation Delta Color Compression, [7] Multi-Pixel Programming Sampling, [8] Nvidia VXGI (Real-Time-Voxel- Global Illumination ), [9] VR Direct, [9] [10] [11] Multi-Projection Acceleration, [7] Multi-Frame Sampled Anti-Aliasing (MFAA) [12] (однако поддержка Coverage-Sampling Anti-Aliasing (CSAA) была удалена), [13] и Direct3D12 API на уровне функций 12_1. Также была добавлена поддержка HDMI 2.0. [14] [15]
Соотношение ROP к контроллеру памяти было изменено с 8:1 на 16:1. [16] Однако некоторые ROP в GTX 970, как правило, простаивают, поскольку недостаточно включенных SMM для обеспечения их работой, что снижает максимальную скорость заполнения. [17]
Механизм Polymorph Engine, отвечающий за тесселяцию, был обновлен до версии 3.0 во втором поколении графических процессоров Maxwell, что привело к повышению производительности тесселяции на единицу/такт.
Второе поколение Maxwell также имеет до 4 блоков SMM на GPC по сравнению с 5 блоками SMM на GPC. [16]
GM204 поддерживает CUDA Compute Capability 5.2 (по сравнению с 5.0 на графических процессорах GM107/GM108, 3.5 на графических процессорах GK110/GK208 и 3.0 на графических процессорах GK10x). [7] [16] [18]
Графические процессоры GM20x имеют обновленный NVENC, который поддерживает кодирование HEVC и добавляет поддержку разрешений кодирования H.264 при 1440p/60FPS и 4K/60FPS (по сравнению с NVENC на графических процессорах Maxwell первого поколения GM10x, которые поддерживали только кодирование H.264 1080p/60FPS). [11]
После жалоб потребителей [19] Nvidia показала, что она может отключать отдельные блоки, каждый из которых содержит 256 КБ кэша L2 и 8 ROP, без отключения всех контроллеров памяти. [20] Это происходит за счет разделения шины памяти на высокоскоростные и низкоскоростные сегменты, к которым нельзя получить доступ одновременно для чтения, поскольку блок L2/ROP, управляющий обоими контроллерами GDDR5, разделяет канал возврата чтения и шину данных записи между контроллерами GDDR5. Это делает невозможным одновременное чтение с обоих контроллеров GDDR5 или одновременную запись на оба контроллера GDDR5. [20] Это используется в GeForce GTX 970, которую, следовательно, можно описать как имеющую 3,5 ГБ в высокоскоростном сегменте на 224-битной шине и 512 МБ в низкоскоростном сегменте на 32-битной шине. [20] Пиковая скорость такого графического процессора все еще может быть достигнута, но пиковая скорость достижима только в том случае, если один сегмент выполняет операцию чтения, а другой сегмент выполняет операцию записи. [20]
Теоретическая вычислительная мощность графического процессора Maxwell с одинарной точностью в FLOPS вычисляется как 2 (операций на инструкцию FMA на ядро CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в Гц).
Теоретическая мощность обработки двойной точности графического процессора Maxwell составляет 1/32 от производительности одинарной точности (что было отмечено как очень низкий показатель по сравнению с предыдущим поколением Kepler ). [21]
Преемник Maxwell носит кодовое название Pascal . [22] Архитектура Pascal отличается более высокой пропускной способностью, унифицированной памятью и NVLink . [22]
{{cite web}}
: CS1 maint: архивная копия как заголовок ( ссылка )...ничтожная собственная скорость FP64 всего 1/32