R520 (кодовое название Fudo ) — графический процессор (GPU), разработанный ATI Technologies и произведенный TSMC . Это был первый GPU, произведенный с использованием 90 -нм фотолитографического процесса .
R520 является основой для линейки видеокарт DirectX 9.0c и OpenGL 2.0 3D-ускорителей X1000 . Это первая крупная архитектурная переработка ATI со времен R300 , которая хорошо оптимизирована для Shader Model 3.0. Серия Radeon X1000, использующая ядро, была представлена 5 октября 2005 года и в основном конкурировала с серией GeForce 7 от Nvidia . ATI выпустила преемника серии R500 — серию R600 14 мая 2007 года.
ATI не предоставляет официальной поддержки для каких-либо карт серии X1000 для Windows 8 или Windows 10 ; последняя AMD Catalyst для этого поколения — 10.2 с 2010 года до Windows 7. [ 1] AMD прекратила предоставлять драйверы для Windows 7 для этой серии в 2015 году. [2]
При использовании дистрибутива Linux доступен ряд драйверов Radeon с открытым исходным кодом .
Те же графические процессоры используются и в некоторых продуктах AMD FireMV, предназначенных для многомониторных систем.
Видеокарты Radeon X1800, включавшие R520, были выпущены с задержкой в несколько месяцев, поскольку инженеры ATI обнаружили ошибку в графическом процессоре на очень поздней стадии разработки. Эта ошибка, вызванная неисправной сторонней библиотекой дизайна чипов 90 нм, значительно затрудняла наращивание тактовой частоты, поэтому им пришлось «перезапустить» чип для другой ревизии (новый GDSII пришлось отправить в TSMC ). Проблема была почти случайной в том, как она влияла на прототипы чипов, что затрудняло ее идентификацию.
Архитектура R520 упоминается ATI как «ультрапотоковый диспетчерский процессор», что относится к плану ATI по повышению эффективности своего графического процессора вместо того, чтобы использовать грубое увеличение числа процессорных блоков. Центральный пиксельный шейдер «диспетчерский блок» разбивает шейдеры на потоки (пакеты) по 16 пикселей (4×4) и может отслеживать и распределять до 128 потоков на пиксель «квад» (по 4 конвейера каждый). Когда шейдерный квадр простаивает из-за завершения задачи или ожидания других данных, диспетчерский механизм назначает кваду другую задачу для выполнения в это время. Общим результатом является теоретически более высокая загрузка шейдерных блоков. С большим количеством потоков на квадро, ATI создала очень большой массив регистров процессора , который способен выполнять несколько одновременных чтений и записей, и имеет высокоскоростное соединение с каждым массивом шейдеров, предоставляя временное хранилище, необходимое для поддержания конвейеров, имея максимально возможную работу. С такими чипами, как RV530 и R580, где количество шейдерных блоков на конвейер утраивается, эффективность пиксельного затенения немного падает, поскольку эти шейдеры по-прежнему имеют тот же уровень ресурсов потоковой обработки, что и менее обеспеченные RV515 и R520. [3]
Следующее крупное изменение ядра касается его шины памяти. R420 и R300 имели почти идентичные конструкции контроллеров памяти, причем первый был версией с исправленными ошибками, разработанной для более высоких тактовых частот. Шина памяти R520 отличается своим центральным контроллером (арбитром), который подключается к «клиентам памяти». Вокруг чипа расположены две 256-битные кольцевые шины, работающие с той же скоростью, что и чипы DRAM , но в противоположных направлениях для уменьшения задержки. Вдоль этих кольцевых шин расположены четыре точки «остановки», где данные выходят из кольца и поступают в чипы памяти или из них. Есть пятая, значительно менее сложная остановка, которая предназначена для интерфейса PCI Express и видеовхода. Такая конструкция позволяет осуществлять доступ к памяти быстрее, хотя и с меньшей задержкой из-за меньшего расстояния, которое сигналы должны проходить через GPU, и за счет увеличения количества банков на DRAM. Чип может распределять запросы памяти быстрее и более непосредственно к чипам RAM. ATI заявила о 40%-ном повышении эффективности по сравнению со старыми конструкциями. Меньшие ядра, такие как RV515 и RV530, получили сокращения из-за их меньших, менее дорогих конструкций. RV530, например, имеет две внутренние 128-битные шины вместо этого. Это поколение поддерживает все последние типы памяти, включая GDDR4 . В дополнение к кольцевой шине каждый канал памяти имеет гранулярность 32 бита, что повышает эффективность памяти при выполнении небольших запросов памяти. [3]
Вершинные шейдерные движки уже имели требуемую точность FP32 в старых продуктах ATI. Изменения, необходимые для SM3.0, включали более длинные инструкции, инструкции динамического управления потоком с ветвлениями, циклами и подпрограммами, а также большее временное регистровое пространство. Пиксельные шейдерные движки на самом деле очень похожи по вычислительной схеме на своих аналогов R420, хотя они были сильно оптимизированы и настроены для достижения высоких тактовых частот на 90 нм процессе. ATI годами работала над высокопроизводительным компилятором шейдеров в своем драйвере для своего старого оборудования, поэтому сохранение схожего базового дизайна, который совместим, предлагало очевидную экономию средств и времени. [3]
В конце конвейера процессоры адресации текстур отсоединяются от пиксельных шейдеров, поэтому любые неиспользуемые блоки текстурирования могут быть динамически выделены пикселям, которым требуется больше слоев текстур. Другие улучшения включают поддержку текстур 4096x4096 и сжатие карты нормалей 3Dc от ATI, которое показало улучшение коэффициента сжатия для более конкретных ситуаций. [3]
Семейство R5xx представило более продвинутый встроенный движок motion-video. Как и карты Radeon с момента R100, R5xx может разгрузить почти весь видеоконвейер MPEG-1/2. R5xx также может помочь в декодировании Microsoft WMV9/ VC-1 и MPEG H.264 /AVC, комбинируя шейдерные блоки 3D/конвейера и движок motion-video. Тесты показывают лишь скромное снижение загрузки ЦП для воспроизведения VC-1 и H.264.
На запуске был выпущен набор демонстрационных программ 3D в реальном времени. Разработка ATI своей «цифровой суперзвезды» Ruby продолжилась новой демонстрацией под названием The Assassin. Она демонстрировала очень сложную среду с освещением с высоким динамическим диапазоном (HDR) и динамическими мягкими тенями . Последняя конкурирующая программа Ruby, Cyn, состояла из 120 000 полигонов. [4]
Карты поддерживают двухканальный выход DVI и HDCP . Однако для использования HDCP требуется установка внешнего ПЗУ, которое не было доступно для ранних моделей видеокарт. Ядра RV515, RV530 и RV535 включают одинарный и двойной канал DVI; ядра R520, RV560, RV570, R580, R580+ включают два двойных канала DVI.
AMD опубликовала окончательный документ по ускорению Radeon R5xx. [5]
Последняя версия AMD Catalyst , официально поддерживающая серию X1000, — 10.2, версия драйвера дисплея — 8.702.
Эта серия является бюджетным решением серии X1000 и основана на ядре RV515. Чипы имеют четыре текстурных блока , четыре ROP , четыре пиксельных шейдера и 2 вершинных шейдера , как и старые карты X300 – X600 . Эти чипы используют один квад R520, тогда как более быстрые платы используют просто больше этих квад; например, X1800 использует четыре квада. Такая модульная конструкция позволяет ATI строить линейку «сверху вниз» с использованием одинаковой технологии, экономя время на исследования, разработку и деньги. Благодаря своей меньшей конструкции эти карты предлагают более низкое энергопотребление (30 Вт), поэтому они работают более прохладно и могут использоваться в меньших корпусах. [3] В конце концов, ATI создала X1550 и прекратила выпуск X1300. X1050 была основана на ядре R300 и продавалась как сверхбюджетная часть.
Ранние модели Mobility Radeon X1300 - X1450 также основаны на ядре RV515. [6] [7] [8] [9]
Начиная с 2006 года, продукты Radeon X1300 и X1550 были переведены на ядро RV505, которое имело схожие возможности и характеристики с предыдущим ядром RV515, но производилось TSMC с использованием 80-нм техпроцесса (сокращенного с 90-нм техпроцесса RV515). [10]
X1600 использует ядро M56 [1] , которое основано на ядре RV530, ядре, похожем, но отличающемся от RV515.
RV530 имеет соотношение пиксельных шейдеров к текстурным блокам 3:1. Он обладает 12 пиксельными шейдерами, сохраняя четыре текстурных блока RV515 и четыре ROP. Он также получает три дополнительных вершинных шейдера, доводя общее количество блоков до 5. Единственный «квад» чипа имеет 3 процессора пиксельных шейдеров на конвейер, аналогично конструкции 4 квадов R580. Это означает, что RV530 имеет ту же способность текстурирования, что и X1300 на той же тактовой частоте, но с его 12 пиксельными шейдерами он находится на одном уровне с X1800 по вычислительной производительности шейдеров. Из-за программного содержания доступных игр X1600 сильно затруднен из-за отсутствия мощности текстурирования. [3]
X1600 позиционировался как замена Radeon X600 и Radeon X700 в качестве среднего графического процессора ATI. Mobility Radeon X1600 и X1700 также основаны на RV530. [11] [12]
Серия X1650 состоит из двух частей: X1650 Pro использует ядро RV535 (которое является ядром RV530, произведенным по новому 80-нм техпроцессу) и имеет как более низкое энергопотребление, так и тепловыделение, чем X1600. [13] Другая часть, X1650XT/X1650GT, использует более новое ядро RV570 (также известное как RV560), хотя оно имеет более низкую вычислительную мощность (обратите внимание, что полностью оснащенное ядро RV570 обеспечивает работу X1950Pro, высокопроизводительной карты), чтобы соответствовать своему основному конкуренту, 7600GT от Nvidia. [14] Есть также Radeon X1650, который технически принадлежит к предыдущему поколению X1600, поскольку он использует старое 90-нм ядро RV530. Если внимательно посмотреть на характеристики, то по сути это переименованная Radeon X1600 Pro с памятью DDR2.
Первоначально флагман серии X1000, серия X1800 была выпущена с мягким приемом из-за плавного выпуска и усиления ее конкурента в то время, серии GeForce 7 от NVIDIA . Когда X1800 вышла на рынок в конце 2005 года, это была первая видеокарта высокого класса с 90-нм графическим процессором. ATI решила оснастить карты либо 256 МБ , либо 512 МБ встроенной памяти (предвидя будущее постоянно растущих требований к размеру локальной памяти). X1800XT PE был исключительно на 512 МБ встроенной памяти. X1800 заменил Radeon X850 на базе R480 в качестве ведущего производительного графического процессора ATI. [3]
С отложенным выпуском R520 его конкуренция была гораздо более впечатляющей, чем если бы чип выпустил свой изначально запланированный весенне-летний период. Как и его предшественник X850, чип R520 несет 4 «квада», что означает, что он имеет схожие возможности текстурирования на той же тактовой частоте, что и его предок и серия NVIDIA 6800. В отличие от X850, шейдерные блоки R520 значительно улучшены: они поддерживают Shader Model 3 и получили некоторые улучшения в потоке шейдеров, которые могут значительно повысить эффективность шейдерных блоков. В отличие от X1900, X1800 имеет 16 пиксельных шейдерных процессоров и равное соотношение возможностей текстурирования и пиксельного шейдера. Чип также увеличивает количество вершинных шейдеров с шести на X800 до восьми. Благодаря 90 -нм процессу изготовления с низким значением K эти высокотранзисторные чипы по-прежнему могут работать на очень высоких частотах, что позволяет серии X1800 конкурировать с графическими процессорами с большим количеством конвейеров, но более низкой тактовой частотой, такими как серии NVIDIA 7800 и 7900, которые используют 24 конвейера. [3]
X1800 был быстро заменен на X1900 из-за задержки выпуска. X1900 не отставал от графика и всегда планировался как чип «весеннего обновления». Однако из-за большого количества неиспользуемых чипов X1800, ATI решила убить один квадро пиксельных конвейеров и продать их как X1800GTO.
Серии X1900 и X1950 исправили несколько недостатков в конструкции X1800 и добавили значительный прирост производительности пиксельного шейдера. Ядро R580 совместимо по выводам с печатными платами R520 , что означало, что переделка печатной платы X1800 не требовалась. Платы имеют либо 256 МБ, либо 512 МБ встроенной памяти GDDR3 в зависимости от варианта. Основное изменение между R580 и R520 заключается в том, что ATI изменила соотношение процессора пиксельных шейдеров к процессору текстур. Карты X1900 имеют три пиксельных шейдера на каждом конвейере вместо одного, что дает в общей сложности 48 блоков пиксельных шейдеров. ATI пошла на этот шаг, ожидая, что будущее программное обеспечение для 3D будет более интенсивным в плане пиксельных шейдеров. [15]
Во второй половине 2006 года ATI представила Radeon X1950 XTX, графическую плату, использующую пересмотренный графический процессор R580 под названием R580+. R580+ — это то же самое, что и R580, за исключением того, что она поддерживает память GDDR4, новую технологию графической памяти DRAM, которая обеспечивает более низкое энергопотребление за такт и значительно более высокий потолок тактовой частоты. X1950 XTX работает на частоте ОЗУ 1 ГГц (2 ГГц DDR), обеспечивая пропускную способность памяти 64,0 ГБ/с, что на 29% больше, чем у X1900 XTX. Карта была выпущена 23 августа 2006 года. [16]
X1950 Pro был выпущен 17 октября 2006 года и был призван заменить X1900GT в конкурентном сегменте рынка ниже $200. Графический процессор X1950 Pro построен на ядре RV570 80 нм с 12 текстурными блоками и 36 пиксельными шейдерами и является первой картой ATI, которая поддерживает собственную реализацию Crossfire с помощью пары внутренних разъемов Crossfire, что устраняет необходимость в громоздком внешнем ключе, который был в старых системах Crossfire. [17]
В следующей таблице показаны характеристики графических процессоров AMD / ATI (см. также: Список графических процессоров AMD ).
Обратите внимание, что карты серии ATI X1000 (например, X1900) не имеют Vertex Texture Fetch, поэтому они не полностью соответствуют модели VS 3.0. Вместо этого они предлагают функцию под названием "Render to Vertex Buffer (R2VB)", которая обеспечивает функциональность, которая является альтернативной Vertex Texture Fetch.
1 Пиксельные шейдеры : Вершинные шейдеры : Модули наложения текстур : Модули вывода рендеринга
1 Вершинные шейдеры : Пиксельные шейдеры : Модули наложения текстур : Модули вывода рендеринга .
Новая архитектура потоковых процессоров VLIW4 позволила сэкономить площадь каждого SIMD на 10%, при этом производительность осталась прежней архитектуры VLIW5