Выбрать страницу

Попробовали: AMD GCN - Представляем Radeon HD 7970 и HD 7950

Пришло время наконец представить архитектуру AMD GCN (Graphics Core Next) и двух ее самых мощных представителей - Radeon HD 7970 и Radeon HD 7950.

Логотипы статей в GCN

Из HD 7950 мы сразу отдадим должное двум из них, поэтому у нас также была возможность протестировать CrossFireX, и мы также провели настроенные измерения с обеими картами. Конечно, мы также послали нескольких гонщиков против двух новых пушек, чтобы посмотреть, насколько карты ускорились по сравнению с GeForces и Radeon предыдущего поколения. 


Прежде чем мы перейдем к участникам и тестам, мы более подробно рассмотрим архитектуру GCN и возьмем на себя функции HD 7970 и HD 7950.

 всекартбоксы 2k

 Графическое ядро ​​Next

В мае 2007 года AMD представила видеокарту Radeon HD 2900 XT, которая уже была построена на унифицированной шейдерной архитектуре. Как оказалось, конструкция имела ряд недостатков, но к моменту появления серии Radeon HD 4000 проблемы были практически полностью устранены, что дало компании возможность закрепиться на рынке видеокарт для настольных ПК. На этом этапе стало ясно, что сейчас необходимы радикальные изменения. Серия HD 6900 «Cayman» считается первым шагом. Здесь предыдущие пятипроцессорные суперскалярные процессоры (VLIW5) были заменены четырехпроцессорными процессорами (VLIW5), и Cayman стал первым чипом, который обрабатывал несколько независимых потоков команд. Другим большим нововведением было введение двух «графических движков», которые удвоили возможности настройки треугольника - увеличивая мощность тесселяции - и количество некоторых элементов (Rasterizer, Hierarchical Z, Tessellator). Сегодня он стал предметом нашей следующей проверки уровня. Благодаря архитектуре под названием Graphics Core Next (GCN) шейдерные массивы, которые работают с используемыми до сих пор инструкциями VLIW, устарели и заменены так называемыми вычислительными модулями (CU). GCN дебютировал в семействе Radeon HD 4 «Tahiti».

19 м

Интересно, но не удивительно, что графические процессоры Tahiti достигли выдающейся плотности транзисторов благодаря технологии производства TSMC с полосой пропускания 28 нм, содержащей 365 миллиарда транзисторов на 4,3 квадратных миллиметров. Один вычислительный блок содержит четыре SIMD и один скалярный блок. Флагманская модель AMD Radeon HD 7970 «Tahiti XT» работает с 32 активными CU, предполагая в общей сложности 2048 шейдерных процессоров (четыре 16-канальных SIMD, 64 ALU). Учитывая прогресс поколений, на первый взгляд это не кажется выдающейся ценностью, но ради повышения эффективности и использования мы хотели бы отметить, что не стоит случайно делать далеко идущие выводы из этого. один технический индикатор. Теоретически блок CU может работать как один SIMD-блок Cayman. Основная проблема предыдущих поколений - это зависимость данных (последующие инструкции зависят от данных), которая вызвала резкие колебания использования. Архитектура GCN также является шагом вперед в этой области, поскольку она устраняет ранее существовавшие зависимости посредством потоковой обработки. Преимущества заключаются только в ключевых словах: планирование, отладка, оценка ожидаемой производительности и разработка драйверов также стали радикально проще и прозрачнее. 

24

36 мCU не только содержит четыре блока SIMD, но также имеет собственный планировщик, 340 КБ временной памяти и кластер текстурирования. Это получается из суммы векторного регистра 4 × 64 КБ, Local Data Share, размер которого также составляет 64 КБ, скалярного регистра 4 КБ и кэша первого уровня емкостью 16 КБ. На картинке выше вы можете увидеть еще один компонент, который определенно заслуживает упоминания, и это так называемый «Branch & Message Unit», который играет роль в более эффективном управлении программами.
Имея на данный момент информацию, давайте еще раз рассмотрим ключевые параметры графического процессора «Tahiti XT»: 32 CU (2048 шейдерных процессоров, 128 SIMD), 128 блоков текстурирования, 512 блоков загрузки-сохранения и всего 8,2 МБ кеш-памяти. Так что положение девушки сразу изменилось, хотя мы только начинали «раздеваться».

35 мВнешний интерфейс

Что касается интерфейса, мы видим существенные отличия от архитектуры NVIDIA GF110. Управление в основном осуществляется не на уровне КС. Эта задача выполняется командным процессором и асинхронным вычислительным процессором (ACE). Чип получил два геометрических двигателя, которые, помимо ассемблера геометрии, вершинного ассемблера, также вмещают блоки тесселятора девятого поколения. Связь с CU обеспечивается за счет Global Data Share (GDS), с помощью которого эти единицы также могут обмениваться данными друг с другом. Раздел внешнего интерфейса содержит два растеризатора - вы можете увидеть макет ниже.

37

ROP и интерфейс памяти
AMD Tahiti содержит 8 кластеров ROP - на данный момент мы нашли совпадение с чипом Cayman. Каждый такой «массив» содержит четыре блока ROP и 16 Z семплеров. Важно отметить, что каждому кластеру был предоставлен собственный кеш. Произошло еще одно серьезное изменение: больше нет прямого подключения к контроллеру памяти. Этот шаг направлен на повышение гибкости и удобства использования, что мы можем увидеть в контексте Питкэрна ... ROP могут записывать в кэш L768 размером 2 КБ, который, в свою очередь, может быть прочитан несколькими устройствами. Вы получите радостную картинку с интерфейсом памяти. Шесть 64-битных контроллеров памяти имеют общую емкость 384 бита. Мы бы просто добавили к этому пару слов. Ну наконец то! По умолчанию размер видеопамяти составляет 3072 МБ, но теоретически возможны также 1536 МБ и 6 ГБ.

Мы надеемся, что наши читатели не воспримут это в плохой репутации, но сейчас мы выскажем свое личное мнение о серверной части. Связь между Barts, которая показала хорошие результаты, и чипом Cayman, показавшим скромные результаты, предполагает, что «общая проблема» чипов AMD - это низкая ROP-емкость. На Таити и здесь не было достигнуто никакого прогресса, хотя о новизне чипа можно было бы с некоторым преувеличением написать. Роль ROP особенно заметна во время игр, во время выполнения задач и приложений GPGPU они становятся вторыми скрипачами. Также очевидно, что эта секция потребляет большое количество транзисторов, что, конечно, также отражается на размере кристалла.

 

Усовершенствования AMD до сих пор в значительной степени удовлетворяли потребности геймеров. Теперь произошел поворот как минимум на 90 градусов, и это стало серьезным перекрестком для удовлетворения профессиональных потребностей, для более широкого использования графического процессора. Конечно, это не проблема, так как мы в основном говорим об очень приблизительном уровне производительности, который непременно выдержит испытания современных игр в течение нескольких лет. По слухам, не только AMD, но и NVIDIA узко относятся к ROP с Kepler.

Расширение шины памяти было похвальным шагом. На самом деле у дизайнеров не было выбора. Тактовая частота больше не может быть значительно увеличена, но чип испытывает нехватку данных. По нашему мнению, одно только это действие могло повысить производительность во время игр до 15 процентов.

44DirectX 11.1 и PCI Express 3.0
Стандарт PCI-Express 3.0 увеличивает скорость с 16 ГБ / секунду до 32 ГБ / секунду, удваивая скорость передачи данных PCIe 2.0. Производители материнских плат сразу же «укусили», но как бы они ни хотели, на данный момент коммутатор не дает значительного преимущества. PCIe 3.0 - важное оружие с точки зрения маркетинга, обязательный стандарт для AMD и NVIDIA и еще одна «денежная ловушка» для пользователей.
DirectX 11.1 может начать свое завоевание со следующей операционной системой Windows, которая содержит незначительные исправления и оптимизации. Согласно официальным материалам, мы можем ожидать от нового API встроенной поддержки стерео 3D и более эффективной растеризации. К сожалению, пожалуй, самый интересный момент, в котором обсуждается, как можно улучшить гибкость и широкое использование графического оборудования, не был подробно описан.

31 м

Архитектура Graphics-Core-Next в общих чертах выглядит так. Конечно, чип не только обслуживает потребности игроков, но и имеет место для профессиональных задач. Теоретическая пиковая вычислительная производительность Таити (для вычислений с двойной точностью) составляет 947 GFLOP, что в четыре раза выше для операций с плавающей запятой одинарной точности. Кроме того, память поддерживает ECC, а графический процессор хорошо знаком с API DirectCompute 11.1, OpenCL 1.2 C ++ AMP.27 Новые возможности: Zero-Core
В общем, хищники уровня Radeon HD 7900 привыкли к потреблению как к табу, но инженерам AMD не хватает изобретательности. Идея простая, но замечательная, но не нова. Если вы оставляете компьютер надолго, но по какой-то причине не хотите его выключать, возможно, вы захотите оставить монитор только в режиме ожидания. Благодаря технологии ZeroCore Power при выключенном дисплее весь графический контроллер может быть обесточен, и в этой форме не требуется никакого активного охлаждения. Преимущества убедительны: нулевой шум, 3 Вт энергопотребления. Для многих это будет незначительным фактором, но процедура для четырехпроцессорных систем Crossfire отключает непервичные видеокарты, значительно сокращая ваши счета за электроэнергию - хотя любой, кто думает о такой сборке, мало что делает для повышения энергоэффективности.

21a

20

Глазфинити 2.0
Одной из интересных особенностей новой версии является то, что она позволяет проводить конференц-переговоры с несколькими мониторами с многополосным звуком. Официальное название процедуры - дискретное цифровое многоточечное аудио (DDM). Radeon HD 7970 можно подключить к трем дисплеям одновременно, которые могут принимать восьмиканальный аудиопоток. Это может не представлять особого интереса для домашних пользователей, но это хороший пример того, в скольких областях можно использовать новую пушку. Накопитель Catalyst также развивается, упрощая, например, размещение лотка и позволяя создавать собственные разрешения. Стоит отметить, что 3D-контент в формате Full HD стерео также можно просматривать в режиме Eyefinity. 

29 м

УВД и ВЦЭ
UVD 3.0 уже предлагает аппаратное ускорение для контента DivX / Xvid, MPEG-4 Part 2 MVC, а Video Code Engine (VCE) фактически является эквивалентом AMD Intel Quick Sync Video. VCE - это автономное оборудование, предназначенное только для ускорения перекодирования видео H.264. Движок медленнее, чем шейдерные процессоры в графическом процессоре, но гораздо более энергоэффективен. Пользователям доступны два режима. Сначала работает только VCE, который сам по себе быстрее большинства процессоров. В этом случае у нас не будет подтормаживания, без проблем загрузим видеокарту или центральный блок. Второй вариант - гибридный режим. Арифметико-логические блоки VCE и GPU переходят к задаче вместе. Этот «брак», очевидно, хорошо влияет на скорость кодирования, но в таком случае не удивляйтесь, если ваша любимая игра переключится в режим «слайд-шоу».

32

Теперь, когда мы знакомы с теорией и цифрами, давайте познакомимся с тремя тестируемыми моделями GCN!