Графические процессоры NVIDIA серии RTX 3000: вот что нового

1 сентября 2020 года NVIDIA представила новую линейку игровых графических процессоров: серию RTX 3000, основанную на архитектуре Ampere. Мы обсудим, что нового, программное обеспечение на базе искусственного интеллекта, которое поставляется с ним, и все детали, которые делают это поколение действительно потрясающим.

Встречайте графические процессоры серии RTX 3000

Линейка графических процессоров RTX 3000

Основным объявлением NVIDIA стали блестящие новые графические процессоры, построенные по индивидуальному 8-нм производственному процессу и обеспечивающие значительное ускорение как в растеризации, так и в производительности трассировки лучей.

В нижней части модельного ряда есть RTX 3070, который стоит 499 долларов. Это немного дороже для самой дешевой карты, представленной NVIDIA при первоначальном анонсе, но это абсолютная кража, когда вы узнаете, что она превосходит существующую RTX 2080 Ti, лучшую линейную карту, которая регулярно продавалась по цене более 1400 долларов. Однако после объявления NVIDIA цена сторонних продаж упала, и многие из них панически продаются на eBay по цене менее 600 долларов.

На момент анонса не было никаких надежных тестов, поэтому неясно, действительно ли карта объективно «лучше», чем 2080 Ti, или NVIDIA немного искажает маркетинг. Тесты проводились в разрешении 4K и, вероятно, имели RTX, что может сделать разрыв больше, чем он будет в чисто растеризованных играх, поскольку серия 3000 на основе Ampere будет работать более чем в два раза лучше при трассировке лучей, чем Turing. Но с учетом того, что трассировка лучей теперь не сильно снижает производительность и поддерживается в консолях последнего поколения, основным преимуществом является то, что она работает так же быстро, как флагман прошлого поколения, почти за треть цены.

Также неясно, останется ли цена такой. Сторонние разработки регулярно добавляют к цене не менее 50 долларов, и с учетом того, насколько высок будет спрос, неудивительно, что в октябре 2020 года они будут продаваться за 600 долларов.

Чуть выше находится RTX 3080 по цене 699 долларов, что должно быть вдвое быстрее, чем RTX 2080, и примерно на 25-30% быстрее, чем 3080.

Затем, в верхней части, новый флагман — это RTX 3090, что до смешного огромно. NVIDIA хорошо осведомлена и назвала его «BFGPU», что, по словам компании, означает «Большой свирепый GPU».

Графический процессор RTX 3090

NVIDIA не показала никаких прямых показателей производительности, но компания показала, что она запускает игры 8K со скоростью 60 кадров в секунду, что серьезно впечатляет. Конечно, NVIDIA почти наверняка использует DLSS, чтобы достичь этой отметки, но игры 8K — это игры 8K.

Конечно, в конечном итоге будет 3060 и другие варианты более бюджетных карт, но они обычно появляются позже.

Чтобы действительно круто, NVIDIA потребовался обновленный дизайн кулера. 3080 рассчитан на 320 Вт, что довольно много, поэтому NVIDIA выбрала дизайн с двумя вентиляторами, но вместо обоих вентиляторов vwinf, размещенных снизу, NVIDIA установила вентилятор на верхнем конце, где обычно находится задняя панель. Вентилятор направляет воздух вверх к кулеру процессора и верхней части корпуса.

направленный вверх вентилятор на графическом процессоре улучшает воздушный поток корпуса

Судя по тому, насколько на производительность может повлиять плохой воздушный поток в корпусе, это имеет смысл. Однако из-за этого на печатной плате очень мало места, что, вероятно, повлияет на розничные цены сторонних производителей.

DLSS: преимущество программного обеспечения

Трассировка лучей — не единственное преимущество этих новых карт. На самом деле, все это своего рода хакерство — серии RTX 2000 и серии 3000 не намного лучше справляются с реальной трассировкой лучей по сравнению с картами более старых поколений. Трассировка лучей всей сцены в программном обеспечении 3D, таком как Blender, обычно занимает несколько секунд или даже минут на кадр, поэтому о грубой силе менее 10 миллисекунд не может быть и речи.

Конечно, есть специальное оборудование для выполнения вычислений лучей, называемое ядрами RT, но в основном NVIDIA выбрала другой подход. NVIDIA улучшила алгоритмы шумоподавления, которые позволяют графическим процессорам отображать очень дешевый одиночный проход, который выглядит ужасно, и каким-то образом — с помощью магии ИИ — превращает это в то, на что геймер хочет взглянуть. В сочетании с традиционными методами, основанными на растеризации, это дает приятные впечатления, усиленные эффектами трассировки лучей.

шумное изображение сглажено шумоподавителем NVIDIA

Однако, чтобы сделать это быстро, NVIDIA добавила ядра обработки для ИИ, которые называются тензорными ядрами. Они обрабатывают всю математику, необходимую для запуска моделей машинного обучения, и делают это очень быстро. Они всего кардинальное изменение для ИИ в области облачных серверов, так как ИИ широко используется многими компаниями.

Помимо шумоподавления, основное использование ядер Tensor для геймеров называется DLSS или суперсэмплингом глубокого обучения. Он берет кадр низкого качества и масштабирует его до полностью исходного качества. По сути, это означает, что вы можете играть с частотой кадров 1080p, глядя на изображение 4K.

Это также немного улучшает производительность трассировки лучей —тесты из PCMag показать RTX 2080 Super running Control в ультра-качестве, со всеми настройками трассировки лучей, установленными на максимум. В 4K он борется только с 19 FPS, но с включенным DLSS он получает намного лучше 54 FPS. DLSS — это бесплатная производительность для NVIDIA, которая стала возможной благодаря ядрам Tensor на процессорах Turing и Ampere. Любая игра, которая поддерживает его и ограничена графическим процессором, может получить серьезное ускорение только за счет программного обеспечения.

DLSS не новость, и она была объявлена ​​как функция, когда серия RTX 2000 была запущена два года назад. В то время он поддерживался очень немногими играми, так как NVIDIA требовала от NVIDIA обучения и настройки модели машинного обучения для каждой отдельной игры.

Однако за это время NVIDIA полностью переписала его, назвав новую версию DLSS 2.0. Это API общего назначения, что означает, что любой разработчик может его реализовать, и он уже используется в большинстве основных выпусков. Вместо того, чтобы работать с одним кадром, он принимает данные вектора движения из предыдущего кадра, аналогично TAA. Результат намного резче, чем DLSS 1.0, и в некоторых случаях действительно выглядит лучше и резче, чем даже собственное разрешение, поэтому нет особых причин не включать его.

Есть одна загвоздка — при полном переключении сцен, как в кат-сценах, DLSS 2.0 должен визуализировать самый первый кадр с качеством 50%, ожидая данных вектора движения. Это может привести к небольшому снижению качества на несколько миллисекунд. Но 99% всего, на что вы смотрите, будет обработано правильно, и большинство людей не замечают этого на практике.

Архитектура Ampere: создана для ИИ

Ампер быстр. Очень быстро, особенно при расчетах AI. Ядро RT в 1,7 раза быстрее, чем Turing, а новое ядро ​​Tensor в 2,7 раза быстрее, чем Turing. Сочетание этих двух факторов — настоящий скачок в производительности трассировки лучей для поколений.

Улучшения ядра RT и Tensor

Ранее в мае NVIDIA выпустила графический процессор Ampere A100, графический процессор центра обработки данных, предназначенный для запуска ИИ. С его помощью они подробно описали многое из того, что делает Ampere намного быстрее. Для рабочих нагрузок центров обработки данных и высокопроизводительных вычислений Ampere в целом примерно в 1,7 раза быстрее, чем Turing. Для обучения ИИ это до 6 раз быстрее.

Улучшения производительности HPC

В Ampere NVIDIA использует новый числовой формат, предназначенный для замены отраслевого стандарта «32 с плавающей запятой» или FP32 в некоторых рабочих нагрузках. Под капотом каждое число, обрабатываемое вашим компьютером, занимает заранее определенное количество бит в памяти, будь то 8 бит, 16 бит, 32, 64 или даже больше. Числа большего размера труднее обрабатывать, поэтому, если вы можете использовать меньший размер, у вас будет меньше проблем.

FP32 хранит 32-битное десятичное число и использует 8 бит для диапазона числа (насколько он может быть большим или маленьким) и 23 бита для точности. NVIDIA утверждает, что эти 23 бита точности не совсем необходимы для многих рабочих нагрузок ИИ, и вы можете получить аналогичные результаты и гораздо лучшую производительность всего с 10 из них. Уменьшение размера до 19 бит вместо 32 имеет большое значение для многих вычислений.

Этот новый формат называется Tensor Float 32, а тензорные ядра в A100 оптимизированы для обработки формата странного размера. Это, помимо уменьшения размеров кристаллов и увеличения количества ядер, дает им шестикратное ускорение обучения ИИ.

Новые числовые форматы

Помимо нового числового формата, Ampere видит значительное увеличение производительности в определенных вычислениях, таких как FP32 и FP64. Это не приводит напрямую к увеличению FPS для непрофессионала, но они являются частью того, что делает его почти в три раза быстрее при работе с Tensor.

улучшения производительности тензорного ядра

Затем, чтобы еще больше ускорить вычисления, они ввели концепцию мелкозернистая структурированная разреженность, что очень красивое слово для довольно простой концепции. Нейронные сети работают с большими списками чисел, называемыми весами, которые влияют на конечный результат. Чем больше чисел нужно обработать, тем медленнее будет.

Однако не все эти числа на самом деле полезны. Некоторые из них буквально равны нулю, и их можно просто выбросить, что приводит к огромному ускорению, когда вы можете обрабатывать больше чисел одновременно. Разреженность существенно сжимает числа, что требует меньше усилий для проведения расчетов. Новое «Sparse Tensor Core» создано для работы со сжатыми данными.

Несмотря на изменения, NVIDIA заявляет, что это вообще не должно заметно влиять на точность обучаемых моделей.

сжатие разреженных данных

Для вычислений Sparse INT8, одного из форматов наименьших чисел, пиковая производительность одного графического процессора A100 составляет более 1,25 петафлопс, что является ошеломляюще высоким показателем. Конечно, это только при вычислении одного конкретного числа, но, тем не менее, это впечатляет.