AMD выпускает графический процессор AI Instinct MI300X, который до 60% быстрее, чем NVIDIA H100

AMD только что официально выпустила флагманский AI-графический процессор MI300X, который, как утверждается, способен обеспечить до 60% лучшую производительность, чем платформа NVIDIA H100, и в основном ориентирован на рынок центров обработки данных, обслуживающий обработку. HPC и ИИ. По сравнению со своим предшественником MI300A, Instinct MI300X фокусируется на использовании всех процессорных ядер графического процессора архитектуры CDNA 3, а не на объединении центрального и графического процессоров, как раньше.

С выпуском Instinct MI300X компания AMD впервые использовала общие характеристики для сравнения, чтобы подчеркнуть производительность усовершенствованного ускорителя CDNA 3 (по сравнению с NVIDIA H100):

Объем памяти в 2,4 раза выше
Пропускная способность памяти в 1,6 раза выше
1,3 раза в FP8 терафлопс
1,3 раза в FP16 терафлопс
До 20 % быстрее, чем H100 (Llama 2 70B) в сравнении 1 на 1.
До 20 % быстрее, чем H100 (FlashAttention 2) в сравнении 1 на 1
До 40 % быстрее, чем H100 (Llama 2 70B) на сервере 8 на 8.
До 60 % быстрее, чем H100 (Bloom 176B) на сервере 8 на 8.

Технически наличие ядра LLM TFLOP помогает MI300X обеспечить повышение производительности до 20% в FlashAttention-2 и Llama 2 70B. С точки зрения платформы, сравнивая решение 8x MI300X с решением 8X H100, можно увидеть гораздо большее увеличение на 40% для Llama 2 70B и даже до 60% для Bloom 176B.

AMD отмечает, что с точки зрения производительности обучения MI300X находится на одном уровне с конкурентами (H100) и предлагает чрезвычайно конкурентоспособное соотношение цены и производительности, при этом «блестя» в рабочих нагрузках, связанных с вычислениями вывода.

Одним из факторов, который помогает AMD чувствовать себя по-настоящему уверенно со своей новой платформой MI300, является ROCm 6.0. Программный стек был обновлен до последней версии с новыми мощными функциями, включая поддержку различных рабочих нагрузок ИИ, таких как творческий ИИ и большие языковые модели.

Новый пакет программного обеспечения поддерживает новейшие вычислительные форматы, такие как FP16, Bf16 и FP8 (включая Sparsity). Оптимизации в совокупности обеспечивают ускорение vLLM в 2,6 раза за счет оптимизированных библиотек вывода, ускорение в 1,4 раза в HIP Graph за счет оптимизации среды выполнения и улучшение внимания Flash Attention в 1,3 раза за счет оптимизированных ядер. Будет интересно сравнить ROCm 6 с последней версией CUDA от NVIDIA, которая является реальным конкурентом.

AMD Instinct MI300X — это чип, который привлечет наибольшее внимание, поскольку он ориентирован на ускорители NVIDIA Hopper и Intel Gaudi в сегменте искусственного интеллекта. Этот чип разработан исключительно на архитектуре CDNA 3 со многими заметными улучшениями. MI300X будет содержать сочетание 5-нм и 6-нм IP, что в совокупности обеспечит до 153 миллиардов транзисторов. В сочетании с видеопамятью HBM3 емкостью до 192 ГБ MI300X способен управлять крупнейшими на сегодняшний день моделями машинного обучения.

С точки зрения конструкции основной интерпозер представляет собой пассивный кристалл, содержащий слой межсоединений на основе решения Infinity Fabric 4-го поколения. Interposer включает в себя в общей сложности 28 матриц, включая 8 пакетов HBM3, 16 фиктивных матриц между пакетом HBM и 4 активных матрицы, и каждая активная матрица содержит две вычислительные матрицы.

Каждый GCD на базе архитектуры графического процессора CDNA 3 имеет в общей сложности 40 вычислительных блоков, что эквивалентно 2560 ядрам. Всего имеется восемь вычислительных кристаллов (GCD), что обеспечивает в общей сложности 320 вычислительных блоков и 20 480 ядерных блоков. Чтобы повысить производительность, AMD сократит часть этих ядер, и мы увидим в общей сложности 304 вычислительных блока (38 CU на чипсет графического процессора), в общей сложности 19 456 процессоров. транслировать. транслировать.

Углубляясь в память, MI300X имеет на 50% большую емкость HBM3, чем его предшественник MI250X (128 ГБ). Чтобы достичь общего объема памяти 19 ГБ, AMD оснащает MI300X 8 стеками HBM3, каждый стек имеет 12-Hi, а также включает микросхемы емкостью 1 ГБ, обеспечивающие емкость 2 ГБ на микросхему или 24 ГБ на стек.

Хранилище будет обеспечивать пропускную способность до 5,3 ТБ/с и пропускную способность Infinity Fabric 896 ГБ/с. Для сравнения, будущий графический процессор NVIDIA AI H200 предлагает емкость 141 ГБ, а Intel Gaudi 3 — 144 ГБ. Это очень важный фактор в рабочих нагрузках, связанных с LLM, которые в значительной степени зависят от памяти, и в этом аспекте AMD может продемонстрировать превосходную мощь искусственного интеллекта в своих продуктах.

Инстинкт MI300X — 192 ГБ HBM3
Гауди 3 – 144 ГБ HBM3
H200 — 141 ГБ HBM3e
MI300A — 128 ГБ HBM3
MI250X — 128 ГБ HBM2e
H100 — 96 ГБ HBM3
Гауди 2 – 96 ГБ HBM2e

Что касается энергопотребления, AMD Instinct MI300X имеет TDP 750 Вт, что на 50 % больше, чем 500 Вт у Instinct MI250X, и на 50 Вт больше, чем у NVIDIA H200.

В настоящее время AMD понимает, что ее конкуренты также прилагают все усилия, чтобы закрепиться в лихорадке искусственного интеллекта. NVIDIA опубликовала впечатляющие цифры по графическим процессорам Hopper H200 и Blackwell B100 2024 года, а Intel также готовится выпустить графические процессоры Guadi 3 и Falcon Shores в 2024 году. То же самое справедливо и в ближайшие годы. Такие компании, как Oracle, Dell, META и OpenAI, объявили о поддержке AI-чипа AMD Instinct MI300 в своих экосистемах.

Ожидается, что с выпуском AMD Instinct MI300X этот производитель сломает монополию Nvidia на рынке чипов для исследований и эксплуатации искусственного интеллекта. Запуск MI300 откроет возможности для AMD на этом рынке. MI300X также внесет важный вклад в годовой финансовый отчет AMD в этом году.