Cerebras запускает самую быструю в мире технологию вывода искусственного интеллекта, производительность которой в 20 раз выше, чем у NVIDIA

Компания Cerebras Systems только что официально анонсировала Cerebras Inference, которая считается самым быстрым в мире решением для вывода на основе искусственного интеллекта.

Cerebras Inference обеспечивает производительность до 1800 токенов в секунду для моделей Llama 3.1 8B (8 миллиардов параметров) и 450 токенов в секунду для Llama 3.1 70B, что почти в 20 раз быстрее решений для вывода ИИ на базе графических процессоров NVIDIA, доступных в современных гипермасштабируемых облаках по всему миру, включая Microsoft Azure.

В дополнение к невероятной производительности, новое решение для вывода также очень дешево в использовании, за малую часть того, что предлагают популярные облачные платформы GPU. Например, клиенты могут получить миллион токенов всего за 10 центов, что обеспечивает 100-кратное преимущество цены и производительности для рабочих нагрузок ИИ.

16-битная точность Cerebras и 20-кратная скорость вывода позволят разработчикам создавать высокопроизводительные приложения ИИ следующего поколения без ущерба для скорости или стоимости. Это прорывное соотношение цены и производительности стало возможным благодаря системе Cerebras CS-3 и ее процессору ИИ Wafer Scale Engine 3 (WSE-3). CS-3 обеспечивает в 7000 раз большую пропускную способность памяти, чем Nvidia H100, решая техническую проблему пропускной способности памяти для генеративного ИИ.

Cerebras запускает самую быструю в мире технологию вывода искусственного интеллекта, производительность которой в 20 раз выше, чем у NVIDIA, изображение 1Cerebras запускает самую быструю в мире технологию вывода искусственного интеллекта, производительность которой в 20 раз выше, чем у NVIDIA, изображение 1

В настоящее время Cerebras Inference доступен на следующих трех уровнях:

  1. Бесплатный уровень предлагает бесплатный доступ к API и щедрые лимиты использования для всех, кто зарегистрируется.
  2. Уровень разработчика предназначен для гибких развертываний без использования серверов, предоставляя пользователям конечные точки API по цене, составляющей лишь малую часть стоимости существующих альтернатив на рынке: модели Llama 3.1 8B и 70B стоят всего 10 и 60 центов за миллион токенов соответственно.
  3. Enterprise Tier предлагает тонко настроенные модели, индивидуальные соглашения об уровне обслуживания и выделенную поддержку. Идеально подходит для непрерывных рабочих нагрузок, предприятия могут получить доступ к Cerebras Inference через управляемое Cerebras частное облако или локально.

Благодаря рекордной производительности, конкурентоспособным ценам и открытому доступу к API Cerebras Inference устанавливает новый стандарт для открытой разработки и развертывания LLM. Как единственное решение, способное обеспечить как высокоскоростное обучение, так и вывод, Cerebras открывает совершенно новые возможности для ИИ.

С быстрым развитием тенденций в области ИИ и с тем, что NVIDIA в настоящее время занимает доминирующее положение на рынке, появление таких компаний, как Cerebras и Groq, сигнализирует о потенциальном изменении динамики всей отрасли. Поскольку спрос на более быстрые и экономичные решения для вывода ИИ растет, такие решения, как Cerebras Inference, имеют все шансы побороться за доминирование NVIDIA, особенно в области вывода.

Изабелла ХамфриИзабелла Хамфри

Обновление 29 августа 2024 г.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *