Cerebras запускает самую быструю в мире технологию вывода искусственного интеллекта, производительность которой в 20 раз выше, чем у NVIDIA
Компания Cerebras Systems только что официально анонсировала Cerebras Inference, которая считается самым быстрым в мире решением для вывода на основе искусственного интеллекта.
Cerebras Inference обеспечивает производительность до 1800 токенов в секунду для моделей Llama 3.1 8B (8 миллиардов параметров) и 450 токенов в секунду для Llama 3.1 70B, что почти в 20 раз быстрее решений для вывода ИИ на базе графических процессоров NVIDIA, доступных в современных гипермасштабируемых облаках по всему миру, включая Microsoft Azure.
В дополнение к невероятной производительности, новое решение для вывода также очень дешево в использовании, за малую часть того, что предлагают популярные облачные платформы GPU. Например, клиенты могут получить миллион токенов всего за 10 центов, что обеспечивает 100-кратное преимущество цены и производительности для рабочих нагрузок ИИ.
16-битная точность Cerebras и 20-кратная скорость вывода позволят разработчикам создавать высокопроизводительные приложения ИИ следующего поколения без ущерба для скорости или стоимости. Это прорывное соотношение цены и производительности стало возможным благодаря системе Cerebras CS-3 и ее процессору ИИ Wafer Scale Engine 3 (WSE-3). CS-3 обеспечивает в 7000 раз большую пропускную способность памяти, чем Nvidia H100, решая техническую проблему пропускной способности памяти для генеративного ИИ.
Cerebras запускает самую быструю в мире технологию вывода искусственного интеллекта, производительность которой в 20 раз выше, чем у NVIDIA, изображение 1
В настоящее время Cerebras Inference доступен на следующих трех уровнях:
- Бесплатный уровень предлагает бесплатный доступ к API и щедрые лимиты использования для всех, кто зарегистрируется.
- Уровень разработчика предназначен для гибких развертываний без использования серверов, предоставляя пользователям конечные точки API по цене, составляющей лишь малую часть стоимости существующих альтернатив на рынке: модели Llama 3.1 8B и 70B стоят всего 10 и 60 центов за миллион токенов соответственно.
- Enterprise Tier предлагает тонко настроенные модели, индивидуальные соглашения об уровне обслуживания и выделенную поддержку. Идеально подходит для непрерывных рабочих нагрузок, предприятия могут получить доступ к Cerebras Inference через управляемое Cerebras частное облако или локально.
Благодаря рекордной производительности, конкурентоспособным ценам и открытому доступу к API Cerebras Inference устанавливает новый стандарт для открытой разработки и развертывания LLM. Как единственное решение, способное обеспечить как высокоскоростное обучение, так и вывод, Cerebras открывает совершенно новые возможности для ИИ.
С быстрым развитием тенденций в области ИИ и с тем, что NVIDIA в настоящее время занимает доминирующее положение на рынке, появление таких компаний, как Cerebras и Groq, сигнализирует о потенциальном изменении динамики всей отрасли. Поскольку спрос на более быстрые и экономичные решения для вывода ИИ растет, такие решения, как Cerebras Inference, имеют все шансы побороться за доминирование NVIDIA, особенно в области вывода.
Изабелла Хамфри
Обновление 29 августа 2024 г.