Лама 3 или GPT-4 лучше?
Давайте посмотрим, какая LLM лучше, сравнив обе модели с точки зрения мультимодальности, длины контекста, производительности и стоимости.
Мультимодальный
Выпуск GPT-4o наконец-то принес первичную информацию, показывающую, что GPT-4 обладает мультимодальными возможностями. Теперь вы можете получить доступ к этим мультимодальным функциям, взаимодействуя с ChatGPT, используя модель GPT-4o. По состоянию на июнь 2024 года GPT-4o не имеет встроенного способа создания видео и аудио. Однако он способен генерировать текст и изображения на основе видео и аудио входов.
Llama 3 также планирует предложить интермодальную модель для будущего Llama 3 400B. Скорее всего, он будет интегрировать аналогичные технологии с CLIP (предварительная тренировка контрастного языка и изображения) для создания изображений с использованием методов обучения с нулевым выстрелом. Но поскольку Llama 400B все еще находится в стадии обучения, единственный способ создания изображений для моделей 8B и 70B — это использование таких расширений, как LLaVa, Visual-LLaMA и LLaMA-VID. На данный момент Llama 3 представляет собой чисто языковую модель, которая может использовать текст, изображения и аудио в качестве входных данных для генерации текста.
Длина контекста
Длина контекста означает количество текста, которое модель может обработать одновременно. Это важный фактор при рассмотрении возможностей LLM, поскольку он определяет объем контекста, в котором модель может работать при взаимодействии с пользователями. В целом, более высокая длина контекста делает LLM лучше, поскольку обеспечивает более высокую степень согласованности и непрерывности и может уменьшить повторение ошибок во время взаимодействия.
Модель
Описание данных обучения
Параметры
Длина контекста
GQA
Количество токенов
Ограниченные знания
Лама 3
Включает общедоступные онлайн-данные
8Б
8к
Иметь
15Т+
март 2023 г.
Лама 3
Включает общедоступные онлайн-данные
70Б
8к
Иметь
15Т+
декабрь 2023 г.
Модели Llama 3 имеют эффективную длину контекста 8000 токенов (около 6400 слов). Это означает, что модель Llama 3 будет иметь контекстную память примерно на 6400 слов во время взаимодействия. Любые слова, превышающие лимит в 8000 токенов, будут забыты и не будут предоставлять никакого дополнительного контекста во время взаимодействия.
Модель
Описывать
Контекстное окно
Данные обучения
ГПТ-4о
Мультимодальная модель, дешевле и быстрее, чем GPT-4 Turbo.
128 000 токенов (API)
До октября 2023 г.
ГПТ-4-Турбо
Модель GPT-4 Turbo отличается обтекаемостью и обзорностью.
128 000 токенов (API)
До декабря 2023 г.
ГПТ-4
Первая модель ГПТ-4
8 192 жетона
До сентября 2021 г.
Напротив, GPT-4 теперь поддерживает значительно большую длину контекста: 32 000 токенов (около 25 600 слов) для пользователей ChatGPT и 128 000 токенов (около 102 400 слов) для тех, кто использует конечные точки API. Это дает модели GPT-4 преимущества в управлении длительными разговорами и возможность читать длинные документы или даже целые книги.
Эффективность
Сравните производительность, просмотрев отчет о тестировании Llama 3 от 18 апреля 2024 г. от Meta AI и GPT-4 от 14 мая 2024 г., отчет OpenAI на GitHub. Вот результаты:
Модель
ММЛУ
GPQA
МАТЕМАТИКА
HumanEval
УРОНИТЬ
ГПТ-4о
88,7
53,6
76,6
90,2
83,4
ГПТ-4 Турбо
86,5
49,1
72,2
87,6
85,4
Лама3 8Б
68,4
34,2
30,0
62,2
58,4
Лама3 70Б
82,0
39,5
50,4
81,7
79,7
Лама3 400Б
86,1
48,0
57,8
84,1
83,5
Вот что оценивает каждый критерий:
- MMLU (массовое многозадачное понимание языка): оценивает способность модели понимать и отвечать на вопросы по различным академическим темам.
- GPTQA (Ответы на вопросы общего назначения): оценивает умение модели отвечать на реальные вопросы в открытом доступе.
- МАТЕМАТИКА: проверьте способность модели решать проблемы.
- HumanEval: измеряет способность модели генерировать правильный код на основе заданной подсказки, заданной человеком.
- DROP (Дискретное рассуждение по абзацам): оценивает способность модели выполнять дискретное рассуждение и отвечать на вопросы на основе отрывков текста.
Недавние тесты подчеркивают разницу в производительности между моделями GPT-4 и Llama 3. Хотя модель Llama 3 8B, по-видимому, значительно отстает, модели 70B и 400B показывают более низкие результаты, но схожи с моделями GPT-4o и GPT-4 Turbo с точки зрения академических и общих знаний, чтения и понимания, рассуждения и логики. и кодирование. Однако ни одна модель Llama 3 еще не достигла показателей GPT-4 чисто математически.
Цена
Стоимость является важным фактором для многих пользователей. Модель OpenAI GPT-4o доступна бесплатно всем пользователям ChatGPT с ограничением в 16 сообщений каждые 3 часа. Если вам нужно больше, вам придется подписаться на ChatGPT Plus за 20 долларов в месяц, чтобы увеличить лимит сообщений GPT-4o до 80, а также получить доступ к другим моделям GPT-4.
С другой стороны, обе модели Llama 3 8B и 70B бесплатны и имеют открытый исходный код, что может стать значительным преимуществом для разработчиков и исследователей, ищущих экономичное решение без ущерба для производительности.
Доступность
Модели GPT-4 широко доступны через чат-бот OpenAI Generative AI ChatGPT и через его API. Вы также можете использовать GPT-4 в Microsoft Copilot, что позволяет использовать GPT-4 бесплатно. Такая широкая доступность гарантирует, что пользователи смогут легко воспользоваться его возможностями в различных случаях использования. Напротив, Llama 3 — это проект с открытым исходным кодом, который обеспечивает гибкость модели и поощряет более широкое экспериментирование и сотрудничество внутри сообщества искусственного интеллекта. Такой подход с открытым доступом может демократизировать технологию искусственного интеллекта, сделав ее доступной для более широкой аудитории.
Хотя доступны обе модели, GPT-4 гораздо проще в использовании, поскольку она интегрирована в популярные инструменты и сервисы для повышения производительности. С другой стороны, Llama 3 в основном интегрирован в исследовательские и бизнес-платформы, такие как Amazon Bedrock, Ollama и DataBricks (за исключением поддержки чата Meta AI), что не может привлечь более широкий рынок технически не подкованных людей.
Что лучше GPT-4 или Llama 3?
Так какой LLM лучше? GPT-4 — лучший LLM. GPT-4 отличается мультимодальностью и расширенными возможностями обработки текста, изображений и аудиовхода, тогда как аналогичные функции Llama 3 все еще находятся в разработке. GPT-4 также обеспечивает гораздо большую длину контекста и лучшую производительность, а также широко доступен через популярные инструменты и сервисы, что делает GPT-4 более удобным для пользователя.
Однако важно подчеркнуть, что модели Llama 3 показали себя очень хорошо для бесплатного проекта с открытым исходным кодом. В результате Llama 3 остается выдающимся LLM, популярным среди исследователей и предприятий благодаря своей бесплатности и открытому исходному коду, а также предлагает впечатляющую производительность, гибкость и выдающиеся функции безопасности. доверять. Хотя обычные потребители, возможно, не найдут немедленного применения Llama 3, она остается наиболее жизнеспособным вариантом для многих исследователей и предприятий.
Таким образом, хотя GPT-4 выделяется своими расширенными мультимодальными возможностями, большей длиной контекста и плавной интеграцией в широко используемые инструменты, Llama 3 предлагает жизнеспособную альтернативу. ценность благодаря своему открытому исходному коду, позволяющему расширить возможности настройки и сэкономить средства. Так, с точки зрения приложений GPT-4 идеально подходит для тех, кто ищет простоту использования и комплексные возможности в одной модели, а Llama 3 хорошо подходит для разработчиков и исследователей. ищут гибкость и адаптируемость.
Джессика Таннер
Обновление от 20 июня 2024 г.