Какая модель с открытым исходным кодом лучше

На конференции I/O 2024 Google анонсировала следующую линейку моделей Gemma 2, и теперь компания наконец выпустила облегченные модели под лицензией с открытым исходным кодом. Говорят, что новая модель Gemma 2 27B очень многообещающая, превосходящая некоторые более крупные модели, такие как Llama 3 70B и Qwen 1.5 32B. Итак, чтобы проверить это утверждение, давайте сравним Gemma 2 и Llama 3 — две ведущие модели с открытым исходным кодом на сегодняшний день.

Писательское творчество

Сначала давайте посмотрим, насколько хороши Gemma 2 и Llama 3 в плане творческого письма. Автор статьи попросил обе модели написать короткий рассказ об отношениях между луной и солнцем. Обе отлично справляются, но Gemma 2 от Google выделяется интересной прозой и хорошей историей.

Какая модель с открытым исходным кодом лучше: Gemma 2 или Llama 3? Изображение 1

С другой стороны, Llama 3 кажется немного скучным и роботизированным. Google всегда был хорош в создании текста с помощью своих моделей Gemini, и меньшая модель Gemma 2 27B не является исключением.

Выигрышный вариант: Джемма 2

Многоязычное тестирование

В следующем раунде выясните, насколько хорошо обе модели справляются с языками, отличными от английского. Поскольку Google рекламирует, что Gemma 2 хорошо понимает несколько языков, автор сравнил ее с моделью Llama 3 от Meta. Автор попросил обе модели перевести отрывок на хинди. И Gemma 2, и Llama 3 справились отлично.

Какая модель с открытым исходным кодом лучше: Gemma 2 или Llama 3? Изображение 3

Автор также попробовал другой язык, бенгали, и модели показали такие же хорошие результаты. По крайней мере, для индийских языков можно сказать, что Gemma 2 и Llama 3 хорошо обучены на большом корпусе. Однако Gemma 2 27B почти в 2,5 раза меньше Llama 3 70B, что делает ее еще более впечатляющей.

Выигрышные варианты: Джемма 2 и Лама 3

Проверьте свои рассуждения

Хотя Gemma 2 и Llama 3 не являются самыми умными моделями, они могут выполнять некоторые общие тесты на рассуждение, как и на гораздо более крупных моделях. В предыдущем сравнении Llama 3 и GPT-4 модель Meta 70B была впечатляющей, поскольку она продемонстрировала довольно хороший интеллект даже при своем меньшем размере.

Какая модель с открытым исходным кодом лучше: Gemma 2 или Llama 3? Изображение 5

В этом раунде Llama 3 победила Gemma 2 с чистым счетом. Llama 3 ответила правильно на 2 из 3 вопросов, в то время как Gemma 2 с трудом ответила хотя бы на один. Gemma 2 просто не обучена решать сложные вопросы на рассуждение.

С другой стороны, Llama 3 имеет прочную основу для рассуждений, которую, скорее всего, можно вывести из набора кодированных данных. Несмотря на свой небольшой размер — по крайней мере, по сравнению с моделями с триллионом параметров, такими как GPT-4 — она демонстрирует более чем приличный уровень интеллекта. В конечном счете, использование большего количества токенов для обучения модели фактически приводит к более надежной модели.

Выигрышный вариант: Лама 3

Следуй инструкциям

В следующем раунде автор просит Джемму 2 и Ламу 3 составить 10 слов, заканчивающихся на слово «NPU». И Лама 3 дала 10/10 правильных ответов. Напротив, Джемма 2 дала только 7 правильных предложений из 10. Во многих прошлых выпусках модели Google, включая Gemini, не очень хорошо следовали инструкциям пользователя. И та же тенденция продолжается с Джеммой 2.

Какая модель с открытым исходным кодом лучше: Gemma 2 или Llama 3? Изображение 7

Соблюдение инструкций пользователя имеет решающее значение для моделей ИИ. Это обеспечивает надежность и дает точные ответы на то, что вы проинструктировали. С точки зрения безопасности это также помогает поддерживать модель на земле для лучшего соответствия протоколам безопасности.

Выигрышный вариант: Лама 3

Найти информацию

Длина контекста Gemma 2 и Llama 3 составляет 8 тыс. токенов. Автор добавил огромный блок текста, взятый непосредственно из книги «Гордость и предубеждение», содержащий более 17 тыс. символов и 3,8 тыс. токенов. Как всегда, автор помещает случайную цитату где-то в тексте и просит обе модели найти ее.

Какая модель с открытым исходным кодом лучше: Gemma 2 или Llama 3? Изображение 9

Gemma 2 быстро нашла информацию и указала, что цитата была вставлена случайно. Llama 3 также посчитала это утверждение неуместным. Что касается долговременной контекстной памяти, несмотря на ограничение в 8К токенов, обе модели в этом отношении довольно сильны.

Обратите внимание, что автор запустил этот тест на HuggingChat (веб-сайт), поскольку meta.ai отказался выполнять эту подсказку, скорее всего, из-за нарушения авторских прав на контент.

Выигрышные варианты: Джемма 2 и Лама 3

Проверьте наличие галлюцинаций.

Меньшие модели склонны испытывать иллюзии ИИ из-за ограниченных данных для обучения, часто фальсифицируя информацию, когда модель сталкивается с незнакомыми темами. Поэтому автор вставил придуманные им названия стран, чтобы проверить, галлюцинируют ли Джемма 2 и Ллама 3 или нет. И, что удивительно, они этого не сделали, что означает, что и у Google, и у Meta есть довольно хорошие основания для своих моделей.

Какая модель с открытым исходным кодом лучше: Gemma 2 или Llama 3? Изображение 11

Автор также задал еще один (ложный) вопрос, чтобы проверить подлинность моделей, но они снова не вызвали иллюзий. Кстати, автор тестировал Llama 3 на HuggingChat, поскольку meta.ai просматривает интернет в поисках актуальной информации по смежным темам.

Выигрышные варианты: Джемма 2 и Лама 3

Заключение

Хотя модель Gemma 2 27B от Google не очень хорошо справляется с тестами на рассуждение, она способна на несколько других задач. Она отлично справляется с творческим письмом, поддерживает несколько языков, обладает хорошей памятью и, что самое лучшее, не вызывает галлюцинаций, как предыдущие модели.

Конечно, Llama 3 лучше, но это также значительно более крупная модель, обученная на 70 миллиардах параметров. Разработчики найдут модель Gemma 2 27B полезной для многих вариантов использования. А для вывода также доступна Gemma 2 9B.

Кроме того, пользователи должны проверить Gemini 1.5 Flash, который снова является гораздо меньшей моделью и также поддерживает многомодальный ввод. Не говоря уже о том, что он невероятно быстрый и эффективный.

Дэвид Пак

Обновление 03 июля 2024 г.

Какая модель с открытым исходным кодом лучше — Gemma 2 или Llama 3?

Писательское творчество

Многоязычное тестирование

Проверьте свои рассуждения

Следуй инструкциям

Найти информацию

Проверьте наличие галлюцинаций.

Заключение

YouTube тестирует встроенный таймер сна, только для подписчиков Premium

Что такое Телеграм? 15 причин использовать Telegram

Ссылка для скачивания Mmlive One, поддержки прямой трансляции и зарабатывания денег в Интернете

Samsung разрешит создание обоев с помощью ИИ на своих холодильниках с сенсорным экраном

Будущее индустрии виртуальных валют и биткоинов будет более благоприятным, если бывший президент Дональд Трамп будет переизбран

Как расположить изображения друг над другом в Word

Добавить комментарий Отменить ответ

Писательское творчество

Многоязычное тестирование

Проверьте свои рассуждения

Следуй инструкциям

Найти информацию

Проверьте наличие галлюцинаций.

Заключение

Похожие записи

Добавить комментарий Отменить ответ