Какая модель с открытым исходным кодом лучше — Gemma 2 или Llama 3?
На конференции I/O 2024 Google анонсировала следующую линейку моделей Gemma 2, и теперь компания наконец выпустила облегченные модели под лицензией с открытым исходным кодом. Говорят, что новая модель Gemma 2 27B очень многообещающая, превосходящая некоторые более крупные модели, такие как Llama 3 70B и Qwen 1.5 32B. Итак, чтобы проверить это утверждение, давайте сравним Gemma 2 и Llama 3 — две ведущие модели с открытым исходным кодом на сегодняшний день.
Писательское творчество
Сначала давайте посмотрим, насколько хороши Gemma 2 и Llama 3 в плане творческого письма. Автор статьи попросил обе модели написать короткий рассказ об отношениях между луной и солнцем. Обе отлично справляются, но Gemma 2 от Google выделяется интересной прозой и хорошей историей.
С другой стороны, Llama 3 кажется немного скучным и роботизированным. Google всегда был хорош в создании текста с помощью своих моделей Gemini, и меньшая модель Gemma 2 27B не является исключением.
Выигрышный вариант: Джемма 2
Многоязычное тестирование
В следующем раунде выясните, насколько хорошо обе модели справляются с языками, отличными от английского. Поскольку Google рекламирует, что Gemma 2 хорошо понимает несколько языков, автор сравнил ее с моделью Llama 3 от Meta. Автор попросил обе модели перевести отрывок на хинди. И Gemma 2, и Llama 3 справились отлично.
Автор также попробовал другой язык, бенгали, и модели показали такие же хорошие результаты. По крайней мере, для индийских языков можно сказать, что Gemma 2 и Llama 3 хорошо обучены на большом корпусе. Однако Gemma 2 27B почти в 2,5 раза меньше Llama 3 70B, что делает ее еще более впечатляющей.
Выигрышные варианты: Джемма 2 и Лама 3
Проверьте свои рассуждения
Хотя Gemma 2 и Llama 3 не являются самыми умными моделями, они могут выполнять некоторые общие тесты на рассуждение, как и на гораздо более крупных моделях. В предыдущем сравнении Llama 3 и GPT-4 модель Meta 70B была впечатляющей, поскольку она продемонстрировала довольно хороший интеллект даже при своем меньшем размере.
В этом раунде Llama 3 победила Gemma 2 с чистым счетом. Llama 3 ответила правильно на 2 из 3 вопросов, в то время как Gemma 2 с трудом ответила хотя бы на один. Gemma 2 просто не обучена решать сложные вопросы на рассуждение.
С другой стороны, Llama 3 имеет прочную основу для рассуждений, которую, скорее всего, можно вывести из набора кодированных данных. Несмотря на свой небольшой размер — по крайней мере, по сравнению с моделями с триллионом параметров, такими как GPT-4 — она демонстрирует более чем приличный уровень интеллекта. В конечном счете, использование большего количества токенов для обучения модели фактически приводит к более надежной модели.
Выигрышный вариант: Лама 3
Следуй инструкциям
В следующем раунде автор просит Джемму 2 и Ламу 3 составить 10 слов, заканчивающихся на слово «NPU». И Лама 3 дала 10/10 правильных ответов. Напротив, Джемма 2 дала только 7 правильных предложений из 10. Во многих прошлых выпусках модели Google, включая Gemini, не очень хорошо следовали инструкциям пользователя. И та же тенденция продолжается с Джеммой 2.
Соблюдение инструкций пользователя имеет решающее значение для моделей ИИ. Это обеспечивает надежность и дает точные ответы на то, что вы проинструктировали. С точки зрения безопасности это также помогает поддерживать модель на земле для лучшего соответствия протоколам безопасности.
Выигрышный вариант: Лама 3
Найти информацию
Длина контекста Gemma 2 и Llama 3 составляет 8 тыс. токенов. Автор добавил огромный блок текста, взятый непосредственно из книги «Гордость и предубеждение», содержащий более 17 тыс. символов и 3,8 тыс. токенов. Как всегда, автор помещает случайную цитату где-то в тексте и просит обе модели найти ее.
Gemma 2 быстро нашла информацию и указала, что цитата была вставлена случайно. Llama 3 также посчитала это утверждение неуместным. Что касается долговременной контекстной памяти, несмотря на ограничение в 8К токенов, обе модели в этом отношении довольно сильны.
Обратите внимание, что автор запустил этот тест на HuggingChat (веб-сайт), поскольку meta.ai отказался выполнять эту подсказку, скорее всего, из-за нарушения авторских прав на контент.
Выигрышные варианты: Джемма 2 и Лама 3
Проверьте наличие галлюцинаций.
Меньшие модели склонны испытывать иллюзии ИИ из-за ограниченных данных для обучения, часто фальсифицируя информацию, когда модель сталкивается с незнакомыми темами. Поэтому автор вставил придуманные им названия стран, чтобы проверить, галлюцинируют ли Джемма 2 и Ллама 3 или нет. И, что удивительно, они этого не сделали, что означает, что и у Google, и у Meta есть довольно хорошие основания для своих моделей.
Автор также задал еще один (ложный) вопрос, чтобы проверить подлинность моделей, но они снова не вызвали иллюзий. Кстати, автор тестировал Llama 3 на HuggingChat, поскольку meta.ai просматривает интернет в поисках актуальной информации по смежным темам.
Выигрышные варианты: Джемма 2 и Лама 3
Заключение
Хотя модель Gemma 2 27B от Google не очень хорошо справляется с тестами на рассуждение, она способна на несколько других задач. Она отлично справляется с творческим письмом, поддерживает несколько языков, обладает хорошей памятью и, что самое лучшее, не вызывает галлюцинаций, как предыдущие модели.
Конечно, Llama 3 лучше, но это также значительно более крупная модель, обученная на 70 миллиардах параметров. Разработчики найдут модель Gemma 2 27B полезной для многих вариантов использования. А для вывода также доступна Gemma 2 9B.
Кроме того, пользователи должны проверить Gemini 1.5 Flash, который снова является гораздо меньшей моделью и также поддерживает многомодальный ввод. Не говоря уже о том, что он невероятно быстрый и эффективный.
Дэвид Пак
Обновление 03 июля 2024 г.