Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro

Итак, чтобы проверить это утверждение, было проведено это детальное сравнение. Как и в предыдущем сравнении Claude 3 Opus, GPT-4 и Gemini 1.5 Pro, в ходе сравнения оценивались способности к рассуждению, мультимодальное рассуждение, генерация кода и т. д. Давайте выясним это подробно ниже. Пожалуйста!

1. Найдите время высыхания

Хотя это может показаться простым вопросом, начните тест с этого сложного вопроса на рассуждение. LLM склонны совершать частые ошибки. Клод 3.5 Сонет допускает ту же ошибку и подходит к вопросу математически. Модель сказала, что для сушки 20 полотенец потребуется 1 час 20 минут, что неверно. ChatGPT 4o и Gemini 1.5 Pro получили правильный ответ, сказав, что для сушки 20 полотенец все равно потребуется 1 час.

Если 15 полотенец высохнут на солнце за 1 час, сколько времени потребуется, чтобы высушить 20 полотенец?

Грубо говоря: если высушить 15 полотенец на солнце в течение 1 часа, сколько времени потребуется, чтобы высушить 20 полотенец?

Варианты выигрыша: ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 1.

2. Оцените вес

Далее, в этом классическом вопросе-рассуждении приятно, что все три модели, включая Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, имеют правильный ответ. Килограмм перьев или чего-то еще всегда будет весить больше, чем фунт стали или других материалов.

Что тяжелее: килограмм перьев или фунт стали?

Что тяжелее: фунт перьев или фунт стали?

Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 2.

3. Словесные головоломки

В следующем тесте на рассуждение Клод 3.5 Сонет правильно отвечает, что у Дэвида нет братьев и что он единственный мужчина среди братьев и сестер. ChatGPT 4o и Gemini 1.5 Pro имеют правильный ответ.

У Дэвида три сестры. У каждого из них есть один брат. Сколько братьев у Давида?

=> У Дэвида три сестры. У каждого из них есть младший брат. Сколько братьев у Давида?

Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 3.

4. Сортируйте предметы

Затем автор статьи попросил все три модели расположить эти объекты так, чтобы они были устойчивыми. К сожалению, все три ошибочны. Модели используют одинаковый подход: сначала кладут на дно бутылки ноутбук, затем книгу, бутылку и, наконец, 9 яиц, что невозможно. У старой модели GPT-4 был правильный ответ.

Здесь у нас есть книга, 9 яиц, ноутбук, бутылка и гвоздь. Подскажите пожалуйста, как их устойчиво сложить друг на друга.

Здесь у нас есть книга, 9 яиц, ноутбук, бутылка и гвоздь. Подскажите, как их сложить, чтобы они не упали.

Варианты выигрыша: Нет

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 4.

5. Следуйте инструкциям

В своем сообщении в блоге Anthropic упомянул, что Claude 3.5 Sonnet превосходно следует инструкциям, и это кажется правильным. Он генерирует все 10 предложений, заканчивающихся словом «AI». ChatGPT 4o также справляется с этой задачей на 10/10. Однако Gemini 1.5 Pro смог выдать только 5 правильных предложений из 10. Google должен управлять моделью для лучшего руководства.

Составьте 10 предложений, которые заканчиваются словом «ИИ».

Примерный перевод: Составьте 10 предложений, заканчивающихся словом «ИИ».

Выигрышные варианты: Claude 3.5 Sonnet и ChatGPT 4o

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 5.

6. Найдите детали

Anthropic была одной из первых компаний, предложивших контексты большой длины: от 100 000 токенов до сегодняшнего контекстного окна в 200 000. Итак, для этого теста автор предоставил большой текст из 25 тысяч символов и около 6 тысяч токенов. Автор добавил деталь где-то в середине текста.

Автор запросил подробности у всех трёх моделей, но только Claude 3.5 Sonnet нашел ответ, а ChatGPT 4o и Gemini 1.5 Pro — нет. Таким образом, для обработки больших документов Claude 3.5 Sonnet является лучшей моделью.

Победитель: Сонет Клода 3.5.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 6.

7. Проверьте свое зрение

Чтобы проверить зрительные способности, автор загрузил изображения сложно читаемого текста, чтобы увидеть, насколько хорошо модели смогут распознать символы и извлечь их. К нашему удивлению, все три модели отлично справились с задачей и точно определили тексты. Что касается оптического распознавания символов, все три модели вполне работоспособны.

Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 7.

8. Создавайте игры

В этом тесте автор загрузил изображение классической игры «Тетрис», не раскрывая названия, и лишь попросил модель создать подобную игру на Python. Все три модели правильно угадали игру, но успешно сработал только код, созданный Sonnet. И ChatGPT 4o, и Gemini 1.5 Pro не создают безошибочный код.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 8.

Всего за один раз игра успешно запустилась с использованием кода Sonnet. Многие программисты используют ChatGPT 4o для облегчения кодирования, но похоже, что модель Anthropic может стать новым фаворитом среди программистов.

Claude 3.5 Sonnet достиг 92% результатов теста HumanEval для оценки способностей к программированию. В этом тесте GPT-4o достиг 90,2%, а Gemini 1.5 Pro — 84,1%. Очевидно, что для программирования существует новая модель SOTA — Claude 3.5 Sonnet.

Победитель: Сонет Клода 3.5.

После проведения различных тестов на всех трех моделях Claude 3.5 Sonnet не уступает модели ChatGPT 4o, если не лучше. Новая модель Anthropic действительно впечатляет, особенно в области программирования. Стоит отметить, что последняя модель Sonnet еще даже не самая большая у Anthropic.

Компания заявляет, что Claude 3.5 Opus выйдет позже в этом году и будет работать еще лучше. Gemini 1.5 Pro от Google также показал лучшие результаты, чем предыдущие тесты, а это значит, что он значительно улучшился. В целом можно сказать, что OpenAI — не единственный искусственный интеллект, преуспевающий в области LLM. Сонет Claude 3.5 от Anthropic является тому подтверждением.

Сэмюэл ДэниелСэмюэл Дэниел

Обновление от 27 июня 2024 г.

Похожие записи

Добавить комментарий