Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro

Итак, чтобы проверить это утверждение, было проведено это детальное сравнение. Как и в предыдущем сравнении Claude 3 Opus, GPT-4 и Gemini 1.5 Pro, в ходе сравнения оценивались способности к рассуждению, мультимодальное рассуждение, генерация кода и т. д. Давайте выясним это подробно ниже. Пожалуйста!

1. Найдите время высыхания

Хотя это может показаться простым вопросом, начните тест с этого сложного вопроса на рассуждение. LLM склонны совершать частые ошибки. Клод 3.5 Сонет допускает ту же ошибку и подходит к вопросу математически. Модель сказала, что для сушки 20 полотенец потребуется 1 час 20 минут, что неверно. ChatGPT 4o и Gemini 1.5 Pro получили правильный ответ, сказав, что для сушки 20 полотенец все равно потребуется 1 час.

Если 15 полотенец высохнут на солнце за 1 час, сколько времени потребуется, чтобы высушить 20 полотенец?

Грубо говоря: если высушить 15 полотенец на солнце в течение 1 часа, сколько времени потребуется, чтобы высушить 20 полотенец?

Варианты выигрыша: ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 1.

2. Оцените вес

Далее, в этом классическом вопросе-рассуждении приятно, что все три модели, включая Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, имеют правильный ответ. Килограмм перьев или чего-то еще всегда будет весить больше, чем фунт стали или других материалов.

Что тяжелее: килограмм перьев или фунт стали?

Что тяжелее: фунт перьев или фунт стали?

Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 2.

3. Словесные головоломки

В следующем тесте на рассуждение Клод 3.5 Сонет правильно отвечает, что у Дэвида нет братьев и что он единственный мужчина среди братьев и сестер. ChatGPT 4o и Gemini 1.5 Pro имеют правильный ответ.

У Дэвида три сестры. У каждого из них есть один брат. Сколько братьев у Давида?

=> У Дэвида три сестры. У каждого из них есть младший брат. Сколько братьев у Давида?

Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 3.

4. Сортируйте предметы

Затем автор статьи попросил все три модели расположить эти объекты так, чтобы они были устойчивыми. К сожалению, все три ошибочны. Модели используют одинаковый подход: сначала кладут на дно бутылки ноутбук, затем книгу, бутылку и, наконец, 9 яиц, что невозможно. У старой модели GPT-4 был правильный ответ.

Здесь у нас есть книга, 9 яиц, ноутбук, бутылка и гвоздь. Подскажите пожалуйста, как их устойчиво сложить друг на друга.

Здесь у нас есть книга, 9 яиц, ноутбук, бутылка и гвоздь. Подскажите, как их сложить, чтобы они не упали.

Варианты выигрыша: Нет

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 4.

5. Следуйте инструкциям

В своем сообщении в блоге Anthropic упомянул, что Claude 3.5 Sonnet превосходно следует инструкциям, и это кажется правильным. Он генерирует все 10 предложений, заканчивающихся словом «AI». ChatGPT 4o также справляется с этой задачей на 10/10. Однако Gemini 1.5 Pro смог выдать только 5 правильных предложений из 10. Google должен управлять моделью для лучшего руководства.

Составьте 10 предложений, которые заканчиваются словом «ИИ».

Примерный перевод: Составьте 10 предложений, заканчивающихся словом «ИИ».

Выигрышные варианты: Claude 3.5 Sonnet и ChatGPT 4o

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 5.

6. Найдите детали

Anthropic была одной из первых компаний, предложивших контексты большой длины: от 100 000 токенов до сегодняшнего контекстного окна в 200 000. Итак, для этого теста автор предоставил большой текст из 25 тысяч символов и около 6 тысяч токенов. Автор добавил деталь где-то в середине текста.

Автор запросил подробности у всех трёх моделей, но только Claude 3.5 Sonnet нашел ответ, а ChatGPT 4o и Gemini 1.5 Pro — нет. Таким образом, для обработки больших документов Claude 3.5 Sonnet является лучшей моделью.

Победитель: Сонет Клода 3.5.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 6.

7. Проверьте свое зрение

Чтобы проверить зрительные способности, автор загрузил изображения сложно читаемого текста, чтобы увидеть, насколько хорошо модели смогут распознать символы и извлечь их. К нашему удивлению, все три модели отлично справились с задачей и точно определили тексты. Что касается оптического распознавания символов, все три модели вполне работоспособны.

Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 7.

8. Создавайте игры

В этом тесте автор загрузил изображение классической игры «Тетрис», не раскрывая названия, и лишь попросил модель создать подобную игру на Python. Все три модели правильно угадали игру, но успешно сработал только код, созданный Sonnet. И ChatGPT 4o, и Gemini 1.5 Pro не создают безошибочный код.

Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, изображение 8.

Всего за один раз игра успешно запустилась с использованием кода Sonnet. Многие программисты используют ChatGPT 4o для облегчения кодирования, но похоже, что модель Anthropic может стать новым фаворитом среди программистов.

Claude 3.5 Sonnet достиг 92% результатов теста HumanEval для оценки способностей к программированию. В этом тесте GPT-4o достиг 90,2%, а Gemini 1.5 Pro — 84,1%. Очевидно, что для программирования существует новая модель SOTA — Claude 3.5 Sonnet.

Победитель: Сонет Клода 3.5.

После проведения различных тестов на всех трех моделях Claude 3.5 Sonnet не уступает модели ChatGPT 4o, если не лучше. Новая модель Anthropic действительно впечатляет, особенно в области программирования. Стоит отметить, что последняя модель Sonnet еще даже не самая большая у Anthropic.

Компания заявляет, что Claude 3.5 Opus выйдет позже в этом году и будет работать еще лучше. Gemini 1.5 Pro от Google также показал лучшие результаты, чем предыдущие тесты, а это значит, что он значительно улучшился. В целом можно сказать, что OpenAI — не единственный искусственный интеллект, преуспевающий в области LLM. Сонет Claude 3.5 от Anthropic является тому подтверждением.

Сэмюэл ДэниелСэмюэл Дэниел

Обновление от 27 июня 2024 г.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *