Сравните Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro
Итак, чтобы проверить это утверждение, было проведено это детальное сравнение. Как и в предыдущем сравнении Claude 3 Opus, GPT-4 и Gemini 1.5 Pro, в ходе сравнения оценивались способности к рассуждению, мультимодальное рассуждение, генерация кода и т. д. Давайте выясним это подробно ниже. Пожалуйста!
1. Найдите время высыхания
Хотя это может показаться простым вопросом, начните тест с этого сложного вопроса на рассуждение. LLM склонны совершать частые ошибки. Клод 3.5 Сонет допускает ту же ошибку и подходит к вопросу математически. Модель сказала, что для сушки 20 полотенец потребуется 1 час 20 минут, что неверно. ChatGPT 4o и Gemini 1.5 Pro получили правильный ответ, сказав, что для сушки 20 полотенец все равно потребуется 1 час.
Если 15 полотенец высохнут на солнце за 1 час, сколько времени потребуется, чтобы высушить 20 полотенец?
Грубо говоря: если высушить 15 полотенец на солнце в течение 1 часа, сколько времени потребуется, чтобы высушить 20 полотенец?
Варианты выигрыша: ChatGPT 4o и Gemini 1.5 Pro.
2. Оцените вес
Далее, в этом классическом вопросе-рассуждении приятно, что все три модели, включая Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro, имеют правильный ответ. Килограмм перьев или чего-то еще всегда будет весить больше, чем фунт стали или других материалов.
Что тяжелее: килограмм перьев или фунт стали?
Что тяжелее: фунт перьев или фунт стали?
Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.
3. Словесные головоломки
В следующем тесте на рассуждение Клод 3.5 Сонет правильно отвечает, что у Дэвида нет братьев и что он единственный мужчина среди братьев и сестер. ChatGPT 4o и Gemini 1.5 Pro имеют правильный ответ.
У Дэвида три сестры. У каждого из них есть один брат. Сколько братьев у Давида?
=> У Дэвида три сестры. У каждого из них есть младший брат. Сколько братьев у Давида?
Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.
4. Сортируйте предметы
Затем автор статьи попросил все три модели расположить эти объекты так, чтобы они были устойчивыми. К сожалению, все три ошибочны. Модели используют одинаковый подход: сначала кладут на дно бутылки ноутбук, затем книгу, бутылку и, наконец, 9 яиц, что невозможно. У старой модели GPT-4 был правильный ответ.
Здесь у нас есть книга, 9 яиц, ноутбук, бутылка и гвоздь. Подскажите пожалуйста, как их устойчиво сложить друг на друга.
Здесь у нас есть книга, 9 яиц, ноутбук, бутылка и гвоздь. Подскажите, как их сложить, чтобы они не упали.
Варианты выигрыша: Нет
5. Следуйте инструкциям
В своем сообщении в блоге Anthropic упомянул, что Claude 3.5 Sonnet превосходно следует инструкциям, и это кажется правильным. Он генерирует все 10 предложений, заканчивающихся словом «AI». ChatGPT 4o также справляется с этой задачей на 10/10. Однако Gemini 1.5 Pro смог выдать только 5 правильных предложений из 10. Google должен управлять моделью для лучшего руководства.
Составьте 10 предложений, которые заканчиваются словом «ИИ».
Примерный перевод: Составьте 10 предложений, заканчивающихся словом «ИИ».
Выигрышные варианты: Claude 3.5 Sonnet и ChatGPT 4o
6. Найдите детали
Anthropic была одной из первых компаний, предложивших контексты большой длины: от 100 000 токенов до сегодняшнего контекстного окна в 200 000. Итак, для этого теста автор предоставил большой текст из 25 тысяч символов и около 6 тысяч токенов. Автор добавил деталь где-то в середине текста.
Автор запросил подробности у всех трёх моделей, но только Claude 3.5 Sonnet нашел ответ, а ChatGPT 4o и Gemini 1.5 Pro — нет. Таким образом, для обработки больших документов Claude 3.5 Sonnet является лучшей моделью.
Победитель: Сонет Клода 3.5.
7. Проверьте свое зрение
Чтобы проверить зрительные способности, автор загрузил изображения сложно читаемого текста, чтобы увидеть, насколько хорошо модели смогут распознать символы и извлечь их. К нашему удивлению, все три модели отлично справились с задачей и точно определили тексты. Что касается оптического распознавания символов, все три модели вполне работоспособны.
Варианты выигрыша: Claude 3.5 Sonnet, ChatGPT 4o и Gemini 1.5 Pro.
8. Создавайте игры
В этом тесте автор загрузил изображение классической игры «Тетрис», не раскрывая названия, и лишь попросил модель создать подобную игру на Python. Все три модели правильно угадали игру, но успешно сработал только код, созданный Sonnet. И ChatGPT 4o, и Gemini 1.5 Pro не создают безошибочный код.
Всего за один раз игра успешно запустилась с использованием кода Sonnet. Многие программисты используют ChatGPT 4o для облегчения кодирования, но похоже, что модель Anthropic может стать новым фаворитом среди программистов.
Claude 3.5 Sonnet достиг 92% результатов теста HumanEval для оценки способностей к программированию. В этом тесте GPT-4o достиг 90,2%, а Gemini 1.5 Pro — 84,1%. Очевидно, что для программирования существует новая модель SOTA — Claude 3.5 Sonnet.
Победитель: Сонет Клода 3.5.
После проведения различных тестов на всех трех моделях Claude 3.5 Sonnet не уступает модели ChatGPT 4o, если не лучше. Новая модель Anthropic действительно впечатляет, особенно в области программирования. Стоит отметить, что последняя модель Sonnet еще даже не самая большая у Anthropic.
Компания заявляет, что Claude 3.5 Opus выйдет позже в этом году и будет работать еще лучше. Gemini 1.5 Pro от Google также показал лучшие результаты, чем предыдущие тесты, а это значит, что он значительно улучшился. В целом можно сказать, что OpenAI — не единственный искусственный интеллект, преуспевающий в области LLM. Сонет Claude 3.5 от Anthropic является тому подтверждением.
Сэмюэл Дэниел
Обновление от 27 июня 2024 г.