Что такое модель больших действий (LAM)?
Рост числа чат-ботов Generative AI популяризировал термин «большое языковое моделирование», лежащую в основе технологию AI, которая работает за кулисами. Большие языковые модели (LLM) выдают выходные данные на основе набора предсказанных языков в ответ на ввод пользователя, создавая впечатление, что AI способен мыслить самостоятельно.
Но LLM — не единственная замечательная модель; модели больших действий (LAM) могут стать следующим большим достижением в области ИИ.
Что такое модель больших действий (LAM)?
LAM — это система искусственного интеллекта, способная понимать человеческий ввод и предпринимать соответствующие действия. Это немного другой подход, чем системы ИИ, которые сосредоточены исключительно на генерации ответов. Термин «модель большого действия» был впервые введен Rabbit Inc., разработчиком устройства rabbit r1. В видеоролике запуска rabbit r1 компании LAM — это новая модель платформы, которая помогает перевести ИИ от речи к действию.
LAM обучается на большом наборе данных действий пользователя; поэтому они обучаются, имитируя действия человека или с помощью демонстраций. С помощью демонстраций LAM может понимать и перемещаться по пользовательскому интерфейсу различных веб-сайтов или мобильных приложений и выполнять определенные действия на основе инструкций. По словам Rabbit, LAM может достичь этого, даже если интерфейс немного изменен.
Вы можете думать о LAM как о расширении существующих возможностей LLM. В то время как LLM генерирует текстовый или медиа-вывод на основе пользовательского ввода, предсказывая следующее слово или токен (вы задаете вопрос, а LLM предоставляет текстовый или медиа-вывод), LAM идет дальше, добавляя возможность выполнять сложные действия от вашего имени.
Что может сделать ЛАМ?
LAM фокусируется на выполнении сложных действий от вашего имени. Однако, важно отметить способность выполнять сложные действия. Это делает LAM более полезными для выполнения сложных задач, но это не значит, что они не могут выполнять простые задачи.
Теоретически это означает, что вы можете попросить LAM сделать что-то от вашего имени, например заказать кофе в ближайшем Starbucks, поймать машину и даже забронировать номер в отеле. Поэтому это отличается от выполнения простых задач, например, попросить Google Assistant, Siri или Alexa включить телевизор или свет в гостиной.
По сути, согласно видению Rabbit Inc., LAM может получить доступ к соответствующему веб-сайту или приложению и перемещаться по его интерфейсу, чтобы выполнить действие, например, забронировать поездку или отменить ее, если вы передумали.
LAM придет на смену LLM, но они еще не готовы
Концепция LAM очень интересна, возможно, даже интереснее, чем LLM. LAM станет будущим после Generative AI, позволяя нам решать скучные задачи и сосредотачиваться на других интересных занятиях. Однако, как бы захватывающе это ни звучало, LAM пока не готов.
Первый коммерческий продукт, который обещал использовать LAM (кролик r1), не полностью выполнил свое маркетинговое обещание выполнять действия от имени пользователей. Устройство провалилось настолько эффектно в своей основе, что многие отзывы из первых рук сочли его довольно бесполезным.
Хуже того, расследование, проведенное YouTuber Coffeezilla в сотрудничестве с избранной группой инженеров-программистов, имеющих доступ к части кодовой базы r1, обнаружило, что Rabbit использовал скрипты Playwright для выполнения действий вместо LAM. Таким образом, вместо устройства, запускающего уникальную модель ИИ, оно на самом деле просто запускает ряд операторов типа If > Then; Это сильно отличается от того, что обещал LAM.
Единственное, что можно вытянуть из устройства r1 Кролика, это зрение. Однако предстоит еще многое сделать, так что не стоит пока ликовать.
Изабелла Хамфри
Обновление 13 июля 2024 г.