Каким будет будущее кинопроизводства с использованием искусственного интеллекта?

Реалистичная продукция Соры в высоком разрешении настолько впечатляет, что некоторые даже предсказывают, что Голливуд скоро исчезнет. Новейшие модели Runway могут создавать короткометражные фильмы, которые могут конкурировать с фильмами, снятыми анимационными студиями-блокбастерами.

Midjourney и Stability AI — две самые популярные модели преобразования текста в изображение, которые в настоящее время также работают над видео.

Несколько компаний стремятся получить прибыль от этих открытий. «Я постоянно кричу: «О боже мой, это потрясающе!», когда экспериментирую с этими инструментами», — говорит Гэри Липковиц, генеральный директор Vyond, компании, которая предоставляет платформу для агрегирования коротких анимационных видеороликов. . «Но как вы можете использовать это на работе?».

Каким бы ни был ответ, он, скорее всего, повлияет на многие предприятия и изменит роли многих профессионалов, от аниматоров до рекламщиков. Также растут опасения по поводу неправильного использования. Возможность создавать фейковые видеоролики наводнит Интернет вредоносным контентом.

Вот четыре вещи, над которыми стоит задуматься о направлении кинопроизводства с использованием ИИ.

1. Сора – это только начало

Sora от OpenAI в настоящее время лидирует в создании видео. Но другие компании работают над тем, чтобы наверстать упущенное. В ближайшие несколько месяцев рынок станет чрезвычайно перенаселенным, поскольку все больше и больше компаний совершенствуют свои технологии и начинают выпускать продукты, конкурирующие с Sora.

Британский стартап Haiper заявил о себе в этом месяце. Он был основан в 2021 году бывшими исследователями Google DeepMind и TikTok, которые хотели исследовать технологию, называемую полями нейронного излучения, или NeRF, которая может преобразовывать 2D-изображения в виртуальные 3D-среды. Они подумали, что инструмент, превращающий снимки в сцены, в которые пользователи смогут попасть, будет полезен для создания видеоигр.

Но шесть месяцев назад Haiper перешла от виртуальных сред к видеоклипам, адаптируя свою технологию к тому, что, по мнению генерального директора Ишу Мяо, станет даже более крупным рынком, чем рынок игр. Мяо сказала: «Мы поняли, что создавать видео — это весело. Спрос на него будет очень высоким».

«Air Head» — короткометражный фильм, снятый Shy Kids, поп-группой и кинематографическим коллективом из Торонто, при помощи Соры.

Как и Sora от OpenAI, технология генеративного видео Haiper использует модель диффузии для управления изображениями и преобразователь (компонент в больших языковых моделях, таких как GPT-4, который помогает им очень хорошо предсказывать, что произойдет). далее), чтобы контролировать согласованность между кадрами. «Видео — это последовательность данных, а механизм преобразования — лучшая модель для изучения последовательностей данных», — сказал Мяо.

Согласованность — это серьезная проблема для генеративного видео и основная причина, по которой существующие инструменты генерируют только несколько секунд видео за раз. Трансформер для создания видео позволяет улучшить качество и продолжительность клипов. Минус в том, что трансформер что-то создает или вызывает галлюцинации. В тексте это не всегда ясно. На видео он может создать человека с несколькими головами. Для поддержания работы трансформатора требуется огромный запас обучающих данных.

Вот почему компания Irreverent Labs, основанная бывшими исследователями Microsoft, использует другой подход. Как и Haiper, Irreverent Labs начала создавать среды для игр, а затем перешла к созданию полноценного видео. Но компания не хочет следовать за толпой, копируя то, что делают OpenAI и другие компании. «Потому что тогда это будет война с компьютерами, тотальная война с графическими процессорами», — сказал Дэвид Раскино, соучредитель и технический директор Irreverent. И победитель только один».

Вместо использования трансформатора технология Irreverent объединяет модель Diffusion с моделью, которая предсказывает, что будет в следующем кадре, на основе общей физики, например, как отскакивает мяч или как разбрызгивается вода. брызги на пол. Раскино рассказал, что этот метод снижает как затраты на обучение, так и количество галлюцинаций. По его словам, модель по-прежнему создает проблемы, но это физические искажения (например, прыгающий мяч не следует плавной кривой). К видео можно применить известные математические исправления после его создания.

Какой подход продлится, еще неизвестно. Мяо сравнил современные технологии с основными языковыми моделями. Пять лет назад революционная первая модель OpenAI удивила всех, поскольку она показала все возможные возможности. Но потребуется несколько лет, чтобы эта технология изменила правила игры. То же самое и с видео, Мяо сказала: «Мы все находимся у подножия горы».

2. Что люди будут делать с генеративными видео?

Видео — это среда Интернета. Ожидается, что YouTube, TikTok, кинохроника, реклама, генеративные видеоролики появятся везде, где есть видео.

Маркетинговая индустрия является одним из самых активных сторонников генеративных технологий. Согласно недавнему опросу, проведенному Adobe в США, две трети специалистов по маркетингу протестировали генеративный искусственный интеллект в работе, причем более половины заявили, что использовали эту технологию для создания изображений.

Далее генеративное видео. Некоторые маркетинговые компании сняли короткометражные фильмы, чтобы продемонстрировать потенциал технологии. Последний пример — 2,5-минутный «Сомма-Реквием» Майлза. Вы можете посмотреть кадры ниже в эксклюзивном выпуске MIT Technology Review.

«Сомма-Реквием» — короткометражный фильм, снятый лос-анджелесской продюсерской компанией Myles. Каждый кадр был создан с использованием модели Gen 2 от Runway. Затем клипы монтируются командой видеоредакторов Myles.

«Сомма-Реквием» изображает заснеженных солдат во время рождественского перемирия во время Первой мировой войны в 1914 году. Фильм состоит из десятков различных кадров, созданных с использованием генеративного видеомоделирования от Runway, затем сшитых вместе, цветокоррекции и музыки, добавленной к видео. редактор Myles. «Будущее рассказывания историй станет гибридным рабочим процессом», — сказал основатель и генеральный директор Джош Кан.

Кан выбрал обстановку военного времени, чтобы выразить свою точку зрения. Он отметил, что сериал Apple TV+ «Повелители воздуха» о группе пилотов времен Второй мировой войны обошелся в 250 миллионов долларов. Команда, создавшая документальный фильм Питера Джексона о Первой мировой войне «Они не состарятся», потратила четыре года на обработку и восстановление более 100 часов архивных фильмов. «Большинство кинематографистов могут только мечтать о возможности рассказать историю в этом жанре», — говорит Кан.

«Независимое кинопроизводство практически на грани смерти», — добавил он. «Я думаю, что это приведет к невероятному возрождению».

«Жанр ужасов — это то, где люди пробуют что-то новое, пробуют что-то новое, пока не терпят неудачу», — сказал Раскино. «Думаю, мы увидим блокбастер ужасов, созданный четырьмя людьми в каком-то подвале с помощью искусственного интеллекта».

Так сможет ли генеративное видео уничтожить Голливуд? На данный момент еще нет. Сцены в «Сомме-Реквиеме» — пустые леса, опустевшие военные лагеря — выглядят великолепно. Но у людей там по-прежнему деформированные пальцы и искаженные лица, характерные для продуктов искусственного интеллекта. Лучше всего видео получается на общих планах или на длительных крупных планах, которые создают жуткую атмосферу, но мало действия. Если бы «Сомма-Реквием» продолжалась дольше, она стала бы скучной.

Но фоновые кадры, которые появляются в художественных фильмах, обычно длятся всего несколько секунд, но на их съемку могут уйти часы. Раскино предполагает, что генеративные видеомодели вскоре можно будет использовать для создания чересстрочного видео по низкой цене. Это также можно сделать быстро на более поздних стадиях производства без необходимости повторных съемок.

Михал Пешучек, технический директор компании Gen Digital, гиганта кибербезопасности, стоящего за рядом антивирусных брендов, включая Norton и Avast, согласен. «Я думаю, именно в этом направлении развиваются технологии», — сказал он. «Мы увидим много разных моделей, каждая из которых прошла специальную подготовку в определенной области кинопроизводства. Это будут только инструменты, используемые талантливыми командами по производству видео.

Большой проблемой генеративного видео является отсутствие контроля пользователя над выводом. Создание неподвижных изображений может быть повреждено; Создание нескольких секунд видео еще более опасно.

Мяо сказала: «На данный момент это все еще очень интересно, у вас есть отличные моменты. Но сделать видео именно таким, каким хочется – очень сложная техническая задача. Каким-то образом мы находим способ создавать длинные, последовательные видеоролики, используя всего лишь одну подсказку».

Вот почему Липковиц из Vyond считает, что эта технология еще не готова для большинства корпоративных клиентов. По его словам, эти пользователи хотят большего контроля над внешним видом своих видео, чем те, которые им дают текущие инструменты.

Тысячи компаний по всему миру, включая примерно 65% компаний из списка Fortune 500, используют платформу Vyond для создания анимационных видеороликов для внутренних коммуникаций, обучения, маркетинга и многого другого. Vyond основан на ряде генеративных моделей, включая преобразование текста в изображение и преобразование текста в речь, но предоставляет простой интерфейс перетаскивания, который позволяет пользователям объединять видео вручную, сегмент за сегментом. one, вместо этого создайте полный видеоклип одним щелчком мыши.

«Запуск творческой модели — это все равно, что бросить кости», — говорит Липковиц. «Это маловероятно для большинства команд по производству видео, особенно в корпоративном секторе, где все должно быть идеальным до пикселя и соответствовать бренду», — говорит он. «Видео может оказаться очень плохим — например, персонажи со слишком большим количеством пальцев или логотипы компаний неправильного цвета — к сожалению, именно так работает ген ИИ».

Решение — больше данных, больше тренировок и повторений. «Мне бы хотелось, чтобы для любой задачи существовал какой-то алгоритм», — сказал Мяо. «Но нет, все дело в том, чтобы узнать больше».

3. Дезинформация не нова, но дипфейк усугубит ситуацию

Дезинформация в Интернете уже много лет подрывает наше доверие к средствам массовой информации, институтам и друг другу.

«Мы заменяем доверие недоверием, растерянностью, страхом и ненавистью», — сказал Печучек. Общество без фундамента истины выродится».

Печучек особенно обеспокоен злонамеренным использованием дипфейков на выборах. Например, на прошлогодних выборах в Словакии злоумышленники поделились фейковым видео, на котором ведущий кандидат обсуждает план манипулирования избирателями. Видео низкого качества и его легко определить как дипфейк. Но Пехоучек считает, что этого будет достаточно, чтобы отменить результаты в пользу другого кандидата.

«Adventurous Puppies» — короткий клип, созданный OpenAI с использованием Sora.

Джон Виссинджер, руководитель отдела стратегии и инноваций Blackbird AI, компании, которая отслеживает и управляет распространением дезинформации в Интернете, считает, что фейковые видеоролики наиболее убедительны, когда они сочетают в себе реальные и фальшивые кадры. фальшивый. Возьмите два видео, на которых президент Джо Байден идет по сцене. В одном месте он споткнулся, в другом нет. Кто скажет, что реально?

Говорит Виссинджер: «Допустим, событие действительно произошло, но то, как оно было представлено мне, было несколько иным. Это может повлиять на мою эмоциональную реакцию на это». Как отметил Пешучек, фейковое видео даже не обязательно должно быть великолепным, чтобы произвести впечатление. По словам Виссинджера, фейковое видео с плохими намерениями, которое соответствует существующим предубеждениям, принесет больше вреда, чем ненадлежащим образом отполированный продукт.

Вот почему Blackbird уделяет особое внимание тому, кто и с кем чем делится. В некотором смысле, правильное или неправильное что-то менее важно, чем то, откуда оно исходит и как оно распространяется, сказал Виссинджер. Его компания отслеживает низкотехнологичную дезинформацию, например, публикации в социальных сетях, в которых показаны реальные изображения вне контекста. По его словам, генерирующие технологии усугубляют ситуацию, добавляя, что люди, преднамеренно или нет, представляющие себя в заблуждении, не являются чем-то новым.

Распространение и продвижение ложной информации в социальных сетях запутает ситуацию. Просто знайте, что существует множество фейковых СМИ, которые сеют семена сомнения в недобросовестных дискуссиях. «Вы видите, что скоро мы не сможем отличить то, что создано ИИ, от того, что реально», — сказал Виссинджер.

4. Мы сталкиваемся с новой онлайн-реальностью

Фейковые видеоролики скоро появятся повсюду: от кампаний по дезинформации до рекламных роликов и голливудских блокбастеров. Так что же мы можем сделать, чтобы выяснить, что реально, а что — всего лишь воображение? Есть много решений, но ни одно из них не является по-настоящему радикальным.

Технологическая индустрия решает эту проблему. Большинство генеративных инструментов пытаются обеспечить соблюдение определенных условий использования, например, запретить людям создавать видеоролики с участием общественных деятелей. Однако есть способы обойти эти фильтры, а версии инструмента с открытым исходным кодом могут иметь более простые политики.

Компании также разрабатывают стандарты для нанесения водяных знаков на носители, созданные ИИ, и инструменты для их обнаружения. Но не все инструменты добавляют водяные знаки, и водяные знаки можно удалить из метаданных видео. Надежных средств обнаружения не существует. Даже когда такие инструменты работают, они становятся частью игры в кошки-мышки, пытаясь идти в ногу с развитием моделей, для которых они разработаны.

«Спагетти едят Уилла Смита» — короткометражный фильм, созданный OpenAI с использованием Sora.

Онлайн-платформы, такие как X и Facebook, часто получают плохие отзывы о цензуре. И нам не следует ожидать, что эти платформы улучшатся, когда проблема станет более сложной. Раньше Мяо работал в TikTok над созданием инструмента цензуры для обнаружения загруженных видео, нарушающих условия использования TikTok. Даже Мяо опасается того, что вот-вот произойдет: «Там реальная опасность. Не верьте всему, что видите на своем ноутбуке».

Blackbird разработала инструмент под названием Compass, который позволяет проверять подлинность статей и публикаций в социальных сетях. Вставьте ссылку в инструмент, и большая языковая модель создаст демо-версию, взятую из надежных онлайн-источников (они всегда открыты для просмотра, говорит Виссинджер), которые содержат некоторые языковые данные. сцена для связанного документа. Результаты очень похожи на заметки сообщества, которые иногда прикрепляются к спорным публикациям на таких сайтах, как X, Facebook и Instagram.

Хотя многие люди ссылаются на сайт проверки фактов, многие другие могут не знать о существовании таких инструментов или не доверять им. Дезинформация также имеет тенденцию распространяться дальше, чем любая последующая коррекция.

Печучек сказал, что технологическим компаниям необходимо расширять свое программное обеспечение, чтобы обеспечить большую конкуренцию в вопросах безопасности и доверия. Это также позволит компаниям, занимающимся кибербезопасностью, разрабатывать стороннее программное обеспечение для мониторинга этой технологии. Именно это произошло 30 лет назад, когда у Windows возникли проблемы с вредоносным ПО, сказал он: «Microsoft позволила антивирусным компаниям вмешаться и помочь защитить Windows». В результате онлайн-мир становится более безопасным».

Но Печучек не столь оптимистичен. «Разработчикам технологий необходимо создавать свои инструменты, уделяя первостепенное внимание безопасности», — сказал он. Но больше людей думают о том, как сделать эту технологию более мощной, чем о том, как сделать ее более безопасной».

Видео создано OpenAI с использованием Sora.

В технологической индустрии есть распространенный фаталистический рефрен: «Грядут перемены, смиритесь с ними». «Я не думаю, что технологические компании смогут взять на себя всю ответственность», — сказал Раскино. В конце концов, лучшая защита от любой технологии – это хорошее образование для всех. Никаких ярлыков нет».

Мяо соглашается: «Мы неизбежно широко внедрим генеративную технологию. Но это также и ответственность всего общества. Нам нужно обучать людей».

Он добавил: «Технологии будут двигаться вперед, и нам нужно подготовиться к этим изменениям». «Мы должны напомнить нашим родителям и друзьям, что то, что они видят на экране, может быть нереальным. Особенно это касается старшего поколения». «Наши родители должны осознавать эту опасность. Я думаю, что все должны работать вместе».

Нам нужно быстро работать вместе. Когда месяц назад появился Sora, мир технологий был ошеломлен быстрым ростом видео. Но подавляющее большинство людей даже не подозревают о существовании такого типа технологий, сказал Виссинджер: «Они определенно не понимают, какую тенденцию мы преследуем». Я думаю, что это захватит мир штурмом».