Инструменты ИИ испытывают нехватку обучающих данных
Вы можете подумать, что Интернет и его данные — это бесконечный ресурс, но правда в том, что у инструментов ИИ заканчиваются данные для эксплуатации. Однако это не остановит разработку ИИ — все еще доступно множество данных для обучения систем ИИ.
1. В сети постоянно появляются новые данные.
Короче говоря, исследовательский институт искусственного интеллекта Epoch утверждает, что высококачественные данные, на основе которых обучается ИИ, могут закончиться к 2026 году.
Ключевое здесь — «может». Количество данных, добавляемых в Интернет, увеличивается с каждым годом, так что до 2026 года может произойти что-то радикальное. Тем не менее, это разумная оценка — в любом случае, в какой-то момент у систем ИИ закончатся хорошие данные.
Однако имейте в виду, что каждый год в сеть добавляется около 147 зеттабайт данных. Один зеттабайт эквивалентен 1 000 000 000 000 000 000 000 бит данных. Реалистично говоря, это более 30 миллиардов фильмов в формате 4K. Это невероятный объем информации, который должен обработать ИИ.
Однако ИИ потребляет данные быстрее, чем человечество может их производить…
2. ИИ может забывать некачественные данные
Конечно, не все из этих 147 зеттабайт данных — хорошие данные. Предполагается, что к 2050 году ИИ также будет использовать некачественные языковые данные.
Reuters сообщает, что Photobucket, некогда один из крупнейших в мире фоторепозиториев, ведет переговоры о лицензировании своей обширной библиотеки для компаний, обучающих ИИ. Данные изображений обучали такие системы, как DALL-E и Midjourney, но даже они могут закончиться к 2060 году. Здесь есть более серьезная проблема: Photobucket содержит изображения с сетевых платформ общества 2000-х годов, таких как Myspace, то есть они не соответствовали таким же высоким стандартам, как современная фотография. Это приводит к низкому качеству данных.
Photobucket — не единичный случай. В феврале 2024 года Google достиг соглашения с Reddit, разрешив поисковому гиганту использовать пользовательские данные социальной медиа-платформы для обучения ИИ. Другие социальные медиа-платформы также предоставляют пользовательские данные для обучения ИИ; некоторые используют их для обучения внутренних моделей ИИ, например, Llama от Meta.
Однако, хотя некоторую информацию можно почерпнуть из некачественных данных, Microsoft, как говорят, разрабатывает способ для ИИ выборочно «отбрасывать» данные. По сути, это будет использоваться для решения многих проблем с интеллектуальной собственностью, но это также означает, что инструменты могут забыть то, чему они научились из некачественных наборов данных.
Мы можем снабжать ИИ большим количеством данных, не проявляя при этом излишней избирательности; затем эти системы ИИ могут выбирать, что наиболее полезно для изучения.
3. Распознавание голоса открывает данные видео и подкастов
Данные, которые до сих пор передавались инструментам ИИ, в основном состояли из текста и, в меньшей степени, изображений. Это обязательно изменится, поскольку программное обеспечение для распознавания голоса будет означать, что бесчисленные видео и подкасты, доступные сегодня, также могут использоваться для обучения ИИ.
В частности, OpenAI разработала искусственную нейронную сеть с открытым исходным кодом для автоматического распознавания речи (ASR) Whisper, используя 680 000 часов многоязычных и многозадачных данных. Затем OpenAI ввела более миллиона часов информации из видео YouTube в свою большую языковую модель GPT-4.
Это идеальный вариант для других систем ИИ, которые используют распознавание голоса для расшифровки видео и аудио из нескольких источников и пропускания этих данных через свои модели ИИ.
По данным Statista, на YouTube каждую минуту загружается более 500 часов видео, и эта цифра остается довольно стабильной с 2019 года. И это не говоря уже о других видео- и аудиоплатформах, таких как Dailymotion и Podbean. Если ИИ сможет обратить внимание на новые наборы данных, подобные этому, останется огромное количество информации для добычи.
4. ИИ в значительной степени застрял на английском языке
OpenAI обучила модель, используя 117 000 часов аудиоданных на неанглийском языке. Это особенно интересно, поскольку многие системы ИИ обучались в основном на английском языке или рассматривали другие культуры через западную призму.
По своей природе большинство инструментов ограничены культурой их создателей.
Возьмем, к примеру, ChatGPT. Вскоре после его выпуска в 2022 году Джилл Уокер Реттберг, профессор цифровой культуры в Университете Бергена, Норвегия, опробовала ChatGPT и пришла к следующему выводу:
«ChatGPT не знает многого о норвежской культуре. Или, скорее, все, что он знает о норвежской культуре, вероятно, было получено в основном из английских источников… ChatGPT четко соответствует ценностям и законам США. Во многих случаях эти ценности близки норвежским и европейским ценностям, но, возможно, это не всегда так».
Затем ИИ может развиваться по мере того, как с ними взаимодействует все больше людей из разных стран, или когда для обучения таких систем используются более разнообразные языки и культуры.
В настоящее время многие ИИ ограничены одной библиотекой; они могли бы процветать, если бы им дали ключи от библиотек по всему миру.
5. Издатели могут помочь в разработке ИИ
IP, безусловно, является большой проблемой, но некоторые издатели могут помочь в разработке ИИ, заключив лицензионные соглашения. Это означает предоставление инструментам высококачественных, т. е. надежных, данных из книг вместо низкокачественной информации, собранной из онлайн-источников.
На самом деле, Meta, владелец Facebook, Instagram и WhatsApp, как говорят, рассматривал возможность покупки Simon & Schuster, одного из издателей «большой пятерки». Идея заключается в том, чтобы использовать материалы, опубликованные компанией, для обучения собственного искусственного интеллекта Meta. Сделка в конечном итоге сорвалась, возможно, из-за этики компании, обрабатывающей IP без предварительного согласия авторов.
Другой вариант, который явно рассматривался, — это покупка индивидуальных лицензионных прав на новые названия. Это вызовет большую обеспокоенность у создателей, но это все равно будет интересным способом развития инструментов ИИ, если данные могут быть исчерпаны.
6. Агрегированные данные — это будущее
Все остальные решения пока ограничены, но есть один вариант, который может помочь ИИ процветать в будущем: Синтетические данные. И это вполне реальная возможность.
Так что же такое агрегированные данные? В этом смысле это данные, генерируемые ИИ; так же, как люди генерируют данные, этот подход позволит искусственному интеллекту генерировать данные для целей обучения.
На самом деле, ИИ может создать убедительное видео-дипфейк. Это видео-дипфейк может быть передано обратно в ИИ, чтобы он учился на том, что по сути является воображаемым сценарием. В конце концов, это основной способ обучения людей: мы читаем или смотрим что-то, чтобы понять мир вокруг нас.
ИИ мог использовать агрегированную информацию. Дипфейки распространяли ложную информацию в сети, поэтому, когда системы ИИ сканируют Интернет, поддельный контент неизбежен. Он может повредить или ограничить ИИ, усиливая и распространяя ошибки, допущенные этими инструментами.
ИИ — спорный вопрос. Помимо множества недостатков, у него все еще есть преимущества. Например, аудиторско-консалтинговая сеть PwC показывает, что ИИ может принести мировой экономике до 15,7 триллионов долларов к 2030 году.
Более того, ИИ уже используется во всем мире. Вы, вероятно, уже используете его в той или иной форме сегодня, возможно, даже не осознавая этого. Теперь важно обучить его на качественных, надежных данных, чтобы мы могли использовать его должным образом.
Карим Винтерс
Обновление 05 июля 2024 г.