Nvidia снова обвиняют в сборе данных ИИ из Netflix и YouTube
Согласно отчету, привлекшему большое внимание со стороны 404 Media.
Этот вывод был сделан после того, как 404 Media собрала информацию, утекшую из внутренних разговоров Nvidia в Slack, электронных писем и внутренних документов. Nvidia помогла себе получить «визуальный опыт, эквивалентный целой жизни обучающих данных каждый день», — сказал Минг-Ю Лю, вице-президент по исследованиям Nvidia и руководитель проекта Cosmos. признался в электронном письме в мае. Этот проект Cosmos направлен на создание большой базовой языковой модели для Nvidia, аналогичной проектам Google Gemini 1.5, OpenAI GPT-4 или Llama 3.1. Мета.
Анонимные бывшие сотрудники Nvidia рассказали 404 Media, что их попросили извлечь видеоконтент из Netflix, YouTube и других крупных онлайн-источников, превратив его в обучающие данные для использования в продуктах на базе искусственного интеллекта. Различия в компании.
Для этого проект Cosmos, как говорят, использовал загрузчик видео с открытым исходным кодом и использовал машинное обучение для обработки IP, избежав таким образом блокировок YouTube. Согласно просочившейся информации, менеджеры проекта обсуждали использование до 30 виртуальных машин, работающих на Amazon Web Services, для загрузки эквивалента около 80 лет видео, а также бесчисленного количества отдельных клипов каждый день. Когда эти сотрудники усомнились в законности проекта Cosmos, руководство компании заверило их, что они получили разрешение от своих партнеров на использование контента.
Со своей стороны, Nvidia утверждает, что никаких нарушений не было». Мы уважаем права всех создателей контента и считаем, что наши модели и исследовательские работы полностью соответствуют букве и духу закона об авторском праве. ” говорится в заявлении. Сотрудник Nvidia сообщил 404 Media по электронной почте. ” Закон об авторском праве защищает отдельные выражения, но не факты, идеи, данные или информацию. Любой имеет право свободно узнавать о фактах, идеях, данных или информации из другого источника и использовать их для создания своих собственных выражений. Добросовестное использование также защищает возможность использовать произведение в преобразовательных целях, таких как обучение модели ИИ .
Это не первый случай, когда Nvidia (не говоря уже о большинстве других компаний в области ИИ) принимает подход «плати вперед» при сборе своих данных для обучения ИИ. В июле Nvidia также была вызвана в другом отчете за незаконный сбор защищенных авторским правом видео в качестве данных для обучения ИИ.
На выставке CES 2024 компания Nvidia вызвала споры, дав неопределенные ответы о том, как она тренирует свой новый движок генеративного ИИ для игр. В ответ компания подтвердила, что ее инструменты «коммерчески безопасны». Но какова правда? Подождем и увидим!
Дэвид Пак
Обновление 10 августа 2024 г.