ИИ требует жертв: как компании нарушают авторские права для обучения своих моделей

ИИ требует жертв: как компании нарушают авторские права для обучения своих моделей

От книг до видео на YouTube – техногиганты не упустят шанса получить превосходство в бесконечной ИИ-гонке.

image

На протяжении последней недели медиа-платформы, такие как The Wall Street Journal и The New York Times, активно обсуждали тему сбора качественных данных для обучения искусственного интеллекта. Отчёты указывают на то, что ведущие компании в области ИИ, включая OpenAI и Google, постоянно сталкиваются с юридическими и этическими проблемами при попытке расширить свои информационные базы.

Как сообщается, OpenAI, компания, стоящая за разработкой модели GPT-4, использовала более миллиона часов видео с YouTube для обучения своей аудио-транскрибационной модели Whisper, несмотря на сомнения в законности таких действий. Грег Брокман, президент OpenAI, лично участвовал в сборе данных, что вызвало дискуссии о границах компании в «добросовестном использовании» информации, защищённой авторским правом.

В ответ на обвинения представители OpenAI и Google подчеркнули, что их компании используют разнообразные источники данных, в том числе публично доступные, а также исследуют возможность создания синтетических данных. Тем не менее, Google также признала использование контента с YouTube для обучения своих моделей, что, по словам представителей компании, полностью соответствует договорённостям с создателями контента на платформе.

Особый интерес вызывает изменение политики конфиденциальности Google, которое, как предполагается, было направлено на расширение возможностей использования потребительских данных.

Компания Meta * также столкнулась с проблемами недостатка данных для обучения своих ИИ-моделей, и одно время даже всерьёз обдумывала варианты приобретения лицензий на книги или даже покупки какого-либо крупного издательства для решения проблем с авторскими правами.

В контексте этих событий специалисты обсуждают потенциальные решения проблемы исчерпания данных для обучения ИИ, включая создание синтетических данных и куррикулярное обучение, подразумевающее упорядоченную подачу моделям высококачественных данных в надежде, что они смогут использовать «более разумные связи между концепциями», используя гораздо меньше информации.

Однако путь использования данных без разрешения владельцев остаётся спорным и может привести к серьёзным юридическим последствиям, учитывая многочисленные судебные иски, поданные только за прошлый год.

Эти развития подчёркивают нарастающие вызовы и юридические риски, с которыми сталкиваются ведущие технологические компании в погоне за совершенствованием искусственного интеллекта.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Цифровые следы - ваша слабость, и хакеры это знают.

Подпишитесь и узнайте, как их замести!