Stack Overflow не намерен просто так раздавать свои данные. Разрабатывающие ИИ техногиганты заплатят за всё!

Stack Overflow не намерен просто так раздавать свои данные. Разрабатывающие ИИ техногиганты заплатят за всё!

Всё больше компаний не хотят мириться с тем, что нейросети бесплатно используют их наборы данных для обучения.

image

OpenAI, Google и прочие компании, ответственные за крупномасштабные проекты в сфере искусственного интеллекта, ничего не заплатили за большую часть своих обучающих данных, открыто черпая их из Интернета. Многие компании видят в этом несправедливость и планируют бороться за то, чтобы получать отчисления за каждую строчку полезных данных, которой воспользовалась та или иная нейросеть в процессе своего обучения.

Так, популярный интернет-форум для помощи программистам Stack Overflow скоро планирует начать взимать плату с крупных разработчиков искусственного интеллекта за доступ к 50 миллионам вопросов и ответов со своего сервиса. Об этом недавно заявил генеральный директор Stack Overflow, планируя внедрить нововведение уже к середине этого года.

Объявление Stack Overflow последовало за аналогичным от Reddit. Популярная за рубежом социальная сеть с морем пользовательского контента заявила, что с июня тоже начнет взимать плату с некоторых разработчиков искусственного интеллекта за доступ к собственным материалам.

В целом, все эти требования не выглядят из ряда вон выходящими, ведь без того же Stack Overflow и прочих сайтов по программированию вряд ли бы тот же ChatGPT вообще научился писать код, да ещё так хорошо, что любой программист позавидует. Кажется вполне справедливым, что разработчики технологий искусственного интеллекта должны заранее договариваться о любом использовании подобных платформ для обучения и прочих целей, а также уважать право площадок на компенсацию за использование данных.

С другой стороны, тот же ChatGPT доступен для всех пользователей абсолютно бесплатно, и едва ли можно сказать, что он коммерциализирует данные, принадлежащие, по сути, даже не самим сервисам и платформам, а конкретным интернет-пользователям, которые самостоятельно отвечали в различных профильных темах на конкретные вопросы других пользователей. Однако планирует ли Stack Overflow делиться отчислениями за обучение ИИ с теми же программистами, данные которых сейчас используется нейросетями? Маловероятно. Именно поэтому ситуация достаточно скользкая и неоднозначная.

«Платформы сообщества, которые подпитывают LLM, безусловно, должны получать компенсацию за свой вклад. Чтобы такие компании, как мы, могли реинвестировать эти средства обратно в наши сообщества, способствуя их процветанию», — заявил генеральный директор Stack Overflow.

Руководство сервиса описало потенциальный дополнительный доход как жизненно важный для обеспечения дальнейшего развития Stack Overflow и поддержки высококачественной актуальной информации на площадке. Директор компании заявил, что это также поможет будущим чат-ботам, которым необходимо обучаться на новых данных, и добавил что надлежащее лицензирование поможет только ускорить разработку высококачественных языковых моделей.

Только вот необходимость платить за данные, которые разработчики ранее получали бесплатно, может продлить и без того неясные сроки получения прибыли от их новых технологий. Ни Stack Overflow, ни Reddit пока не публиковали информацию о ценах на свои данные. «Мы работаем над этим прямо сейчас, — говорит представитель Reddit Тим Ратшмидт».

Тем не менее, оба сервиса продолжат бесплатно лицензировать данные некоторым людям и компаниям. Руководство Stack Overflow заявило, что потребует оплаты только от компаний, разрабатывающих LLM для крупных коммерческих целей. «Когда компании начинают взимать плату за ИИ-продукты, созданные при помощи общедоступных сайтов, развитых сообществом, вот это действительно выглядит как нечестное использование», — говорит директор Stack Overflow.

Так или иначе, разработчики искусственного интеллекта пока что не находятся под сильным давлением, чтобы платить за данные для обучения своих нейросетей. Некоторые другие компании с большими объемами академических текстов ранее уже заявляли, что не планируют начинать взимать плату за свои API или аналогичные порталы данных, вне зависимости от того, как потом будут использоваться эти данные.

Запущенный в 2008 году Stack Overflow сейчас генерирует примерно равные части своего дохода от продажи рекламы и от подписки на сервис более чем 1200 организаций для внутреннего использования. Продажи компании выросли на 33 процента за последние шесть месяцев, поэтому, можно сказать, что с доходами компании всё неплохо и без отчислений от Google, OpenAI и прочих организаций.

Посмотрим, во что данная ситуация выльется в будущем, и к какой договорённости по итогу придут крупные IT-компании.

Квантовый кот Шрёдингера ищет хозяина!

Живой, мертвый или в суперпозиции? Узнайте в нашем канале

Откройте коробку любопытства — подпишитесь