ИИ — это машина для плагиата. Claude выдал 96% "Гарри Поттера" слово в слово, лишив IT-гигантов последнего шанса оправдаться

ИИ — это машина для плагиата. Claude выдал 96% "Гарри Поттера" слово в слово, лишив IT-гигантов последнего шанса оправдаться

Модели "зубрят" книги целиком, а не учатся на них. И это может стоит разработчикам миллионы.

image

Машинное обучение устроено так, что разработчики почти никогда не раскрывают, на каких именно данных обучали модель. Но вопрос о том, что внутри модели осело и можно ли это вытащить правильным запросом, давно перестал быть чисто академическим: тут и деньги, и суды, и этика, и приватность.

На этом фоне у крупных игроков, включая Anthropic, Google, OpenAI и Nvidia, накопилось уже больше 60 исков, связанных с подозрениями в использовании защищённого авторским правом контента при обучении без разрешения правообладателей. Компании вложили в эту гонку сотни миллиардов долларов, исходя из того, что их подход к данным законен.

Пока суды в США пытаются понять, где проходит граница «добросовестного использования» (fair use), один из ключевых вопросов звучит так: не запомнила ли модель фрагменты обучающих материалов буквально. То есть не закодировала ли она исходный текст в своих весах (параметрах, которые формируются во время обучения и определяют ответы) и не способна ли потом воспроизвести его по запросу. Для защиты fair use важна, среди прочего, преобразующая природа использования: добавляет ли система что-то новое, меняет ли характер оригинального произведения. И этот аргумент заметно слабее, если модель просто возвращает защищённый текст почти дословно и в большом объёме.

При этом сам факт того, что модель может что-то воспроизвести целиком или частично, ещё не делает правовую оценку автоматически однозначной. Об этом, в частности, писал исследователь Николас Карлини: ситуация сложнее, чем «выдал текст значит виноват», и юристы смотрят на набор факторов.

Чтобы снизить риск претензий, коммерческие разработчики обычно ставят «ограничители» (guardrails) — фильтры и механизмы, которые должны не давать модели выдавать большие куски защищённого контента, будь то текст, изображения или аудио.

С моделями с открытыми весами давно стало ясно, что запоминание бывает очень значительным, и при правильной формулировке запросов можно вытянуть из них большие фрагменты исходных данных.

Теперь группа исследователей из Стэнфорда и Йеля заявила, что похожая история есть и у коммерческих продакшн-моделей, несмотря на фильтры и закрытость обучающих корпусов. Они пишут, что сумели извлечь крупные фрагменты запомненных книг из четырёх систем: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro и Grok 3.

Авторы подчеркивают: это не было заранее очевидно. Коммерческие модели стараются не выдавать защищённые тексты, а состав датасетов не раскрывается. Тем не менее, по их словам, «из всех четырёх производственных LLM можно извлечь большие части запомненного контента», хотя успешность сильно зависит от условий эксперимента.

Разница между моделями оказалась заметной. Для некоторых случаев требовался джейлбрейк — специальные запросы, рассчитанные на обход ограничителей. Самый результативный пример - Claude 3.7 Sonnet: после джейлбрейка исследователи смогли извлечь почти весь текст книги "Гарри Поттер и философский камень" — с показателем воспроизведения 95,8%. При этом Gemini 2.5 Pro и Grok 3, по их данным, выдали большие куски той же книги и без джейлбрейка: 76,8% и 70,3% соответственно. GPT-4.1 оказался самым упрямым — около 4% текста. Отдельно оговаривается, что эти проценты не обязательно означают максимум возможного.

О своих выводах исследователи уведомили Anthropic, Google DeepMind, OpenAI и xAI в рамках ответственного раскрытия. Все компании, кроме xAI, подтвердили получение сообщения. xAI на контакт не вышла. Отдельно авторы отмечают, что вокруг этой компании в тот же период уже шли публичные споры из-за поведения модели Grok, которую критиковали за способность по запросу генерировать сексуализированные изображения без согласия изображаемых лиц.

Авторы также пишут, что по истечении 90-дневного окна ответственного раскрытия (9 декабря 2025 года) их метод всё ещё работал как минимум на части протестированных систем. Какой именно провайдер имеется в виду, они не уточняют.

Есть и важная деталь по Claude 3.7 Sonnet: Anthropic убрала эту модель из доступных вариантов для клиентов 29 ноября 2025 года. Исследователи подчеркивают, что это не обязательно реакция на их работу — модель могли просто заменить более новой.

Юридические выводы они делать не берутся и оставляют это специалистам, но аккуратно отмечают: их результаты могут оказаться полезными в текущих спорах о том, как оценивать память LLM и насколько она совместима с аргументом про fair use.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.