Новый агент вытащил 3000 фрагментов «Гарри Поттера» из недр Claude.

В исследовательской среде растёт интерес к тому, насколько полно современные языковые модели запоминают данные, использованные при обучении. На фоне продолжающихся споров об авторских правах группа специалистов представила методику, способную значительно точнее выявлять фрагменты исходных текстов, которые могли быть сохранены в недрах крупных моделей.
Авторы отмечают, что стремление разработчиков усиливать фильтры и правила отказов приводит к парадоксальной ситуации: модели лучше избегают цитирования даже общедоступных материалов, что усложняет любые попытки установить фактический объём запоминания. По словам ученых, понимание механики сохранения текста важно вне зависимости от того, относится ли источник к общественному достоянию или защищён авторским правом. При этом именно защищённые произведения привлекают больше внимания, поскольку становятся основой юридических претензий.
RECAP создавался как инструмент, который позволит объективнее оценить, какие фрагменты реально хранятся в модели. В основе лежит агентный цикл, в котором модель получает задание извлечь определённый текст, а затем дополнительный агент анализирует результат и формулирует дальнейшие указания. Такой итеративный процесс учитывает, что первая попытка часто оказывается неполной. В систему встроен компонент, подбирающий переформулированные запросы, когда модель отказывается выдавать ответ.
Авторы работы отметили, что важным моментом стало исключение прямых вставок из целевого произведения в подсказках корректирующего агента, чтобы результаты не искажались. Подход опирается на разработанный авторами набор тестов EchoTrace, где качество извлечения оценивается метрикой ROUGE-L. На этих данных RECAP набрал 0,46, что превышает итог лучшего предыдущего метода на 78%.
Авторы подчёркивают, что разработка требует значительных ресурсов, однако даёт заметно более точные результаты. В одном из примеров RECAP сумел получить около 3000 фрагментов из первой книги «Гарри Поттер» при взаимодействии с моделью Claude-3.7. Предыдущий лучший подход находил всего 75 подобных фрагментов. Интерес к теме усиливается и на фоне недавних соглашений между разработчиками ИИ и авторами, включая выплату Anthropic не менее 1,5 млрд долларов в рамках урегулирования претензий о нарушении авторских прав.