Миллионы книг украдены, авторы в суде, а Anthropic торжествует. Теперь ИИ диктует правила

Миллионы книг украдены, авторы в суде, а Anthropic торжествует. Теперь ИИ диктует правила

Понятие Fair Use стало камнем преткновения в борьбе за авторские права.

image

В США принято одно из первых решений по резонансным искам против разработчиков нейросетей, где рассматривается, насколько законно компании используют пиратские книги для обучения искусственного интеллекта.

Федеральный судья округа Северной Калифорнии Уильям Алсуп постановил , что компания Anthropic, создатель семейства языковых моделей Claude, действительно нарушила авторские права, скачивая нелегальные копии книг для создания внутренней базы данных и обучения ИИ. Однако сам процесс обучения нейросетей на этих книгах был признан так называемым «преобразующим» использованием (transformative fair use) и не считается прямым нарушением закона.

Иск против Anthropic подали писатели Андреа Бартц, Чарльз Грэбер и Кирк Уоллес Джонсон. Авторы утверждают, что их произведения незаконно попали в состав печально известного датасета Books3 , который активно используется для обучения языковых моделей. Кроме того, сотрудники Anthropic скачивали миллионы книг с пиратских библиотек LibGen и Pirate Library Mirror (PiLiMi), а также покупали подержанные бумажные книги, чтобы затем оцифровать их и использовать в работе нейросетей. Дело получило название Bartz v. Anthropic .

Как отметил судья Алсуп, руководство компании сознательно игнорировало легальные способы приобретения книг, чтобы избежать «юридических и деловых сложностей». Уже в начале 2021 года один из сооснователей Anthropic Бен Манн загрузил Books3 — коллекцию почти из 200 000 произведений, собранных из пиратских источников. Впоследствии база пополнилась ещё как минимум 5 миллионами книг с сайта LibGen и 2 миллионами с ресурса PiLiMi.

Однако наиболее серьёзным нарушением судья признал даже не сам факт скачивания книг, а создание так называемой «внутренней библиотеки общего назначения», в которую вошли и пиратские копии. По словам Алсупа, именно эта библиотека предназначалась не только для обучения нейросетей, но и для любых других целей компании, что явно выходит за рамки допустимого использования. Более того, в материалах дела говорится, что компания намеревалась хранить эти копии «вечно», даже если они не использовались для обучения моделей.

Судья подчеркнул, что «все факторы свидетельствуют против добросовестного использования» в отношении внутренней библиотеки. Он постановил, что эта часть дела будет рассмотрена на полноценном судебном процессе, включая определение возможных штрафов, как фактических, так и установленных законом. При этом сам факт последующей покупки легальных копий книг не освобождает Anthropic от ответственности за ранее совершённое нарушение, хотя может повлиять на размер компенсации.

В то же время Алсуп отдельно отметил, что использование книг непосредственно для обучения ИИ является допустимым, так как такой процесс считается «чрезвычайно трансформирующим» и подпадает под понятие добросовестного использования. Аналогичный подход судья применил и к оцифровке бумажных копий книг: поскольку Anthropic не распространяла новые копии и не создавала новых произведений, такое действие сочли законным, но только при условии, что книги были куплены легально.

Несмотря на то что это решение в какой-то мере идёт навстречу авторам , общая картина складывается не в их пользу. Суд фактически признал, что обучение ИИ на легально приобретённых книгах или контенте из открытых источников допустимо без необходимости получать разрешение авторов или выплачивать компенсацию. Именно на такую линию защиты опираются практически все крупные ИИ-компании, заявляя, что сбор информации из интернета для обучения моделей — это законное трансформирующее использование.

Стоит отметить, что нынешний иск не касается вопросов воспроизведения фрагментов произведений конечным пользователям. По словам судьи, публичные версии Claude снабжены специальными фильтрами, предотвращающими генерацию текстов, идентичных оригинальным книгам. Следовательно, прямое копирование или создание похожих произведений в данном случае не доказано.

В то же время в других аналогичных судебных разбирательствах фигурируют обвинения в том, что нейросети запоминают и дословно воспроизводят значительные отрывки защищённых авторским правом текстов. Так, например, специалисты зафиксировали случаи, когда искусственный интеллект компании Meta* дословно повторял целые главы книг.

Пока что судебная практика по этим вопросам остаётся противоречивой. Ранее компания Thomson Reuters выиграла дело против конкурента, который незаконно использовал её контент для обучения ИИ. Однако окончательное понимание юридических границ использования данных для обучения нейросетей ещё предстоит сформировать. В ближайшие месяцы суды рассмотрят десятки аналогичных исков, которые, вероятно, и определят будущее отношений между авторами, ИИ-компаниями и законодательством.

* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.

Регистрация на #PAYMENTSECURITY 2025 открыта

Ждём вас 11–12 сентября в Калининграде, в центре «Заря». Доклады по ИБ в финтехе, воркшоп от Deiteriy Lab, семинар PCI DSS и живое общение с экспертами отрасли!

Реклама. 18+. Рекламодатель ООО «Дейтерий», ИНН 7816479775