Авторский стиль теперь можно сгенерировать за $81. Но чья тогда книга?
Американские исследователи обнаружили, что произведения, созданные искусственным интеллектом в манере известных писателей, могут восприниматься читателями как более выразительные, чем тексты, написанные людьми. Но это происходит лишь тогда, когда нейросеть предварительно обучена на полном собрании сочинений конкретного автора. Такой результат заставил пересмотреть прежние взгляды на использование защищённых произведений при обучении генеративных систем.
Авторы исследования — специалист по вычислительным наукам Тухин Чакрабарти из Университета Стони-Брук, профессор права Колумбийского университета Джейн Гинсберг и исследователь из Мичиганского университета Парамвир Дхиллон — решили выяснить, насколько глубоко алгоритмы способны воспроизводить индивидуальную манеру письма. Их работа возникла на фоне множества судебных разбирательств, инициированных писателями против разработчиков ИИ за последнее время. В одном из самых громких процессов, Bartz против Anthropic, обсуждается компенсация в полтора миллиарда долларов за использование книг без согласия правообладателей. В другом, Kadrey против Meta*, компания избежала наказания из-за формальных недочётов иска, хотя судья признал, что копирование литературных произведений без разрешения может нарушать закон.
По данным учёных, в США подано более 50 исков, связанных с применением чужих текстов, аудиозаписей и видеофайлов для обучения нейросетей. Юристы расходятся во мнениях: одни считают, что подобная практика допустима, если конечный результат не повторяет оригинал, другие подчёркивают, что даже опосредованное заимствование способно нанести ущерб авторам. На этом фоне представители индустрии предупреждают, что требование получать индивидуальные разрешения фактически остановит развитие технологий. Бывший топ-менеджер Meta* Ник Клегг заметил, что запрет на использование открытых источников «парализует ИИ-сектор за одну ночь».
Итак, чтобы проверить, насколько современные алгоритмы могут соперничать с людьми в области художественного письма, команда Чакрабарти организовала масштабный эксперимент. В нём участвовали 28 студентов престижных программ по литературному мастерству, которым поручили написать короткие произведения, стилизованные под манеру 50 классиков — от Элис Манро до Кормака Маккарти и Хан Кан. Эти тексты сравнили со 150 вариантами, созданными нейросетью, обученной на том же наборе имён.
Первоначальные результаты оказались предсказуемыми: эксперты и обычные читатели чаще выбирали работы, написанные людьми. Но после тонкой настройки моделей на полном корпусе произведений конкретных писателей оценки резко изменились. При повторном тестировании участники всё чаще отдавали предпочтение машинным версиям, находя их более точными по стилю и выверенными по языку. Аналогичные сдвиги зафиксированы и среди непрофессиональной аудитории.
Исследователи отмечают, что процесс индивидуального обучения устраняет характерные следы машинного происхождения текста: чрезмерную шаблонность, однообразный ритм и избыток клише. После дополнительного обучения алгоритмы стали воспроизводить синтаксическую динамику, структуру фраз и интонационные переходы, присущие конкретному писателю. В результате тексты, созданные программой, воспринимались как естественные и выразительные.
Парамвир Дхиллон подчеркнул: подобные выводы имеют не только эстетическое, но и экономическое значение. По его словам, если учесть минимальные издержки — около восьмидесяти долларов на создание романа объёмом сто тысяч слов, — становится ясно, что генерация при помощи ИИ обходится дешевле почти в три сотни раз по сравнению с гонораром профессионального автора. Это означает, что рынок литературы может столкнуться с новой формой конкуренции.
Для юристов такие результаты создают дополнительные сложности. Американское право использует четырёхфакторную систему оценки допустимости заимствований, включая цель применения, характер исходного материала, объём копирования и влияние на рынок. Учёные считают, что последний критерий теперь будет ключевым: если алгоритмический текст способен вытеснить оригинал из культурного или коммерческого оборота, то само копирование при обучении не может трактоваться как добросовестное.
Подготовка и использование модели, обученной на полном собрании сочинений одного автора, требует менее 1% расходов на труд профессионального писателя. Поэтому авторы пришли к выводу, что подобная практика не может считаться законной, если конечный результат повторяет узнаваемые особенности стиля и тем самым снижает ценность исходных работ. Причём нарушение авторских прав возможно даже тогда, когда в финальном тексте нет прямых заимствований, но его использование подменяет интерес читателя к оригиналу. Другими словами, если нейросеть научилась говорить тем же голосом, правообладатель фактически теряет аудиторию.
Дискуссия вокруг таких случаев уже затрагивает политику. Весной прошлого года президент США уволил главу Бюро авторских прав Ширу Перлматтер, которая отказалась утвердить инициативу Илона Маска по сбору защищённых произведений для обучения ИИ. Конгрессмен Джо Морелле тогда заявил, что решение последовало менее чем через сутки после её несогласия. Этот эпизод показал, насколько остро сплелись интересы государства, бизнеса и культуры в борьбе за контроль над данными.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.