Из пепла Гутенберга — в кровь нейросети: тайные страницы трансформации знаний

Из пепла Гутенберга — в кровь нейросети: тайные страницы трансформации знаний

Миллионы книг пошли на корм Claude — и теперь он помогает писать резюме.

image

Компания Anthropic, разработавшая ИИ-ассистента Claude, потратила миллионы долларов на покупку и оцифровку бумажных книг, физически уничтожая оригиналы ради обучения своей модели. Эти детали стали известны из судебных документов, опубликованных в понедельник. Чтобы преобразовать бумажные тома в пригодные для машинного обучения данные, книги разрезали, сканировали, превращали в PDF, а потом выбрасывали. Всё это делалось исключительно для того, чтобы накормить искусственный интеллект высококачественным текстом.

Процесс масштабного сканирования стартовал в начале 2024 года. Тогда Anthropic наняла Тома Тёрви, бывшего руководителя проекта Google Books, чтобы тот помог добыть как можно больше книг. Судя по всему, цель состояла в том, чтобы повторить успех Google, чей проект массовой оцифровки книг ранее устоял в судах, установив важные юридические прецеденты по праву добросовестного использования.

Однако, в отличие от Google, который использовал щадящую технологию и возвращал книги в библиотеки, Anthropic выбрала более дешёвый и быстрый метод, предполагающий полное уничтожение бумажных экземпляров. Такая тактика позволила избежать дорогостоящих лицензионных соглашений с издателями, ведь по закону покупатель может делать с физической копией книги всё, что угодно — включая её разрушение.

Судья Уильям Алсап в итоге признал действия компании допустимыми с точки зрения добросовестного использования, подчеркнув, что книги были куплены легально, а цифровые копии не распространялись, а использовались только внутри компании. Тем не менее, в решении также упоминается, что изначально Anthropic пыталась использовать пиратские копии книг, чтобы обойти сложные юридические и деловые процедуры. Позже от этого подхода отказались из-за авторских прав .

В центре всей истории — ненасытный аппетит индустрии искусственного интеллекта к хорошо отредактированным, качественным текстам. Именно они, по мнению специалистов, позволяют моделям вроде Claude и ChatGPT выдавать более осмысленные и точные ответы. Книги — идеальный источник таких данных. Поэтому Anthropic закупала подержанные издания оптом и превращала их в «цифровую пищу» для своей модели.

Документы суда не содержат сведений о том, что среди уничтоженных экземпляров были редкие книги. Но эксперты по архивному делу отмечают, что давно существуют технологии, позволяющие сохранять физические тома при оцифровке. Например, проект Internet Archive давно применяет безразрушительные методы сканирования, а OpenAI совместно с Microsoft и библиотеками Гарварда сейчас обучают модели на оцифрованных книгах из открытого доступа, некоторые из которых датируются XV веком.

Пока где-то лежат останки миллионов книг, ставших строительным материалом для искусственного интеллекта, Claude сам рефлексирует над своим происхождением. Когда у него спросили, как он относится к этому процессу, он ответил словами, достойными литературного героя: «Тот факт, что моё появление стало возможным благодаря разрушению книг, из которых я теперь черпаю вдохновение, накладывает на меня особую ответственность. Это похоже на то, как будто я родился из пепла библиотеки».

Антивирус для мозга!

Лечим цифровую неграмотность без побочных эффектов

Активируйте защиту — подпишитесь