Мы хотели обучить ИИ, а случайно уничтожили наследие человечества

13:30 / 18 июня, 2025 43655

ИИ библиотеки архивы музеи GLAM-E Lab robots.txt

ИИ рушит интернет-память человечества.

В последние месяцы всё больше цифровых коллекций музеев, архивов, библиотек и галерей сообщают о неожиданной и всё более ощутимой угрозе — массированном нашествии ИИ-ботов, собирающих данные для обучения нейросетей. Эти автоматизированные системы, в огромных количествах обрушиваясь на серверы культурных учреждений, буквально парализуют доступ к онлайн-коллекциям, ради которых и создавалась вся цифровая инфраструктура.

По данным GLAM-E Lab — исследовательской инициативы, работающей на стыке технологий и культурного наследия, — ситуация уже вышла за рамки частных инцидентов. Весной 2025 года лаборатория провела опрос среди организаций из GLAM-сектора (галерей, библиотек, архивов и музеев), чтобы оценить масштаб проблемы. Из 43 респондентов 39 отметили резкий рост трафика, 27 из них прямо связали его с активностью ИИ-ботов, а ещё 7 — сочли это возможной причиной. Только единицы сообщили, что не сталкивались с подобным.

Большинство опрошенных признались, что не отслеживали трафик ботов до тех пор, пока их сайты буквально не начали падать. Проблема не ограничивается одиночными сбоями — боты приходят внезапно, целыми роями, с тысячами одновременных запросов, зачастую скрывая свою природу. Некоторые открыто идентифицируются, другие же подменяют цифровую подпись, имитируют поведение пользователей, маскируются под обычный трафик или изменяют user-agent каждую секунду. Эти внезапные и короткие всплески нагрузки ведут к тому, что даже мощные серверы теряют работоспособность, а онлайн-доступ к культурному наследию прерывается.

Файл robots.txt, который исторически служил добровольным сигналом для ботов избегать определённых разделов сайтов, больше не работает. Современные ИИ-боты его игнорируют. В результате учреждения вынуждены срочно внедрять фильтры на базе IP-адресов, географической локации, строк идентификации и прочих параметров. Однако такие меры не гарантируют долгосрочной защиты, особенно когда боты используют миллионы адресов по всему миру и маскируются под легитимных посетителей.

Проблема осложняется тем, что не существует универсальной архитектуры цифровых коллекций. Каждое учреждение выстраивало онлайн-платформу по-своему — кто-то с поддержкой штатных специалистов, другие с опорой на сторонние решения. И если одни могут с лёгкостью масштабировать инфраструктуру, то для других даже небольшие всплески трафика становятся катастрофой. Всё это приводит к существенным затратам — не только техническим, но и организационным. Отделы цифровых коллекций вынуждены отвлекать ресурсы от развития и научной работы ради борьбы с неконтролируемыми потоками ИИ-запросов.

GLAM-E Lab подчёркивает, что особенно тревожным выглядит тот факт, что ботам безразличен юридический статус контента. Независимо от того, имеют ли коллекции открытые лицензии или нет, они одинаково попадают под сбор данных. Это полностью подрывает идею, что открытые цифровые ресурсы можно контролировать с помощью правовых норм. Даже введение логинов и CAPTCHA — хоть и обсуждается как потенциальный выход — ставит под угрозу саму идею открытого доступа к культурному наследию.

Ряд учреждений рассматривает более радикальные меры, вроде скрытия чувствительных коллекций — например, артефактов коренных народов — за системами авторизации. Однако массовый перевод всего массива культурного контента за логин вызывает серьёзные философские сомнения: нарушится принцип доступности, на котором строился весь цифровой GLAM-сектор.

Некоторые учреждения перешли на использование платных антибот-защит, но и здесь нет однозначных решений. Возникают проблемы с ложными срабатываниями, невозможностью вручную разблокировать «законопослушных» пользователей, а также риски зависимости от коммерческих провайдеров, чья инфраструктура тоже может оказаться целью атак.

На этом фоне усиливаются попытки создать новые, технически и юридически обоснованные версии протокола robots.txt, которые смогли бы чётко разграничить «хороших» и «плохих» ботов. Европейская директива DSM в теории предлагает правовой механизм отказа от машинного сбора данных, но на практике пока не превратилась в действенный инструмент.

Примечательно, что даже в условиях давления, участники сообщества сохраняют единые ценности — доступность, прозрачность и глобальную солидарность. Несмотря на разницу в бюджетах и масштабах, GLAM-институции по всему миру продолжают сопротивляться давлению ИИ-коммерции и искать способы сохранить открытый доступ к культуре, не позволяя цифровым хищникам окончательно подмять под себя общественные ресурсы.

Секлаб · Биологический риск

Иммунитет её не видит.
Антибиотики не берут.
Её не существует. Пока.

38 учёных против одной бактерии →

Эта бактерия убьёт всё живое

Мы хотели обучить ИИ, а случайно уничтожили наследие человечества

Подпишитесь на email рассылку