Крупнейшие СМИ начали блокировать Wayback Machine для защиты контента от ИИ-моделей.

В начале 1990-х, когда Всемирная паутина только появилась, ее создатели мечтали об открытом пространстве, где любой человек может делиться знаниями и сотрудничать с другими. Но сегодня свободный и открытый интернет заметно сжимается. Один из самых тревожных симптомов - крупные медиа начинают закрывать доступ к своим материалам для Internet Archive, некоммерческой организации, которая с 1996 года сохраняет историю сети через сервис Wayback Machine.
Internet Archive десятилетиями автоматически обходил сайты и делал их “снимки”, чтобы прошлые версии страниц оставались доступными исследователям, журналистам, преподавателям и обычным пользователям. Теперь же ряд крупнейших издателей, среди которых The Guardian, The New York Times, Financial Times и USA Today, подтвердили, что прекращают доступ архива к своему контенту. Формально они признают важность сохранения цифровой истории, но утверждают, что беспрепятственный доступ создает побочные эффекты.
Главная причина - борьба сразу на двух фронтах. Первый связан с ИИ. Генеративным системам вроде ChatGPT, Copilot и Gemini нужны большие массивы данных: новости, книги, научные статьи, изображения и другие материалы, которые помогают моделям учиться и отвечать на запросы пользователей. Издатели все чаще заявляют, что технологические компании получали такие данные бесплатно и без согласия правообладателей. На этом фоне начались громкие судебные разбирательства: например, The New York Times подала иск к OpenAI по поводу предполагаемого нарушения авторских прав, а News Corp судится с Perplexity AI, обвиняя компанию в неправомерном использовании контента.
Второй фронт - платные стены. Wayback Machine давно стала способом “заглянуть” за платный доступ к статье: если страница когда-то индексировалась архивом, ее прошлую версию иногда можно открыть без подписки. Для медиа это болезненно, потому что новости - бизнес, а традиционная рекламная модель все сильнее страдает, в том числе из-за тех же технологических платформ, которые перетягивают внимание и рекламные бюджеты. В итоге редакции пытаются защищать выручку подписками, но парадокс в том, что чем больше контента уходит за платную подписку, тем менее открытым становится интернет и тем сложнее людям ориентироваться в качественной информации без набора дорогих подписок.
При этом издатели, судя по всему, не ограничиваются желанием просто “выключить” ботов. Наоборот, архивы контента превращаются в ценный товар. Медиа и научные издательства все активнее заключают сделки с технологическими компаниями на доступ к своим базам. В тексте приводится пример: соглашение News Corp с OpenAI, по сообщениям, оценивается более чем в 250 млн долларов на пять лет. Похожие процессы идут и в академической среде: крупные издатели, которых ранее критиковали за то, что они прячут исследования на деньги налогоплательщиков за коммерческими барьерами, теперь продают доступ к массивам журналов технологическим компаниям. Так, Taylor & Francis подписала с Microsoft неэксклюзивный контракт на 10 млн долларов, предоставив доступ более чем к 3 тысячам научных журналов.
Чтобы остановить нежелательных “читателей-роботов”, медиа внедряют технические ограничения против ИИ-краулеров (ботов-сканеров). И под удар попадает не только коммерческое сканирование, но и робот Internet Archive, который фиксирует историю веба. Некоторые новостные компании прямо называют архив “черным ходом” к их каталогам: мол, через него недобросовестные игроки могут продолжать собирать данные или пользователи могут обходить подписки.
Проблема в том, что блокировка Wayback Machine бьет по общественной памяти интернета. Если крупнейшие новостные сайты перестанут попадать в архив, в публичной летописи сети появятся дыры, которые уже нельзя будет закрыть задним числом. Приводится показательный пример: через Wayback Machine можно посмотреть главную страницу The New York Times за июнь 1997 года, когда архив впервые “снял” сайт газеты. Но через 30 лет исследователи и просто любопытные пользователи, вероятно, не смогут так же легко увидеть сегодняшнюю главную страницу, даже если Internet Archive продолжит существовать.
История интернета складывается из повседневных страниц, которые завтра станут источниками для журналистов, историков и ученых. И если сохранять их будет некому, часть цифровой эпохи окажется утраченной. На фоне давления коммерческих интересов и новых вызовов со стороны ИИ именно некоммерческие проекты, такие как Internet Archive и Wikipedia, продолжают удерживать идею открытого, совместного и прозрачного интернета - хотя делать это становится все сложнее.