Эпитафия открытому вебу: убит нейросетями в возрасте 32 лет.
Интернет стремительно меняется под давлением искусственного интеллекта. Если раньше сайты страдали от классических поисковых роботов , то сегодня всё большую долю трафика формируют новые агрессивные сканеры, работающие в интересах крупных языковых моделей. По данным Cloudflare , почти треть всего мирового веб-трафика приходится на ботов, и самыми быстрорастущими среди них стали именно ИИ-краулеры. Аналитика Fastly уточняет, что 80 процентов подобного движения генерируют программы, созданные для массового сбора данных, необходимых для обучения ИИ.
Формально история автоматических сканеров началась ещё в 1993 году, когда появился Web Wanderer, фиксировавший новые страницы сети. Но специалисты подчёркивают: разница между теми ранними инструментами и нынешними системами огромна. Современные алгоритмы не просто индексируют страницы, а перегружают инфраструктуру, создавая для владельцев сайтов серьёзные издержки. Fastly фиксирует многочисленные случаи , когда внезапные всплески запросов от ИИ-ботов увеличивали нагрузку на серверы в десять, а иногда и в двадцать раз за считанные минуты, что неминуемо оборачивается снижением производительности и сбоями в работе сервисов.
Хостинг-провайдеры отмечают, что такие краулеры почти никогда не учитывают ограничения на частоту сканирования и правила экономии трафика. Они выгружают полный текст страниц, следуют за динамическими ссылками и исполняемыми скриптами, полностью игнорируя настройки владельцев ресурсов. В результате даже те сайты, которые напрямую не становятся мишенью, страдают опосредованно: если несколько проектов делят один сервер и общий канал связи, то атака на соседей моментально обрушивает скорость работы всех.
Для небольших площадок это оборачивается полной недоступностью. Владельцы персональных ресурсов отмечают, что привычные механизмы защиты от DDoS, предлагаемые Cloudflare и другими сетевыми компаниями, эффективно справляются с волнами распределённых атак, но оказываются бесполезны перед натиском ИИ-ботов. Фактически речь идёт о тех же разрушительных последствиях, хотя формально трафик не классифицируется как злонамеренный.
Ситуация тяжела и для крупных игроков. Чтобы выдержать такие потоки, приходится увеличивать объём оперативной памяти, процессорных ресурсов и сетевой пропускной способности. Иначе падает скорость загрузки страниц, а значит, растёт показатель отказов. Исследования хостеров показывают, что если сайт открывается дольше трёх секунд, более половины посетителей закрывают вкладку. Каждая дополнительная секунда только усугубляет проблему, и бизнес теряет аудиторию.
Крупнейшие компании-владельцы ИИ также обозначились в статистике. Наибольший объём поискового трафика приходится на Meta — около 52 процентов. Google занимает 23 процента, а OpenAI — ещё 20. Их системы способны создавать пики до 30 терабит в секунду, что приводит к сбоям даже у организаций с мощной инфраструктурой. При этом владельцы сайтов ничего не зарабатывают на подобном интересе: если раньше визит поискового робота Googlebot давал шанс попасть на первую страницу выдачи и привлечь читателей или клиентов, то краулеры не возвращают пользователей к первоисточникам. Контент используется для обучения моделей, а трафик не приносит прибыли.
Попытки защититься классическими методами — паролями, платными доступами, CAPTCHA и специализированными фильтрами — редко дают результат. ИИ достаточно хорошо справляется с преодолением таких барьеров. Старый механизм robots.txt, который десятилетиями служил стандартным способом обозначить правила индексации, тоже теряет смысл: многие боты попросту его игнорируют. Так, Cloudflare обвиняла компанию Perplexity в обходе этих настроек, а та, в свою очередь, всё отрицала. Но владельцы сайтов видят регулярные волны автоматических запросов от разных сервисов, что подтверждает бессилие существующих инструментов.
Появились инициативы дополнить robots.txt новым форматом llms.txt. Он должен позволить передавать языковым моделям специально подготовленный контент без ущерба для работы сайта. Однако идея воспринимается неоднозначно, и пока неясно, станет ли она стандартом. Параллельно инфраструктурные компании, такие как Cloudflare, запускают собственные сервисы по блокировке умных ботов. Существуют и независимые решения вроде Anubis AI crawler blocker — открытого и бесплатного проекта, который не запрещает сканирование, но замедляет его настолько , что оно перестаёт быть разрушительным.
Таким образом, в интернете складывается новая гонка вооружений. С одной стороны — владельцы сайтов, стремящиеся сохранить доступность и рентабельность своих ресурсов. С другой — разработчики ИИ, для которых бесконечный поток данных становится топливом. Баланс, скорее всего, со временем будет найден, но цена окажется высокой: сеть станет более закрытой, информация — фрагментированной, а многие материалы уйдут за стены платных сервисов или вовсе исчезнут из открытого доступа. Воспоминания о свободном интернете постепенно превращаются в историю, а перспектива раздробленной сети становится всё реальнее.