Новая защитная система сажает веб-краулеров на цифровой поводок.
Третьего июля компания Cloudflare объявила о запуске нового инструмента, позволяющего веб-хостинг клиентам полностью заблокировать ботов, без разрешения собирающих контент с их сайтов для обучения моделей машинного обучения.
Решение было принято на основе недовольства клиентов ботами и с целью «сохранения безопасного интернета для создателей контента». «Мы ясно слышим, что наши клиенты не хотят, чтобы ИИ-боты посещали их сайты, особенно те боты, которые делают это нечестно. Поэтому мы добавили новую функцию блокировки всех ИИ-ботов одним кликом», — сообщила Cloudflare.
Существующий метод блокировки ботов — файл «robots.txt» — широко используется владельцами сайтов. Этот файл размещается в корневом каталоге сайта и сообщает автоматическим веб-краулерам (поисковым роботам), каких частей сайта им следует избегать.
Однако проблема заключается в том, что «robots.txt» может быть проигнорирован без особых последствий. Недавний отчёт Amazon показал, что ИИ-боты часто не следуют этим директивам. Так, ранее уже были зафиксированы случаи, когда боты, работающие от имени компании Perplexity, без разрешения сканировали сайты и воспроизводили этот контент в диалоге с пользователем, не указывая источник информации.
Теперь же Cloudflare предлагает более надёжный барьер для ботов. Представители компании отметили, что некоторые боты пытаются замаскироваться под обычные браузеры, используя поддельные пользовательские агенты. Однако глобальная модель машинного обучения Cloudflare быстро выявляет такую активность, даже когда пользовательский агент намеренно подделывается.
Новая система обнаружения ботов Cloudflare основана на цифровых отпечатках устройств. Этот метод часто используется для отслеживания пользователей в интернете. Боты, как и индивидуальные пользователи, выделяются по ряду критериев, которые можно легко прочитать через сетевые взаимодействия. Сеть Cloudflare, обрабатывающая в среднем 57 миллионов запросов в секунду, имеет достаточно данных для определения, каким цифровым отпечаткам можно доверять.
Теперь, чтобы полностью защитить свои сайты от подобных ботов, собирающих данные для ИИ-моделей, пользователям Cloudflare нужно просто нажать кнопку «Block AI Scrapers and Crawlers» в меню «Security — Bots» для нужного сайта.
Тем временем, Cloudflare обещает продолжать совершенствовать свои модели машинного обучения, чтобы помочь создателям контента сохранить полный контроль над тем, как их контент используется для обучения и работы ИИ-моделей.
Гравитация научных фактов сильнее, чем вы думаете