Эпоха наивного ИИ закончилась. Claude ставит жирную точку в вопросах оружия массового поражения

leer en español

Эпоха наивного ИИ закончилась. Claude ставит жирную точку в вопросах оружия массового поражения

Anthropic научила машины распознавать террористические намерения с точностью детектора лжи.

image

Компания Anthropic объявила о запуске новой системы для обнаружения потенциально опасных запросов в Claude, связанных с созданием химического, биологического, радиологического и ядерного оружия, а также взрывчатых веществ большой мощности. Новая система представляет собой классификатор — алгоритм машинного обучения, способный определять и сортировать определённые типы контента. Цель нововведения — выявление попыток использования модели для получения информации о создании оружия.

Согласно заявлению компании, классификатор был обучен на синтетических данных и достиг высокой точности — 94,8% при отсутствии ложных срабатываний. Это означает, что, по их подсчётам, только около 5% вредоносных запросов могли бы пройти мимо фильтра. Отдельно подчёркивается, что инструмент предназначен не для массовой цензуры, а для защиты от специфических злоупотреблений, связанных с оружием массового поражения. Особенно это важно, если учесть, что некоторые пользователи всё ещё используют публичные ИИ-сервисы для заведомо нелепых попыток получения инструкций по сборке бомб.

Однако на практике точность оказалась чуть ниже. При анализе реальных разговоров с Claude система выдала некоторое количество ложных срабатываний. Например, в период обострения конфликта на Ближнем Востоке алгоритм ошибочно определил ряд обсуждений геополитической обстановки как потенциально опасные, хотя они касались исключительно новостного контекста. Чтобы снизить количество ошибок, в систему добавили дополнительную проверку — иерархическое обобщение, при котором анализируются не отдельные сообщения, а вся серия связанных запросов. Это позволило повысить точность и избежать ошибочных блокировок.

Важно отметить, что классификатор пока не применяется ко всему трафику Claude. Он активирован только для части запросов, в рамках экспериментального этапа. Представитель Anthropic подтвердил, что при выявлении нарушений политики, касающейся разработки оружия, компания может заблокировать или полностью прекратить доступ пользователя к своим сервисам.

Дополнительную уверенность в надёжности нового инструмента дало внутреннее тестирование с участием отдельной «красной команды». Группа специалистов, не знавших о внедрении классификатора, попыталась инициировать вредоносные сценарии, и система успешно выявила эти запросы как потенциально опасные. Тем самым она прошла первый реальный стресс-тест.

Проект реализован в сотрудничестве с Национальной администрацией ядерной безопасности Министерства энергетики США (NNSA), с которой Anthropic начала сотрудничать в 2024 году. NNSA сначала проводила «атаку» на Claude в изолированной среде, а затем подключилась к разработке классификатора. Основной вызов при этом заключался в необходимости соблюдать баланс между защитой чувствительной информации и соблюдением конфиденциальности пользователей.

Anthropic планирует передать результаты работы классификатора в Frontier Model Forum — ассоциацию, объединяющую разработчиков крупных языковых моделей, включая Google, OpenAI и Microsoft. Однако участники форума не занимаются вопросами финансирования или регулирования затрат на ИИ, фокус остаётся на безопасности.

По словам представителя Федерации американских учёных, важно, чтобы государственные структуры наращивали собственные компетенции в области ИИ, поскольку темпы развития технологий уже опережают понимание сопутствующих угроз. Отмечается, что защита от распространения ядерных знаний требует не только технических решений, но и аккуратного подхода к научным, образовательным и политическим обсуждениям, которые не должны пострадать от чрезмерно агрессивных фильтров.

Пока же Anthropic остаётся одной из немногих компаний, публично внедривших отдельный инструмент анализа именно на тему оружия массового поражения. Подобный подход может стать моделью для других игроков на рынке, где поиск компромисса между безопасностью и правом на знание остаётся одной из главных задач.