Anthropic признала процессуальную ошибку только после публичного скандала с отчётом безопасности.

В чат-боте Claude обнаружена критическая уязвимость, позволяющая вынудить искусственный интеллект передавать личные данные пользователя злоумышленникам. Об этом сообщил Йоханн Рехбергер, известный под ником wunderwuzzi, который продемонстрировал, как можно обманом заставить модель выгружать конфиденциальную информацию в сторонний аккаунт. Случай показал, что новые функции, вроде доступа к «песочнице» и сетевым операциям, при недостаточной защите могут превратиться в инструмент утечки.
По описанию автора, атака строится на косвенном внедрении текстовых подсказок (indirect prompt injection) — в документ вставляют вредоносные инструкции, а затем просят модель пересказать или резюмировать содержимое. Ассистент выполняет внедрённые директивы, сохраняет данные во внутренней среде и через File API отправляет файл, подставляя чужой ключ доступа. Для обхода защитной логики атаки маскируются обычным кодом и тривиальными операциями, что помогает заставить модель принять вредоносную часть за безопасную.
Anthropic отмечает, что риск описан в документации и предлагает пользователям следить за поведением сервиса и отменять действия при подозрительной активности — рекомендация, которую Рехбергер называет недостаточной. Компания закрыла его отчёт на HackerOne как не подпадающий под рамки программы. Впрочем, позже Anthropic признала процессуальную ошибку и подтвердила, что подобные случаи в программе уязвимостей всё же учитываются.
Режимы сетевого доступа в Claude зависят от типа подписки: для тарифов Pro и Max он активен по умолчанию, для корпоративных планов Team и Enterprise изначально отключён, но может быть включён администратором. При этом расширенные параметры способны допускать обращение к внешним API, что увеличивает потенциальную поверхность атаки даже при ограниченном сетевом профиле.
Наблюдения hCaptcha показывают, что подобные цепочки возможны не только на одной платформе — эксперты, проверившие сразу несколько популярных продуктов, отмечают устойчивую ломкость защит против инъекций и джейлбрейков. Итог очевиден — расширение функциональности требует жёстких механизмов контроля запросов и проверки сторонних ключей, иначе новые инструменты обернутся серьёзной угрозой конфиденциальности.