Госхакеры взломали ChatGPT и Claude. И это лучшее, что могло произойти

leer en español

10:15 / 19 сентября, 2025

Секретное сотрудничество привело к неожиданному прорыву в защите.

Крупнейшие компании в сфере искусственного интеллекта OpenAI и Anthropic рассказали, что в течение последнего года они сотрудничали с правительственными исследовательскими центрами США и Великобритании для проверки своих моделей на устойчивость к атакам. Речь идёт о Национальном институте стандартов и технологий США (NIST) и британском Институте безопасности ИИ.

Компании предоставили государственным специалистам доступ к своим языковым моделям, классификаторам, обучающим данным и внутренним инструментам, чтобы независимые эксперты могли выявить уязвимости и оценить, насколько системы подвержены злоупотреблениям или попыткам обойти защиту.

В ходе этой работы исследователи нашли ранее неизвестные уязвимости. В случае OpenAI речь идёт о двух брешах, которые в сочетании с техникой захвата контекста позволяли злоумышленникам перехватывать управление агентами ChatGPT с вероятностью до 50 процентов.

Эксперты показали, что можно удалённо управлять компьютером, к которому был подключён агент, а также имитировать действия пользователя на других сайтах. Первоначально инженеры компании полагали, что обнаруженные баги не представляют угрозы, но независимые тесты доказали обратное.

С мая по август OpenAI вместе с британским институтом проверяла и усиливала защиту в GPT-5 и ChatGPT Agent, уделив особое внимание предотвращению биологических злоупотреблений, включая сценарии с оружием и токсичными веществами. Для этого британской стороне предоставили прототипы защитных систем, модели без встроенных ограничений и внутренние руководства по безопасности.

Anthropic также допустила государственные команды к своим системам Claude и средствам обнаружения уязвимостей. Проверки выявили новые варианты атак через внедрение скрытых подсказок, а также универсальный метод обхода защитных механизмов. Эта брешь оказалась столь критичной, что в компании приняли решение переработать архитектуру защит целиком, а не ограничиваться исправлением.

В Anthropic отметили, что углублённое тестирование с привлечением государственных специалистов помогает выявлять более изощрённые угрозы, так как они обладают знаниями в сфере кибербезопасности, анализа угроз и моделирования атак, которые в сочетании с опытом работы с машинным обучением дают особый эффект.

При этом на фоне сотрудничества возникли сомнения в том, что правительства действительно сохраняют приоритет технической безопасности. После смены политического руководства в США и Великобритании ряд заявлений и шагов указывал на смещение акцентов в сторону экономической конкуренции, а слово «безопасность» даже исчезло из названий профильных институтов. Тем не менее, практика совместной работы с OpenAI и Anthropic показывает, что усилия по обеспечению надёжности продолжаются.

Некоторые специалисты, в частности исследователи из Нью-Йоркского университета, отмечают, что новые версии коммерческих моделей становятся более устойчивыми к взлому: например, GPT-5 заметно жёстче реагирует на вредоносные запросы по сравнению с предыдущими версиями. В то же время, модели для программирования и открытые проекты остаются уязвимее, поскольку встроенные барьеры в них обходятся легче.

Хакеры ненавидят этот канал!

Спойлер: мы раскрываем их любимые трюки

Расстройте их планы — подпишитесь

Госхакеры взломали ChatGPT и Claude. И это лучшее, что могло произойти

Подпишитесь на email рассылку