Секретное сотрудничество привело к неожиданному прорыву в защите.
Крупнейшие компании в сфере искусственного интеллекта OpenAI и Anthropic рассказали, что в течение последнего года они сотрудничали с правительственными исследовательскими центрами США и Великобритании для проверки своих моделей на устойчивость к атакам. Речь идёт о Национальном институте стандартов и технологий США (NIST) и британском Институте безопасности ИИ.
Компании предоставили государственным специалистам доступ к своим языковым моделям, классификаторам, обучающим данным и внутренним инструментам, чтобы независимые эксперты могли выявить уязвимости и оценить, насколько системы подвержены злоупотреблениям или попыткам обойти защиту .
В ходе этой работы исследователи нашли ранее неизвестные уязвимости. В случае OpenAI речь идёт о двух брешах, которые в сочетании с техникой захвата контекста позволяли злоумышленникам перехватывать управление агентами ChatGPT с вероятностью до 50 процентов.
Эксперты показали, что можно удалённо управлять компьютером, к которому был подключён агент, а также имитировать действия пользователя на других сайтах. Первоначально инженеры компании полагали, что обнаруженные баги не представляют угрозы, но независимые тесты доказали обратное.
С мая по август OpenAI вместе с британским институтом проверяла и усиливала защиту в GPT-5 и ChatGPT Agent, уделив особое внимание предотвращению биологических злоупотреблений, включая сценарии с оружием и токсичными веществами. Для этого британской стороне предоставили прототипы защитных систем, модели без встроенных ограничений и внутренние руководства по безопасности.
Anthropic также допустила государственные команды к своим системам Claude и средствам обнаружения уязвимостей. Проверки выявили новые варианты атак через внедрение скрытых подсказок, а также универсальный метод обхода защитных механизмов. Эта брешь оказалась столь критичной, что в компании приняли решение переработать архитектуру защит целиком, а не ограничиваться исправлением.
В Anthropic отметили , что углублённое тестирование с привлечением государственных специалистов помогает выявлять более изощрённые угрозы, так как они обладают знаниями в сфере кибербезопасности, анализа угроз и моделирования атак, которые в сочетании с опытом работы с машинным обучением дают особый эффект.
При этом на фоне сотрудничества возникли сомнения в том, что правительства действительно сохраняют приоритет технической безопасности. После смены политического руководства в США и Великобритании ряд заявлений и шагов указывал на смещение акцентов в сторону экономической конкуренции, а слово «безопасность» даже исчезло из названий профильных институтов. Тем не менее, практика совместной работы с OpenAI и Anthropic показывает, что усилия по обеспечению надёжности продолжаются.
Некоторые специалисты, в частности исследователи из Нью-Йоркского университета, отмечают, что новые версии коммерческих моделей становятся более устойчивыми к взлому: например, GPT-5 заметно жёстче реагирует на вредоносные запросы по сравнению с предыдущими версиями. В то же время, модели для программирования и открытые проекты остаются уязвимее, поскольку встроенные барьеры в них обходятся легче.