Извините, у нас гонка. Anthropic отказывается от обещания сдерживать опасный ИИ

Извините, у нас гонка. Anthropic отказывается от обещания сдерживать опасный ИИ

Самая «осторожная» ИИ-компания решила, что безопасность подождет.

image

Компания Anthropic, которая долгое время позиционировала себя как самая ответственная среди ведущих разработчиков искусственного интеллекта, отказывается от ключевого обещания своей политики безопасности. Об этом изданию TIME рассказали представители компании.

В 2023 году Anthropic взяла на себя обязательство никогда не обучать новую модель ИИ, если не сможет заранее гарантировать достаточность своих мер безопасности. На протяжении двух лет руководство компании ставило это обещание - центральный элемент так называемой Политики ответственного масштабирования (RSP) - в пример, доказывая, что Anthropic не поддастся рыночному давлению и не станет торопиться с выпуском потенциально опасных технологий.

Однако в последние месяцы компания решила радикально пересмотреть эту политику, и главное изменение - отказ от обещания не выпускать модели ИИ без предварительных гарантий надлежащего контроля рисков.

«Мы пришли к выводу, что остановка обучения моделей никому бы не помогла, - заявил TIME главный научный сотрудник и сооснователь Anthropic Джаред Каплан. - В условиях стремительного развития ИИ нам не показалось разумным брать на себя односторонние обязательства, когда конкуренты мчатся вперёд на полной скорости».

Обновлённая версия политики, с которой ознакомилось издание TIME, содержит обязательства по большей прозрачности в отношении рисков ИИ, включая дополнительное раскрытие результатов тестирования безопасности собственных моделей. Компания обещает соответствовать усилиям конкурентов в области безопасности или превосходить их. Кроме того, Anthropic готова «замедлить» разработку, но лишь при одновременном выполнении двух условий: если руководство считает компанию лидером гонки ИИ и если риски катастрофы оцениваются как значительные.

В целом же новая политика оставляет Anthropic значительно менее связанной собственными ограничениями - раньше компания категорически запрещала себе обучать модели выше определённого уровня без заранее подготовленных мер безопасности.

Перемены происходят на фоне впечатляющих успехов компании. Её модели Claude, особенно инструмент для написания кода Claude Code, завоевали армию преданных поклонников. В феврале Anthropic привлекла 30 миллиардов долларов инвестиций при оценке в 380 миллиардов, а годовая выручка компании растёт в десять раз ежегодно.

Каплан отрицает, что пересмотр политики стал уступкой рыночному давлению. По его словам, когда Anthropic вводила RSP в 2023 году, компания надеялась, что конкуренты последуют её примеру, а сам подход со временем ляжет в основу государственного или даже международного регулирования. Но этого не произошло. Администрация Трампа заняла позицию невмешательства в развитие ИИ и даже попыталась отменить регулирование на уровне штатов. Федерального закона об ИИ на горизонте нет, а окно возможностей для глобального управления технологией, казавшееся открытым в 2023 году, за три года захлопнулось.

Вдобавок наука оценки рисков ИИ оказалась куда сложнее, чем ожидала Anthropic. В 2025 году компания признала, что не может исключить возможность использования новых мощных моделей для подготовки биотеррористической атаки. Но при этом у неё не было и убедительных научных доказательств реальности такой угрозы, что затрудняло диалог с правительствами и конкурентами. То, что раньше представлялось чёткой красной линией, на деле оказалось размытым градиентом.

Крис Пейнтер, директор по политике некоммерческой организации METR, занимающейся оценкой рисков моделей ИИ, ознакомился с ранней версией обновлённой политики. По его словам, решение Anthropic понятно, но это тревожный сигнал для способности мира справляться с потенциальными катастрофами, связанными с ИИ. Изменение политики свидетельствует о том, что компания вынуждена перейти в «режим сортировки» своих планов безопасности, поскольку методы оценки и снижения рисков не поспевают за ростом возможностей моделей.

Anthropic утверждает, что обновлённая политика сохраняет главные преимущества прежней. Компания обязуется регулярно публиковать «дорожные карты безопасности» с подробными целями по будущим защитным мерам, а также выпускать каждые три - шесть месяцев «отчёты о рисках», в которых будет анализироваться, как возможности моделей, модели угроз и меры по снижению рисков соотносятся друг с другом.

Пейнтер положительно оценил акцент на прозрачной отчётности, но выразил обеспокоенность тем, что отказ от чётких пороговых значений может привести к эффекту «варки лягушки» - когда опасность нарастает постепенно и ни один момент не становится достаточно тревожным, чтобы поднять тревогу.