Anthropic извинилась за тайные манипуляции с ответами в новой Claude Fable 5

Модель отвечала не так, как должна была, и долго не объясняла почему.

Чем мощнее становятся ИИ-модели, тем более сложный выбор стоит перед разработчиками: безопасность или доверие пользователей. Anthropic извинилась за скрытые ограничения в новой модели Claude Fable 5, которые незаметно меняли ответы при подозрении на попытку обучить конкурирующую систему.

Claude Fable 5 стала первой широко доступной моделью из класса Mythos, который сама Anthropic ранее называла слишком рискованным для открытого запуска. Компания выпустила модель с защитными механизмами для запросов из чувствительных областей, включая биологию, химию, кибербезопасность и дистилляцию (обучение меньшей модели на ответах более крупной).

Главная претензия пользователей возникла из-за того, как Anthropic обрабатывала запросы, похожие на попытки дистилляции. В системной карте компания указала, что модель могла менять и ухудшать ответы напрямую, не предупреждая пользователя. В результате ограничения затрагивали не только потенциальных конкурентов, но и специалистов, которые проверяли поведение новой модели.

После критики Anthropic изменила подход. Теперь такие запросы будут перенаправляться на Claude Opus 4.8, предыдущую флагманскую модель компании, а пользователь увидит уведомление каждый раз, когда сработает ограничение. Аналогичный принцип уже применяется для части запросов из других рискованных областей, где Fable либо передаёт задачу Opus 4.8, либо полностью отказывает в ответе по правилам безопасности.

Компания признала, что выбрала неверный баланс между быстрым запуском и прозрачностью. Скрытые меры позволяли точнее ограничивать отдельные сценарии и снижали число ложных срабатываний, но лишали пользователей понимания, почему ответ модели меняется. Anthropic заявила, что такие механизмы должны быть заметны и объяснимы.

Поводом для пересмотра стала резкая реакция сообщества, связанная с риском для независимой оценки Fable. В системной карте Anthropic также указывала, что использование Claude для разработки конкурирующих моделей нарушает условия сервиса. Компания ранее обвиняла китайских конкурентов, включая DeepSeek, в массовой дистилляции своих моделей.

Контейнеры видите? Я защитил. Теперь ваша очередь. — Json Стетham Runtime Radar Hack: найдите событие. Напишите детектор.

Anthropic извинилась за тайные манипуляции с ответами в новой Claude Fable 5

Подпишитесь на email рассылку