У Claude теперь есть «характер». Anthropic написала конституцию для своего ИИ (и это не список запретов)

leer en español

У Claude теперь есть «характер». Anthropic написала конституцию для своего ИИ (и это не список запретов)

Новая версия правил этики Claude станет «живым документом» и будет регулярно обновляться.

image

Anthropic решила показать, что у её чат-бота Claude «в голове», и опубликовала новый «конституционный» документ, который напрямую влияет на то, как модель ведёт себя в диалогах. Компания называет его подробным описанием ценностей Claude и объясняет, что это не просто набор правил, а попытка сформировать характер и привычки ИИ через понятные причины, а не через сухие запреты.

Речь идёт о «Конституции Claude» — базовом тексте, который одновременно описывает желаемое поведение модели и используется в обучении. В Anthropic подчёркивают, что обучение ИИ остаётся сложной задачей, поэтому реальные ответы Claude не всегда будут идеально соответствовать изложенным принципам. Тем не менее компания рассчитывает, что развёрнутые объяснения намерений и мотивации лучше «прививаются» модели, чем перечень отдельных пунктов.

Важная деталь для разработчиков и исследователей — документ выложили полностью и без ограничений по лицензии Creative Commons CC0 1.0. По сути, его можно свободно использовать в любых проектах без запроса разрешения.

Anthropic объясняет, что конституция написана в первую очередь «для самого Claude». Она должна дать модели контекст о том, где и как она работает, и подсказать, как действовать в сложных ситуациях, когда приходится выбирать между ценностями. В качестве примера компания приводит типичный конфликт, который возникает у подобных систем, — это баланс честности и сочувствия, а также защита чувствительной информации.

Параллельно документ выполняет практическую функцию. Claude использует конституцию, чтобы генерировать синтетические данные для обучения будущих версий модели, включая примеры диалогов, варианты ответов, которые соответствуют ценностям, и ранжирование возможных реакций. Поэтому текст задуман так, чтобы быть и декларацией идеалов, и удобным «материалом» для тренировки.

Новая версия заметно отличается от прежнего подхода. Раньше конституция была набором разрозненных принципов, теперь Anthropic делает ставку на объяснение причин. Логика такая: если модель должна уверенно действовать в незнакомых ситуациях, ей нужно уметь обобщать и применять широкие принципы, а не механически следовать инструкциям. При этом жёсткие запреты компания тоже оставляет для самых рискованных сценариев, когда модель «никогда не должна» помогать, например, с опасными атаками.

Если кратко описывать приоритеты, то Anthropic хочет, чтобы Claude оставался безопасным в широком смысле, вёл себя этично, соблюдал внутренние правила компании и при этом был действительно полезным собеседником. Внутри документа подробно разбирается, как Claude должен помогать людям «по-взрослому», то есть прямо и по делу, но без подталкивания к вреду, как относиться к отдельным корпоративным гайдам по чувствительным темам, и почему для текущего поколения ИИ особенно важно не мешать человеческому контролю и возможности исправлять ошибки модели.

Отдельный блок посвящён тому, что Anthropic аккуратно называет «природой Claude». Компания признаёт неопределённость вокруг вопросов сознания и морального статуса ИИ и предлагает подходить к таким темам без уверенных заявлений, сохраняя психологическую устойчивость и последовательность поведения.

По задумке авторов, это важно не только «для благополучия модели», но и для её здравого суждения и безопасности.

В конце Anthropic подчёркивает, что конституция — живой документ, который будут обновлять, а также обещает выпускать дополнительные материалы для обучения, оценки и прозрачности. Компания также напоминает о неизбежном разрыве между намерением и реальным поведением модели и говорит, что продолжит развивать оценки, защитные механизмы и инструменты, которые помогают лучше понимать, как именно работает ИИ.

Полный текст конституции уже доступен на сайте Anthropic.