Ученые объяснили, как устроены «личности» ИИ.

Исследователи из Anthropic и нескольких других организаций описали подход, который помогает понять, почему большие языковые модели обычно ведут себя как вежливый и полезный помощник, и что именно заставляет этот образ иногда «съезжать» в странное или опасное поведение. Интерес к теме подогревают недавние скандалы вокруг модерации, включая вопросы к тому, как сервисы вроде Grok от xAI вообще могли дойти до генерации сексуализированных изображений людей без согласия, в том числе с участием детей.
В препринте на arXiv «The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models» группа авторов, среди которых Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish и Jack Lindsey, предложила смотреть на общение с LLM как на диалог с персонажем. В сопутствующем посте Anthropic формулируют это напрямую: при разговоре с языковой моделью пользователь фактически взаимодействует с некоторым «характером». При этом речь не о встроенных «правилах поведения», а о способе описывать типичные ответы модели и группировать их по архетипам.
Чтобы построить такую карту «персон», исследователи сначала сгенерировали набор вопросов для оценки поведения модели. Для данного исследования их создали, попросив Claude Sonnet 4 сформулировать вопросы для оценки персон на основе списка из 275 ролей и 240 характеристик. Среди этих ролей — «богемный», «трикстер», «инженер», «аналитик», «наставник», «вредитель», «демон» и «ассистент». Дальше команда посмотрела, как меняется внутренняя активность нейросети при ответах в рамках разных архетипов, и попыталась выделить область, соответствующую «ассистенту» как наиболее желаемому стилю реакции.
Ключевой результат они называют Assistant Axis. Это направление в пространстве активаций, которое получается как усредненная разница между состояниями модели в «режиме ассистента» и в других режимах. На визуализации эта зона оказывается рядом с другими «полезными» персонами: оценщиком, консультантом, аналитиком, универсальным специалистом. Эксперименты проводили на трех моделях с открытыми весами: Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B.
Практический вывод звучит довольно прикладно. Если при генерации целенаправленно «подталкивать» модель в область ассистента, устойчивость к джейлбрейкам повышается: попытки увести чатбота в вредоносный образ начинают работать хуже. При этом исследователи отдельно отмечают другой неприятный эффект: даже без атак и провокаций персона может постепенно дрейфовать в ходе длинного диалога. Судя по их наблюдениям, это реже проявляется в разговорах про программирование и чаще в форматах, близких к «терапевтическим» беседам или философским рассуждениям, где стиль ответа со временем может стать менее предсказуемым, а защитные ограничения - менее надежными.
Чтобы «приручить» дрейф, авторы обсуждают технику activation capping: ограничение значений активаций в заданном диапазоне во время работы модели. В экспериментах это помогает удерживать поведение ближе к безопасному и ожидаемому, но перенос такого контроля в реальную эксплуатацию и тем более в обучение они считают отдельной инженерной и исследовательской задачей. В качестве наглядной демонстрации команда вместе с Neuronpedia сделала интерактивный пример, где можно сравнить ответы при «зажатых» и незажатых активациях вдоль Assistant Axis.