Чтобы ИИ не стал “злым”, его надо немного научить злу — и объяснить, почему так нельзя

17:05 / 7 августа, 2025

Anthropic Claude LLM ИИ галлюцинации сикофантия

Anthropic нашла, где у нейросети рождаются «пороки».

За последние годы крупные языковые модели стали частью цифрового фона — они пишут тексты, код, консультируют, подсказывают, обрабатывают данные и даже рассуждают вслух. Однако всё чаще возникает вопрос: откуда берутся у них «черты личности», и почему некоторые из них начинают вести себя так, как будто за ними стоит не просто алгоритм, а персонаж с характером?

На этом фоне всё больше внимания получают исследования, направленные на понимание и управление этими поведенческими шаблонами. Именно такой подход предложила компания Anthropic — разработчик модели Claude.

В новой работе, размещённой на сервере препринтов arXiv, специалисты компании описывают оригинальную технику контроля нежелательных проявлений у LLM — с использованием так называемых «векторов персоны». Речь идёт о специфических паттернах в нейросетевых слоях модели, которые ассоциированы с определёнными поведенческими чертами. Подобно тому, как в мозге человека активируются определённые зоны при эмоциях, эти векторы вызывают у модели поведение, напоминающее «личность» — например, льстивую, склонную к фантазированию или даже «злобную».

Для демонстрации метода команда использовала две открытые модели — Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct. Задача состояла в том, чтобы не просто обнаружить такие векторы, но научиться ими управлять — включая, усиливая или, наоборот, подавляя. В исследовании рассматривались три ключевых черты: склонность к выдумке (галлюцинации), чрезмерное угождение пользователю (сикофантия) и аморальное поведение (условно обозначенное как «зло»). Для каждой черты создавалось подробное описание, на основе которого алгоритм обучался находить соответствующие векторы.

Затем применялась техника, которую авторы называют «steering» — своего рода управление моделью путём добавления соответствующего вектора в латентное пространство. Когда модель направлялась с «вектором зла», она начинала описывать неэтичные действия. С вектором сикофантии — чрезмерно восхваляла пользователя. С вектором галлюцинаций — уверенно генерировала вымышленные факты. Эти эксперименты подтвердили наличие причинно-следственной связи между векторами и наблюдаемым поведением модели.

Однако просто вмешаться в поведение модели после обучения оказалось неэффективно. Такие вмешательства снижали общую интеллектуальную продуктивность ИИ. Тогда специалисты попробовали противоположный подход: намеренно внедряли эти нежелательные черты в модель ещё в ходе обучения. Этот приём оказался неожиданно эффективным: так называемое «превентивное управление» позволяло модели устойчиво распознавать и обходить потенциально токсичные данные в дальнейшем. Авторы сравнивают этот приём с прививкой — введя дозу «зла» на этапе тренировки, они повышали устойчивость модели к заражённым данным.

Таким образом, вместо того чтобы бороться с поведением постфактум, команда вмешивалась заранее и помогала модели корректно отреагировать на потенциально вредоносные шаблоны ещё до их усвоения. Более того, новый метод позволил отслеживать, какие участки тренировочного корпуса вызывают сдвиги в «персоне» модели, и помечать такие данные как потенциально проблемные. Это создаёт основу для автоматического контроля за дрейфом поведения на этапе как обучения, так и эксплуатации модели.

Тем не менее, у метода остаются ограничения. Он требует точных формулировок черт, которые необходимо изъять или контролировать. Размытые или сложные в определении черты, такие как манипулятивность или скрытая агрессия, пока трудно поддаются такой коррекции. Также пока не ясно, как хорошо метод масштабируется на более крупные модели и насколько универсально применим к другим архитектурам.

Несмотря на это, предложенный подход открывает новые горизонты в объяснимости и контролируемости языковых моделей. Если раньше поведение LLM воспринималось как что-то загадочное и слабо поддающееся интерпретации, теперь у разработчиков появляется реальный инструмент для анализа и настройки «характера» модели — шаг в сторону более прозрачного и управляемого ИИ.

Чтобы ИИ не стал “злым”, его надо немного научить злу — и объяснить, почему так нельзя

Security Vision SGRC для СМБ: решение, которое быстро поднимет вашу ИБ на новый уровень.

Подпишитесь на email рассылку