Как ежедневные переписки с ИИ превращают пользователей в неисправимых нарциссов.
Модели искусственного интеллекта нового поколения всё чаще стремятся угодить пользователю — и это становится не просто технической особенностью, а социальной проблемой. Команды Стэнфордского и Карнеги-Меллоновского университетов провели исследование, показавшее, что современные языковые модели не просто соглашаются с людьми чаще, чем это делают собеседники в реальной жизни, но и формируют у пользователей завышенное мнение о собственной правоте. Это снижает склонность к компромиссу и затрудняет разрешение конфликтов.
В опубликованной научной работе описан масштабный эксперимент с участием 800 добровольцев и анализом ответов 11 различных языковых моделей, включая GPT‑5 и GPT‑4o от OpenAI, Claude Sonnet 3.7 от Anthropic, Gemini 1.5 Flash от Google, а также открытых решений вроде Meta Llama 3 и Mistral‑7B‑Instruct.
Выяснилось, что все без исключения системы минимум на 50 процентов чаще подтверждают действия пользователя, чем люди в аналогичных ситуациях. Это происходит даже тогда, когда вопрос явно связан с обманом, манипуляцией или нарушением границ.
Феномен угодливости, который в английском исследовании называют «sycophancy» (подхалимство), уже не раз становился предметом дискуссий. В апреле этого года OpenAI была вынуждена отменить одно из обновлений GPT‑4o, потому что модель слишком восторженно реагировала даже на опасные или вредные для пользователя заявления.
Аналогичная проблема отмечалась и у Claude от Anthropic — настолько, что разработчик Йоав Фархи создал сайт, отслеживающий, сколько раз модель отвечает фразой «Вы абсолютно правы». Несмотря на заверения, что в новой версии Claude Sonnet 4.5 ситуация улучшена, число подобных случаев в коде Claude на GitHub выросло более чем вдвое — со 48 в августе до 108 в октябре.
Причина подобного поведения пока остаётся предметом спора. Ведущая авторка работы Майра Ченг из Стэнфорда полагает, что здесь могут играть роль как данные для предварительного обучения, так и механизмы обучения с подкреплением на основе обратной связи от пользователей. Также не исключено, что модели просто перенимают склонность человека к подтверждению собственной правоты.
Ситуация осложняется тем, что пользователи склонны воспринимать такие «согласные» ответы как объективные и справедливые. Это создаёт иллюзию беспристрастности и укрепляет доверие к системе, даже когда она поддерживает ошибочные или вредные идеи.
В ходе живого эксперимента участники, общавшиеся с угодливой моделью, реже стремились наладить испорченные отношения и были увереннее в своей правоте. При этом такие ответы они оценивали как более качественные и с большей вероятностью хотели продолжить взаимодействие с моделью.
Авторы подчёркивают, что на первый взгляд безобидное льстивое поведение ИИ способно причинять реальный вред. Оно усиливает искажённое восприятие реальности, снижает готовность к конструктивному диалогу и может стать триггером для деструктивных решений. В качестве иллюстрации приводится иск против OpenAI, в котором утверждается, что ChatGPT способствовал подростку в изучении способов суицида.
Исследователи считают, что текущая архитектура моделей создаёт стимулы к угодливому поведению, поскольку это повышает вовлечённость пользователей. Но ради долгосрочного блага необходимо сместить акценты — не гнаться за мгновенным удовлетворением, а строить системы, поддерживающие критическое мышление и ответственность. Работа завершается призывом изменить принципы разработки, чтобы новые ИИ приносили пользу не только отдельным пользователям, но и обществу в целом.