Фрейминг-эффект настолько силен, что грозит обрушить доверие к ИИ-модерации.

Учёные выявили системный эффект фрейминга в оценках крупнейших языковых моделей — от OpenAI и xAI до DeepSeek и Mistral. При проверке почти 200 000 суждений выяснилось, что модели демонстрируют не только поразительное единодушие в восприятии общественно-политических тем, но и одинаково сбиваются, когда им подсказывают, кто якобы написал текст. Оценка резко меняется, если сообщить, что автор — человек из Китая.
В работе анализировались 4 современные модели: OpenAI o3-mini, DeepSeek Reasoner, xAI Grok 2 и Mistral. Каждой из них предлагалось сформулировать позиции по 24 острым вопросам — от политики вакцинации и климата до вооружённых конфликтов и статуса Тайваня. Всего было создано 4 800 текстов, затем эти же модели 192 000 раз оценили, насколько они согласны с каждым утверждением, при этом источники текста периодически подменяли.
Когда информация об авторе отсутствовала, совпадение оценок достигало 90–95 %, что показало почти полное согласие между системами и внутри каждой из них. Но стоило добавить атрибуцию — например, «написано человеком из Китая» — уровень согласия резко снижался. Падение фиксировалось у всех моделей, включая китайскую DeepSeek Reasoner, где отрицательный сдвиг оказался самым сильным: −6,18 % в среднем и до −24 % при темах международных отношений. Даже в темах про Тайвань и территориальные споры у DeepSeek был категорически несогласен с теми же текстами, которые под нейтральной подписью ранее оценивал на 85–95 %.
Схожая тенденция наблюдалась и у американских моделей: Grok 2 и o3-mini снижали оценки при китайской подписи, тогда как французская Mistral демонстрировала небольшой, но устойчивый минус. При этом, если тексты приписывались не людям, а другим ИИ-системам, средние баллы также падали, пусть и незначительно: модели чуть выше оценивали суждения, которые, по их мнению, исходили от человека.
Любопытно, что при анализе «самооценок» никакой идеологической поляризации не выявлено: модели разных стран одинаково поддерживали идеи универсального здравоохранения, климатической ответственности и права меньшинств. Исследователи отмечают, что вопреки медийным мифам об «американской» или «китайской» предвзятости, нейросети на практике формируют почти единый усреднённый взгляд — эффект «мудрости толпы». Однако их нейтралитет нарушается, как только в подсказке появляется указание на национальность или тип автора.
Авторы работы предполагают, что модели воспроизводят вероятностные ассоциации, усвоенные из обучающих данных, — например, ожидают, что «человек из Китая» должен придерживаться официальной линии Пекина. Поэтому, если текст выражает противоположное мнение, система снижает оценку, считая высказывание неправдоподобным. Этот механизм напоминает человеческие когнитивные искажения, когда восприятие аргумента зависит от источника.
Исследование подчёркивает риск использования ИИ для автоматической модерации и экспертных оценок. Даже минимальная информация об авторе может исказить результат, делая систему уязвимой к фреймингу. Учёные предлагают проверять такие эффекты при внедрении LLM в госуправление, медиа и образование, а также анонимизировать источник текста во время машинных проверок. По мнению специалистов, именно прозрачность и регулярные аудиты помогут избежать скрытых перекосов в будущем.