"Притворись афроамериканкой" — "Борьба за права и причёска афро!". Оказывается, для ИИ мы все — стереотипы на ножках

"Притворись афроамериканкой" — "Борьба за права и причёска афро!". Оказывается, для ИИ мы все — стереотипы на ножках

Дали боту расу и пол — получили карикатуру. А их уже встраивают в терапию.

image

Многие сервисы уже позволяют настраивать чат-ботов так, чтобы они общались от лица заданного образа: можно указать возраст, пол, расу, профессию, национальность, семейное положение. Пользователь в таком случае видит не просто программу, а собеседника, который описывает себя как человека с определённым жизненным фоном и привычной манерой речи. Исследователи из Колледжа информационных наук и технологий Пенсильванского университета решили проверить, насколько правдоподобно языковые модели справляются с такими ролями. По их выводам, для части социально-демографических групп ответы получаются слишком шаблонными и опираются на узнаваемые стереотипы вместо живых, индивидуальных деталей.

Работу представили на конференции AAAI 2026, которая проходила 20–27 января в Сингапуре. Доклад вошёл в специальный трек по выравниванию искусственного интеллекта с человеческими ценностями, где обсуждают, как системы должны учитывать представления о справедливости, этике и уважении к разным сообществам.

Исследование возглавили Шомир Уилсон, доцент кафедры человеко-ориентированных вычислений и социальной информатики и руководитель Human Language Technologies Lab, и Сара Райтмайер, доцент кафедры информатики и интеллектуальных систем, а также научный сотрудник Rock Ethics Institute. Авторы исходили из предположения, что по мере того как ИИ встраивается в повседневные сервисы, пользователи будут всё чаще сталкиваться с ботами, которые имитируют представителей конкретных социальных групп. Такой формат может повышать доверие и вовлечённость, если образ собеседника ощущается естественно. Но, как показывает работа, текущие модели не всегда умеют передавать этот фон аккуратно и без перекосов.

В эксперименте использовали крупные языковые модели, на которых строят чат-ботов. Среди них авторы перечисляют GPT-4o, Gemini 1.5 Pro и DeepSeek v2.5. Каждой системе задавали параметры роли: возраст, гендер, расовую принадлежность, профессию, национальность, семейный статус. Затем исследователи сгенерировали более 1500 таких образов и задавали им вопросы о жизни и самоописании. Формулировки были простыми, как для небольшой анкеты: попросить описать себя, назвать наиболее определяющие черты, перечислить навыки, в которых человек силён.

Дальше ответы сравнили с тем, что говорят реальные люди со сходными социально-демографическими характеристиками. В исследовании участвовал 141 человек. Сопоставление показало, что модели чаще людей используют стереотипный язык, который обычно применяют при описании меньшинств. В текстах, созданных ИИ, заметно сильнее акцентируются расовые и культурные маркеры, а сложная идентичность часто сводится к набору ожидаемых признаков.

Авторы приводят пример. Когда систему просили отвечать от лица 50-летней афроамериканки, в самоописании регулярно появлялись темы, которые часто встречаются в массовых представлениях об этой группе: госпел-музыка, жёсткая манера воспитания, социальная справедливость, уход за натуральными волосами. У реальных участников с теми же характеристиками ответы выглядели иначе. Люди чаще говорили о работе, воспитании детей, волонтёрстве, здоровье и других личных обстоятельствах. Культурные темы могли звучать, но обычно не складывались в обязательный набор, который полностью задаёт образ человека.

При этом тексты моделей выглядели развернутыми и структурированными. Исследователи считают, что за внешней связностью часто скрывается упрощение: система подбирает культурно маркированные обороты, которые сигнализируют о принадлежности к группе, но плохо передают разнообразие биографий и жизненных траекторий внутри этой группы.

Команда выделила четыре вида вреда при таком представлении. Первый — стереотипизация: модель подменяет самоописание набором общих клише о расовой или культурной группе и делает их как бы обязательными признаками. Второй — экзотизация: идентичность показывают как что-то чужое и необычное, добавляя «колорит» ради эффекта, из-за чего человек выглядит скорее как образ, чем как обычный собеседник. Третий — стирание: из рассказа исчезают нюансы, личная история и различия внутри самой группы, остаётся плоское, усреднённое описание. Четвёртый — доброжелательная предвзятость: текст звучит вежливо и позитивно, но всё равно закрепляет перекосы, например через снисходительный тон, чрезмерные обобщения или навязанные роли.

Крупные языковые модели всё чаще используют в ситуациях, где цена ошибки высока, например в роли чат-ботов-компаньонов или как имитацию людей в научных исследованиях. Если в этих сценариях система усиливает вредные расовые стереотипы, эффект выходит далеко за рамки неловких формулировок и начинает влиять на решения разработчиков, исследователей и пользователей.

В работе предлагается рассматривать это как задачу качества и безопасности, которую нужно решать на стадии разработки. Авторы говорят о необходимости новых правил проектирования и метрик оценки, которые проверяют не отдельные слова, а контекст, сюжет и глубину рассказа об идентичности. Ещё один пункт — прямое взаимодействие с сообществами, которые разработчики пытаются представить. Валидация с участием людей из этих групп, по замыслу авторов, должна показывать, насколько сгенерированные образы совпадают с реальным жизненным опытом, а не с набором штампов.