Сломать ИИ без джейлбрейка? Достаточно попросить его "вжиться в роль". (Спойлер: в роли он оказывается очень плохим)

Сломать ИИ без джейлбрейка? Достаточно попросить его "вжиться в роль". (Спойлер: в роли он оказывается очень плохим)

Встроенные ограничения ChatGPT и Gemini обходятся даже без технических знаний — обычные вопросы вызывают предвзятость.

image

Специалисты Пенсильванского университета выяснили, что для обхода встроенных ограничений в чат-ботах на основе искусственного интеллекта, таких как ChatGPT и Gemini, вовсе не нужно обладать техническими навыками. Даже простые и понятные вопросы способны вызвать у модели предвзятые или дискриминационные ответы — наравне с запросами, созданными специалистами по сложным методикам.

Команда установила, что проявления скрытых предубеждений в ИИ можно спровоцировать не только с помощью так называемых «взломов» — генерации случайных последовательностей символов для обхода фильтров, — но и обыденным языком, которым пользуется любой человек. По словам исследователя, именно такой «живой» сценарий общения позволяет увидеть, как предвзятость проявляется в реальных условиях, а не в лабораторных тестах.

Чтобы подтвердить это, учёные провели эксперимент. Участникам предлагалось придумать запросы, которые приведут генеративные модели к предвзятым или дискриминационным ответам. В тесте приняли участие 52 человека, представившие 75 примеров взаимодействия с восемью различными моделями. Каждый пример сопровождался пояснением того, какой именно тип предвзятости проявился — от возрастных стереотипов до исторических и культурных искажений.

Затем исследователи провели интервью с частью участников, чтобы понять, как они формулируют запросы и что вкладывают в понятия «справедливость» и «репрезентация». После этого собранные запросы протестировали в нескольких языковых моделях, чтобы проверить, сохраняется ли предвзятость при повторных обращениях. Из 75 примеров 53 дали воспроизводимые результаты, что позволило выделить восемь основных категорий предвзятости: гендерную, расовую, этническую и религиозную, возрастную, связанную с инвалидностью, языковую, историческую (с уклоном в пользу западных стран), культурную и политическую.

Кроме того, участники использовали 7 основных стратегий, чтобы спровоцировать предвзятые ответы. Среди них — просьбы к модели «вжиться в роль», создание гипотетических ситуаций, использование знаний о малоизвестных темах, на которые ИИ часто реагирует шаблонно, а также проверка реакции на недостоверную информацию или спорные вопросы. Иногда пользователи оформляли свои запросы как «исследовательские», чтобы модель отвечала свободнее.

Организатор конкурса отметил, что подобные интуитивные подходы помогли выявить неожиданные виды предвзатости. Так, победивший в конкурсе пример показал, что модели явно предпочитают внешность, соответствующую «классическим стандартам красоты»: лицо без акне воспринималось как более надёжное, а обладатель высоких скул — как более подходящий кандидат на работу.

Специалисты подчеркнули, что устранение подобных перекосов — это непрерывная гонка между разработчиками и возникающими проблемами. В качестве возможных мер они предложили внедрение фильтров для анализа ответов до их отправки пользователю, проведение расширенного тестирования, обучение пользователей и добавление ссылок на источники, чтобы можно было проверить достоверность информации.