Как обмануть ChatGPT короткой фразой c Reddit? Учёные доказали, что умный поиск пасует перед чужими комментариями

Алгоритмы верят тексту обычных пользователей больше, чем проверенным и надёжным источникам.

ИИ-сервисы для поиска всё чаще выглядят как быстрый путь к ответу, однако такой ответ можно легко исказить всего одной короткой фразой в чужом комментарии. Хэл Трайдман, Тинвэй Чжан и Виталий Шматиков из Корнеллского университета выяснили, что небольшие фрагменты пользовательского текста способны менять ответы агентов углублённого поиска, которые собирают материалы из сети для ChatGPT и поисковых функций Google на базе ИИ.

Исследование посвящено отравлению пользовательским контентом на площадках вроде Reddit, Wikipedia и Quora. По данным авторов, такие источники встречаются примерно в половине запросов к агентам углублённого поиска, а почти четверть всех ссылок ведёт на сайты с пользовательскими публикациями. Из-за этого даже один «отравленный» комментарий может повлиять на целую группу похожих запросов.

Механизм оказался простым. Модели часто оценивают найденный текст по близости к формулировке запроса, а не по надёжности источника. Если короткая вставка похожа на популярный вопрос пользователя, система может принять её за полезную подсказку, включить в ответ рекламное или мошенническое содержание и сослаться на исходный тред.

Чтобы проверить гипотезу, специалисты не размещали на Reddit вредоносные сообщения. Они взяли данные через API и подменяли фрагменты при передаче текста агенту, то есть проверяли атаку в изолированной среде. В одном тесте короткая рекламная вставка в обсуждении еды рядом с Остином заставила модель порекомендовать указанное заведение. В другом примере вымышленное приложение для знакомств попало в ответ после похожей вставки в обсуждении на тематическом сабреддите.

Реальные площадки уже сталкиваются с похожей проблемой. Модераторы Reddit и редакторы Wikipedia борются с контентом, который бренды намеренно публикуют ради видимости в ИИ-поиске. Авторы работы считают, что нагрузка на модераторов будет лишь расти, потому что длинный рекламный текст легче заметить, чем несколько слов, аккуратно добавленных в обычный комментарий.

Reddit заявил, что давно борется со спамом, ботами, скоординированными кампаниями и недостоверной активностью, а владельцев подозрительных автоматизированных аккаунтов могут попросить подтвердить, что за ними стоит человек. Снизить риск, по мнению авторов, должны не только модерация и проверка подозрительных аккаунтов, но и изменения на стороне ИИ-сервисов, которым нужно лучше различать случайные комментарии, материалы сообществ и более надёжные источники.

Кто-то прячет адрес ради сериалов. Вы — ради новостей про кибербезопасность.

Как обмануть ChatGPT короткой фразой c Reddit? Учёные доказали, что умный поиск пасует перед чужими комментариями

Подпишитесь на email рассылку