ИИ-шпион: чат-боты могут украсть ваши самые сокровенные мысли

ИИ-шпион: чат-боты могут украсть ваши самые сокровенные мысли

Исследователи придумали цифровую сыворотку правды для популярных чат-ботов.

image

Чат-боты на базе ИИ стали привычной частью жизни людей менее чем за год, позволяя нам свободно делиться самыми сокровенными мыслями и быстрее выполнять рабочие задачи. Однако новое исследование команды ученых из лаборатории Offensive AI Research Lab Университета Бен-Гуриона в Израиле обнажило серьезную уязвимость, грозящую полным раскрытием бесед с такими системами, как ChatGPT.

В их основе лежит эксплуатация бокового канала - непреднамеренного источника утечки секретной информации, связанного с особенностями реализации системы. В данном случае боковым каналом служит способ передачи данных между чат-ботами и пользователями.

Для того чтобы чат-бот выдавал ответы плавно, а не одним куском текста, система генерирует и отправляет текст небольшими фрагментами - токенами. Сами токены зашифрованы, но их длина видна злоумышленнику, который может перехватить трафик. Это позволяет хакерам угадывать содержание зашифрованных сообщений.

На первом этапе атаки, получив последовательность длин токенов зашифрованного ответа, злоумышленник может подобрать все возможные комбинации слов. Учитывая огромное количество вариантов даже для одного предложения, на этой стадии результат будет крайне неточным.

Для его обработки исследователи придумали собственный метод, который они назвали "атакой вывода токенов". Суть метода в использовании специально обученных больших языковых моделей, способных переводить необработанные данные бокового канала в окончательный текст, опираясь на стилистические особенности чат-ботов и фразы, которые они часто повторяют.

В результате, как показали эксперименты, в 55% случаев атака позволяет точно определить общую тему сообщения, причем с высокой точностью, по конкретным словам. А в 29% случаев можно безупречно воссоздать полный оригинальный текст слово в слово.

"Это полное нарушение конфиденциальности частных бесед в ChatGPT и других сервисах", - прокомментировал ситуацию Йисроэль Мирски, возглавляющий исследовательскую группу. По его словам, взлом может происходить в полностью пассивном режиме, незаметно для самого чат-бота и пользователя. Достаточно иметь возможность перехвата зашифрованного трафика между ними.

Языковые модели, задействованные в атаке, обучались на публичных примерах диалогов из интернета. Одна модель специализировалась на первых предложениях, другая - на последующих частях текста, опираясь на контекст и общие закономерности.

Эффективность атаки неодинакова для различных типов контента. Наиболее уязвимыми оказались стандартные ответы чат-ботов на типичные вопросы о жизни, истории и прочих общих темах. Напротив, произвольный уникальный контент, лишенный явных закономерностей, гораздо сложнее поддается взлому.

Изначально для успешной атаки требуется обучить языковую модель под конкретного чат-бота. Однако ученые отметили, что после этого нет необходимости повторять процесс для каждой новой системы. Схему легко перенести на другие чат-боты аналогичного типа.

Чтобы перехватить трафик, атакующий должен находиться в одной локальной сети с жертвой или иметь соответствующие привилегии у интернет-провайдера. Шифрование трафика, применяемое разработчиками ботов, призвано защитить от подобных сценариев, однако оказалось неэффективным.

Для устранения выявленной уязвимости эксперты предложили два возможных решения. Первый вариант - отправлять токены не по одному, а более крупными пакетами. Второй - использовать технику "подбивки", когда к пакетам добавляются случайные пробелы для сокрытия истинных длин токенов. Однако оба этих метода потенциально могут снизить удобство работы с чат-ботами, вызывая задержки при получении ответов и нарушая плавность диалога.

После публикации работы компании OpenAI и Cloudflare оперативно внедрили защиту с помощью подбивки пакетов. OpenAI официально подтвердил необходимость срочных мер для устранения угрозы конфиденциальности данных. Корпорация Microsoft также заявила, что планирует исправить уязвимости в ближайшем обновлении.

Ваша приватность умирает красиво, но мы можем спасти её.

Присоединяйтесь к нам!