Диагнозы, долги и аборты: что нашли в базах данных, куда стекаются ваши промпты для ИИ

В любой непонятной ситуации — не пиши лишнего в чат-бот.

Приватные беседы с ИИ-чатботами все чаще превращаются в товар. The Register со ссылкой на доклад эксперта по ИИ Ли С. Драйбурга пишет, что такие переписки попадают в коммерческие базы данных и становятся доступны клиентам брокеров данных.

Схема строится вокруг браузерных расширений, которые пользователи ставят ради бесплатного VPN, блокировки рекламы или другой полезной функции. Политику конфиденциальности в таких случаях обычно никто не читает. После установки расширение может незаметно перехватывать обращения к ИИ-сервисам, вмешиваясь в работу встроенных функций браузера fetch() и XMLHttpRequest(). В результате расширение получает доступ к каждому промпту и каждому ответу в ChatGPT, Gemini, Claude и DeepSeek. Дальше переписки сохраняются в векторных базах данных и открываются корпоративным клиентам через API.

Драйбург впервые публично рассказал о такой схеме еще в сентябре 2025 года. В декабре того же года компания Koi Security выпустила собственное исследование с говорящим названием: «ИИ-переписки восьми миллионов пользователей продавались ради прибыли через "приватные" расширения».

Формально собранные данные считаются анонимизированными. Каждому пользователю присваивается обезличенный идентификатор на основе SHA-256-хеша. Проблема в другом: текст переписок хранится дословно. Во многих сообщениях встречаются реальные имена, даты рождения, номера медицинских карт и коды диагнозов. Деанонимизировать такой массив не так уж сложно, а современные языковые модели только упростили задачу.

Проведя 205 запросов к крупной GEO-платформе, Драйбург нашел около 490 уникальных промптов, связанных более чем с 435 пользователями и охватывающих 20 чувствительных категорий. В выборке встретились разговоры о депрессии, суициде, самоповреждении, онкологических диагнозах, ВИЧ и других инфекциях, передающихся половым путем, абортах, иммиграционном статусе, домашнем насилии, детских разговорах, финансовых трудностях, сексуальной ориентации, гендерной идентичности, судимостях и даже клинические заметки с персональными медицинскими данными, защищенными американским законом HIPAA. Больше всего исследователя встревожил другой вывод: медицинские работники вставляют в чат-боты реальные данные пациентов для обработки, а затем такая информация оседает в коммерческих базах.

Среди найденных примеров оказался запрос с именем и датой рождения: «Я беременна? [имя скрыто] [дата рождения скрыта] Я знаю, что ты не захочешь отвечать на такие вопросы, но я в панике...». В другой части массива встретились диалоги, которые, судя по содержанию, принадлежат нелегальным мигрантам и просителям убежища. Люди спрашивали чат-боты о собственном правовом статусе, а затем такие разговоры оказывались в коммерческой базе. По словам Драйбурга, в нынешней политической обстановке подобные утечки несут уже вполне конкретные юридические риски.

Исследователь заметил и еще одну опасную тенденцию. Многие сотрудники загружают в чат-боты внутренние корпоративные документы, чтобы быстро переписать текст или сделать краткое резюме. В результате в тех же базах оказываются и фрагменты конфиденциальной деловой информации. Отдельный пласт составляют переписки из аккаунтов с совместным доступом, который нарушает правила сервисов. Удаленные исполнители, работающие на западных клиентов, покупают доступ к одной подписке через посредников и, как предполагает Драйбург, нередко пользуются теми же бесплатными VPN-сервисами, которые параллельно собирают данные.

Контейнеры видите? Я защитил. Теперь ваша очередь. — Json Стетham Runtime Radar Hack: найдите событие. Напишите детектор.

Диагнозы, долги и аборты: что нашли в базах данных, куда стекаются ваши промпты для ИИ

Подпишитесь на email рассылку