Безопасно ли использовать ChatGPT, Claude и другие LLM-сервисы?

Безопасно ли использовать ChatGPT, Claude и другие LLM-сервисы?

Куда уходят данные из переписок ИИ и кто может их прочитать.

image

За последние пару лет большие языковые модели из экспериментальной технологии превратились в повседневный инструмент. ChatGPT помогает составлять письма, Claude разбирает документы, всевозможные ИИ-ассистенты решают задачи от написания кода до творческих проектов. Но за этим удобством кроется вопрос, который многие предпочитают не замечать.

Куда деваются наши данные, когда мы общаемся с искусственным интеллектом? Переписка остается конфиденциальной или становится частью чужой базы знаний? Можно ли доверять ИИ корпоративные секреты? Ответы оказываются сложнее, чем хотелось бы.

Безопасность LLM-сервисов зависит от множества факторов. Политики конфиденциальности у разных компаний отличаются кардинально — одни дают пользователям полный контроль над данными, другие откровенно монетизируют информацию. Где-то можно отключить обучение модели на ваших диалогах, где-то такой возможности просто нет.

Что происходит с данными в популярных LLM-сервисах

Давайте разберем, как обстоят дела с конфиденциальностью в самых известных сервисах. Картина получается пестрой.

OpenAI ChatGPT: контроль в руках пользователя

Политика OpenAI выглядит довольно прозрачной, хотя есть нюансы. Все диалоги с ChatGPT по умолчанию сохраняются на серверах компании. Эти данные могут просматривать модераторы, если система заподозрит нарушение правил. В бесплатной версии введенная информация потенциально используется для обучения будущих версий модели.

Звучит не очень, но есть и хорошие новости. OpenAI предоставляет реальные инструменты контроля. Права на весь контент остаются за пользователем — компания не претендует на владение информацией. Данные используются только в объеме, необходимом для работы сервиса.

С 2023 года OpenAI изменила настройки по умолчанию. Данные, отправляемые через API или корпоративные продукты, больше не используются для обучения моделей без явного согласия. Бизнес-пользователи могут полностью отключить сохранение истории чатов — переписка тогда хранится максимум 30 дней и не попадает в датасет для обучения.

Для корпоративных клиентов действуют расширенные гарантии. ChatGPT Enterprise обеспечивает шифрование данных, ограничивает их распространение и не обучает модели на бизнес-информации без разрешения. При правильной настройке ChatGPT вполне может быть безопасным инструментом.

Anthropic Claude: фокус на этичности

Claude придерживается схожих, но в некоторых моментах более строгих принципов. Anthropic заявляет, что не использует пользовательские данные для дообучения модели без прямого разрешения. По умолчанию взаимодействия с Claude не попадают в тренировочный датасет, особенно при использовании платного API.

Компания делает ставку на этичность ИИ и минимизацию хранения личных данных. Запросы и ответы хранятся ограниченное время (до двух лет для целей безопасности), но не используются для обучения. Пользователям доступны опции полного отказа от сохранения данных.

По некоторым оценкам, Claude даже строже относится к невключению пользовательского контента в обучение модели по сравнению с конкурентами. Это делает его привлекательным выбором для компаний, серьезно относящихся к конфиденциальности.

Perplexity AI: дополнительный уровень защиты

Perplexity представляет интересный случай. Этот ИИ-ассистент для поиска работает поверх моделей от OpenAI и Anthropic, но добавляет собственный уровень защиты. У компании есть соглашения, гарантирующие, что пользовательские данные не передаются базовым моделям для обучения.

Когда вы делаете запрос через Perplexity, OpenAI или Anthropic получают его только для генерации ответа, но не сохраняют для будущего обучения. Сама Perplexity может использовать историю запросов для улучшения сервиса, но в настройках есть опция AI Data Retention, которая позволяет это отключить.

Получается двойная защита — внешние модели не обучаются на ваших данных, а сам сервис дает возможность отказаться от использования истории запросов.

DeepSeek: красные флажки безопасности

С китайской моделью DeepSeek ситуация совершенно иная. Набирающий популярность сервис вызывает серьезные опасения у специалистов по информационной безопасности. DeepSeek собирает широкий спектр пользовательской информации и передает её на серверы в Китае.

Это создает сразу несколько проблем. Во-первых, данные попадают под юрисдикцию китайских законов, где регулирование персональных данных более мягкое. Государственные органы могут запрашивать доступ к информации на местных серверах. Во-вторых, конфиденциальность не гарантируется — данные хранятся вне защиты таких нормативов, как GDPR.

Политика DeepSeek допускает сбор биометрических поведенческих данных — характеристик набора текста, ритма и скорости печати. Такая информация позволяет уникально идентифицировать пользователя и может использоваться в коммерческих целях.

Веб-версия DeepSeek внедряет сторонние трекеры и делится технической информацией с компаниями вроде ByteDance. Бесплатный сервис действительно платит за свою "бесплатность" вашими данными. Для корпоративного использования это крайне рискованно.

Sber GigaChat: отечественная альтернатива

Российский GigaChat пытается учесть особенности местного законодательства и требования безопасности. Сервис заявляет о надежном шифровании и передаче данных по защищенным каналам. Важный плюс для российских компаний — размещение инфраструктуры внутри страны.

При использовании GigaChat не происходит трансграничной передачи персональных данных, что помогает соблюдать требования ФЗ-152. Данные остаются под защитой российского законодательства, минимизируя риск утечки за рубеж.

Впрочем, полностью конфиденциальным обмен с GigaChat назвать нельзя. Как и другие облачные сервисы, он сохраняет пользовательские запросы у провайдера. Насколько Сбер использует эти данные для обучения модели, публично не раскрывается, но логично предположить, что информация применяется для улучшения сервиса.

Как построить корпоративную политику использования ИИ

Понимая различия между сервисами, компании должны выработать четкие правила работы с ИИ. Без внятной политики сотрудники будут действовать на свой страх и риск, что неизбежно приведет к инцидентам безопасности.

Определение разрешенных сервисов

Первый шаг — провести инвентаризацию популярных ИИ-инструментов и определить, какие из них соответствуют корпоративным требованиям безопасности. Можно запретить использование сервисов с ненадежной политикой конфиденциальности и разрешить только те, которые дают достаточные гарантии.

В черный список могут попасть модели вроде DeepSeek, а также неофициальные приложения и плагины, через которые ИИ получает доступ к данным вне контроля службы информационной безопасности. Политика должна четко указывать, какими именно инструментами можно пользоваться.

Ограничения на конфиденциальную информацию

Самое важное правило — категорический запрет на ввод в публичные LLM любых данных, составляющих коммерческую тайну. Персональные данные клиентов, внутренняя переписка, исходный код, финансовая информация — все это должно быть исключено из использования во внешних ИИ-инструментах.

Вместо реальных данных сотрудники должны использовать обезличенные заполнители вроде звездочек или меток [REDACTED] в редких случаях, когда без упоминания каких-то сведений запрос невозможен. Все чувствительные категории информации должны быть явно перечислены в политике.

Правила работы с документами и кодом

Отдельного внимания заслуживает работа с файлами и программным кодом. Нельзя просто загружать в облачный ИИ целые документы или фрагменты кода, не проверив их на наличие секретной информации. Особенно это касается разработчиков, которые часто используют ИИ для анализа или отладки.

Перед отправкой кода в ИИ необходимо удалить все пароли, ключи API, адреса серверов и другие чувствительные детали. Можно ввести требование использовать ИИ для помощи в программировании только после код-ревью на предмет утечки секретов.

Обучение и контроль сотрудников

Техническими мерами проблему не решить — нужна работа с людьми. Обязательный инструктаж по безопасному использованию ИИ должен объяснять, какие риски несет неосторожная работа с LLM и почему компания вводит ограничения.

Реальные примеры помогают лучше усвоить материал. История с утечками в Samsung наглядно показывает последствия беспечности. Нарушение правил работы с ИИ должно рассматриваться как серьезный инцидент безопасности.

Классификация данных: что можно доверить ИИ

Не вся информация одинаково критична для компании. Разумная классификация поможет определить, что можно обрабатывать через внешние LLM, а что должно оставаться строго внутри периметра.

Общедоступная информация — зеленый свет

К этой категории относятся данные, которые есть в открытых источниках или не представляют ценности для злоумышленников. Черновик пресс-релиза без конкретных цифр, маркетинговый текст, который все равно будет опубликован, код учебного проекта — такую информацию можно обрабатывать через ChatGPT или аналоги без особых опасений.

Даже здесь стоит соблюдать базовые меры предосторожности — не вводить личные данные без необходимости, не нарушать соглашения о неразглашении с партнерами.

Внутренняя информация — осторожно

Сюда попадают данные, которые не совсем публичные, но и не критически важные. Например, результаты внутреннего опроса сотрудников или аналитический отчет по открытым источникам. Такую информацию можно обрабатывать, но с предосторожностями.

Варианты решения: обезличить и агрегировать данные, воспользоваться корпоративной версией ИИ с гарантиями невывоза информации наружу, или перевести сведения в условно-обезличенную форму, заменив названия и убрав указания на компанию.

Конфиденциальные данные — только внутри

Личные данные клиентов, финансовая отчетность, планы продуктов, исходные коды, любые сведения под грифом "коммерческая тайна" — все это категорически нельзя вводить во внешние облачные LLM. Риск слишком велик, а последствия утечки могут быть катастрофическими.

Такие данные можно обрабатывать с помощью ИИ только на внутренней инфраструктуре — либо собственной развернутой моделью, либо изолированным решением от вендора, где гарантируется, что информация никуда не уходит.

Поучительная история Samsung

В 2023 году инженеры Samsung решили воспользоваться ChatGPT для отладки кода и оптимизации процессов. Результат оказался печальным — в открытое облако были загружены фрагменты исходного кода, записи внутренних совещаний и тестовые сценарии.

Руководство компании выпустило срочный меморандум, напоминающий, что все данные, переданные ChatGPT, хранятся на внешних серверах и не могут быть отозваны. Более того, эта информация используется для обучения модели и может стать известна третьим лицам через ответы ИИ другим пользователям.

Samsung пригрозила полным блокированием ChatGPT для сотрудников и всерьез задумалась о создании собственного внутреннего ИИ. Этот пример показывает — нельзя рисковать ключевой информацией, доверяя ее внешнему сервису.

Практические меры защиты данных

Даже при использовании разрешенных сервисов и соблюдении классификации данных важно применять дополнительные меры безопасности. Комплексный подход поможет минимизировать оставшиеся риски.

Минимизация и обезличивание

Золотое правило безопасности — вводить в LLM как можно меньше конкретной информации. Формулируйте запросы так, чтобы не требовалось раскрывать лишние детали. Если задачу можно решить на условных данных — обязательно сделайте это.

Вместо "Проанализируй продажи продукта X в регионе Y за третий квартал" отправьте "Проанализируй набор числовых показателей и выяви тренды", подставив цифры без контекста. Если нужно обсудить текст документа — удалите имена, названия, замените их нейтральными псевдонимами.

Все чувствительные фрагменты лучше закрывать маркерами вроде [CONFIDENTIAL] или звездочками. Модель поймет контекст, но не получит сами секреты.

Настройки конфиденциальности

Многие платформы предоставляют инструменты для защиты данных, но пользователи часто игнорируют их. В первую очередь отключайте сохранение истории везде, где это возможно. В ChatGPT можно выключить сохранение чата — тогда переписка удалится через 30 дней и не будет использована для обучения.

Perplexity позволяет в настройках запретить использование запросов для улучшения моделей. При работе через API убедитесь, что стоит флаг отказа от логирования и тренировки. Также отключайте телеметрию в кодовых ассистентах, если она включена.

Выбор надежных провайдеров

Когда есть выбор между сервисами, отдавайте предпочтение тем, кто дает большие гарантии безопасности. OpenAI в бизнес-версии проходит аудит SOC 2 и обещает не использовать данные клиентов. Anthropic публикует подробные политики хранения и удаления информации.

Малоизвестные новые боты без ясной политики конфиденциальности лучше обходить стороной. Не стесняйтесь запрашивать у поставщиков документы о мерах безопасности — серьезные компании обычно имеют White Paper или Trust Center с подробными описаниями.

Технические барьеры

Для крупных компаний имеет смысл внедрить технические меры контроля. Можно интегрировать LLM через внутренний портал, который сканирует запросы на наличие запрещенных данных. Если система видит слово "пароль" или паттерн номера карты — она отклонит или замаскирует его перед отправкой во внешнюю модель.

DLP-системы могут мониторить трафик и блокировать попытки отправить файлы с грифом "секретно" на сайт OpenAI. Алгоритмы фильтрации на вашей стороне помогут предотвратить попадание чужих конфиденциальных данных в корпоративную среду, если модель попытается их вернуть.

Локальные решения

Наиболее радикальный, но эффективный подход — развернуть собственную LLM внутри компании. Если вы регулярно работаете с конфиденциальными данными, стоит инвестировать в приватную модель. Доступны неплохие открытые решения вроде Llama или Qwen, которые можно дообучить под свои нужды.

Главное преимущество — полный контроль над данными. Ничего никуда не уходит, все вычисления локальны, вопрос доверия отпадает. Вы сами решаете, как хранится история запросов и кто имеет доступ к системе.

Да, локальная LLM может уступать по возможностям GPT-4, да, ее нужно администрировать. Зато утечки через канал ИИ практически исключены. После инцидента Samsung многие крупные компании пошли именно по этому пути.

Защита интеллектуальной собственности от превращения в датасет

В эпоху, когда каждая пользовательская сессия потенциально питает модель новыми знаниями, появляется неожиданный риск. Ваша уникальная разработка или авторский текст могут внезапно "всплыть" в ответах ИИ другим людям. Как этого избежать?

Принцип необратимости

Как только вы отправили авторский текст в ChatGPT, помните — он сохранится на серверах OpenAI и может использоваться при обучении новой версии. Отозвать эти данные невозможно, они навсегда покинули ваше владение.

Даже если юридически права остаются за вами, фактически ваше ноу-хау стало частью базы знаний чужой модели. Поэтому думайте дважды, прежде чем делиться с ИИ чем-то действительно ценным. Готовы ли вы, что этот контент станет известен кому-то еще?

Режимы без обучения

У многих сервисов есть платные или корпоративные варианты, где обучение на пользовательских данных отключено. Используйте их для работы с ценным контентом. Если нужно задать вопрос по патентному описанию — делайте это через ChatGPT Enterprise, а не через бесплатный чат.

У бесплатного ChatGPT можно включить режим без сохранения истории — тогда сессия не попадет в публичный датасет. Это не равно стопроцентной защите, но существенно снижает риск утечки через обучение модели.

Водяные знаки и следы

Продвинутый прием — если крайне необходимо использовать свой контент для генерации, можно пометить его специальными маркерами. Например, вставить невидимые символы или ошибочные данные, по которым потом можно распознать утечку.

Если впоследствии где-то появится текст с таким же уникальным набором символов — вы будете знать источник утечки. Также можно разбивать большие тексты на части и перемешивать их, не выдавая сразу всю суть целиком.

Внутреннее обучение

Если у вас есть большой массив собственной интеллектуальной собственности и хочется применить к нему ИИ — лучше обучить модель локально на этих данных. Тогда вы получите все преимущества ИИ, но никуда наружу ваш "датасет" не уйдет.

По сути, вы создаете узкоспециализированную модель, которая обучена на вашей базе знаний и обслуживает только вас. Современные фреймворки и открытые модели позволяют это сделать при разумных затратах.

Мониторинг утечек

Парадоксальный, но полезный совет — регулярно проверяйте, не утек ли ваш контент в открытые модели. Можно мониторить публичные сгенерированные тексты на наличие подозрительных совпадений с внутренними документами.

Если ИИ где-то выдал точно вашу уникальную фразу — это тревожный сигнал. Значит, либо данные попали в обучающую выборку, либо кто-то их ввел и поделился. Так вы хотя бы узнаете о факте утечки и сможете принять меры.

Использовать ChatGPT, Claude и другие LLM можно безопасно — если делать это с умом. Выбирайте надежные сервисы, соблюдайте внутренние правила, не разглашайте лишнего. Тогда искусственный интеллект станет помощником, а не источником утечек. Взвешенный подход и информированность остаются лучшей защитой в эпоху ИИ.

CyberCamp 2025 открыл регистрацию.

С 20 по 25 октября пройдет IV онлайн-конференция по кибербезопасности CyberCamp 2025 — крупнейшие киберучения в России, где прокачивают реальные навыки.

Регистрируйся прямо сейчас.

Реклама. 18+ АО «Инфосистемы Джет», ИНН 7729058675