Останется ли ваш «секретный» код действительно секретным после 24 апреля?

GitHub решил изменить правила игры для пользователей Copilot: уже с 24 апреля сервис начнет использовать переписку с ИИ, фрагменты кода и рабочий контекст для обучения собственных моделей. Новые условия затронут клиентов Copilot Free, Pro и Pro+, а вот корпоративные тарифы Business и Enterprise, а также студенты и преподаватели под действие политики не попадут.
Отказаться от передачи данных можно, но только вручную. Для этого GitHub предлагает открыть страницу /settings/copilot/features и отключить пункт Allow GitHub to use my data for AI model training в разделе Privacy. Подход знакомый для американского рынка: компания включает сбор данных по умолчанию и оставляет пользователю право самостоятельно запретить использование информации.
Директор по продукту GitHub Марио Родригес в блоге компании объяснил решение желанием точнее понимать рабочие процессы разработчиков, предлагать более аккуратные и безопасные шаблоны кода и чаще замечать потенциальные ошибки до попадания в продакшен. По словам Родригеса, похожий подход уже дал заметный эффект внутри Microsoft, где взаимодействие сотрудников с ИИ помогло повысить долю принятых подсказок.
GitHub собирается собирать довольно широкий набор сведений: принятые и отредактированные ответы модели, введенные запросы, показанные сервису фрагменты кода, контекст вокруг позиции курсора, комментарии и документацию, названия файлов, структуру репозитория, действия внутри функций Copilot, включая чаты, а также пользовательскую оценку ответов.
Компания в разделе вопросов и ответов отдельно напоминает, что похожие правила действуют у Anthropic, JetBrains и у самой Microsoft. Формально ссылка на отраслевую практику выглядит как попытка показать, что рынок уже давно движется в сторону модели с автоматическим согласием и возможностью отказаться позже.
Наиболее неприятный момент связан с приватными репозиториями. В документации GitHub такие хранилища описаны как доступные только владельцу, пользователям с выданным доступом и, в случае организационных репозиториев, определенным участникам организации. Однако новая политика добавляет важную оговорку: если пользователь включил обучение моделей на своих данных, то фрагменты кода из приватных репозиториев могут собираться и использоваться для обучения в момент работы с Copilot внутри такого проекта. Подробности GitHub приводит в справке о видимости репозиториев.
Реакция сообщества пока выглядит скорее раздраженной, чем восторженной. В обсуждении на GitHub пользователи поставили 59 негативных реакций против трех положительных, а среди 39 комментариев заметную поддержку инициативе фактически выразил только вице-президент GitHub по связям с разработчиками Мартин Вудворд.
Скепсис легко понять. Пользователи давно спорят о границах допустимого при обучении ИИ на чужом коде, а история Copilot лишь подливает масла в огонь. OpenAI ранее прямо указывала, что Codex, лежащий в основе Copilot, представляет собой языковую модель GPT, дообученную на общедоступном коде с GitHub. Microsoft также напрямую связывала Copilot с использованием Codex в GitHub Copilot. На таком фоне новый шаг GitHub выглядит не как резкий разворот, а как еще одно расширение уже привычной практики сбора данных.