«Что читала ваша нейросеть?» Разработчиков российского ИИ обяжут раскрыть источники обучающих данных

8606
«Что читала ваша нейросеть?» Разработчиков российского ИИ обяжут раскрыть источники обучающих данных

Почему бесплатные данные для обучения ИИ в России могут стать вне закона.

image

Разработчиков отечественных моделей искусственного интеллекта могут обязать раскрывать сведения о наборах данных, на которых нейросеть обучалась или тестировалась. Такая инициатива обсуждается отраслевыми ассоциациями, компаниями в сфере ИИ и профильным регулятором в рамках подготовки законопроекта об ИИ, сообщают «Ведомости» со ссылкой на двух участников обсуждения из разных компаний.

По словам одного из собеседников, разработчик должен будет предоставлять достаточно подробный набор сведений. В одной из рабочих версий законопроекта Минцифры упоминалось, что потребуется указывать наименование набора данных, дату создания, назначение использования, формат, объем и происхождение. Где именно будет собираться эта информация, пока не определено. Среди вариантов обсуждаются отдельный реестр отечественного ИИ или реестр отечественных наборов данных.

У инициативы есть предыстория. В июне 2025 года замминистра цифрового развития Александр Шойтов говорил о планах создать реестр доверенного ИИ для применения на объектах критической инфраструктуры, но дальнейшая судьба проекта остается неизвестной. При этом в декабре 2025 года правительство утвердило требования к программно-аппаратным комплексам для ИИ, которые нужны для включения таких решений в реестр отечественного ПО. Иных реестров для ИИ-технологий в стране пока нет.

Сама инициатива раскрытия датасетов, как отмечают участники обсуждений, пока не вошла в текущую версию законопроекта, поскольку документ носит рамочный характер и не включает такие детали. Это подтвердили и в Минцифры: в актуальной редакции нет положений о раскрытии данных, на которых обучаются модели.

Параллельно правительство прорабатывает общую рамку регулирования ИИ. В ней планируют определить критерии «российской» нейросети, вопросы авторского права, маркировку ИИ-контента, а также права, обязанности и ответственность. Также обсуждается гибкий подход к рискам: в том числе меры по предотвращению использования ИИ в преступных целях и идея считать применение ИИ отягчающим обстоятельством при правонарушениях.

В отрасли предупреждают, что полное и точное описание огромных массивов обучающих данных в формате реестра может потребовать ресурсов, несоразмерных эффекту, либо свестись к формальному перечислению без аналитической ценности. При этом плюсы инициативы очевидны: рост доверия к моделям, возможность независимой оценки качества и появление единых стандартов отчетности. Среди рисков называют дополнительную нагрузку на разработчиков и возможное замедление внедрения сервисов из-за того, что технологии развиваются быстрее регулирования.

Отдельный блок дискуссии связан с деньгами и авторским правом. Раскрытие источников данных может подтолкнуть формирование коммерческого рынка данных и вывести из серой зоны практику обучения моделей на максимально доступных массивах без согласования с владельцами. В таком случае рынку потребуются механизмы лицензирования, а компаниям придется заметно аккуратнее подходить к отбору данных и правам на контент.