Китайцы создали "уникальный" ИИ — точь-в-точь как у Google

Китайцы создали "уникальный" ИИ — точь-в-точь как у Google

Китайский ИИ, который думал как Gemini, но притворялся ChatGPT.

image

На прошлой неделе китайская лаборатория DeepSeek представила новую версию своего ИИ-моделя R1, получившую индекс R1-0528. Обновлённая система продемонстрировала впечатляющие результаты на математических и программных тестах, однако сразу же вызвала волну подозрений среди специалистов. Причина — схожесть с результатами, характерными для ИИ из линейки Gemini от Google.

Источники данных, использованных для обучения R1-0528, официально не раскрываются, но отдельные признаки натолкнули исследователей на мысль, что модель могла быть частично обучена на выходных данных Gemini 2.5 Pro. Об этом сообщил разработчик Сэм Пэк, занимающийся тестированием «эмоционального интеллекта» ИИ. По его наблюдениям, R1-0528 склонна выбирать формулировки, характерные для модели Google. Аналогичные выводы сделал и анонимный разработчик, создавший оценку свободы выражения для ИИ под названием SpeechMap: по его словам, «мышление» DeepSeek подозрительно напоминает поведение Gemini в логических задачах.

Прямых доказательств пока не представлено, но это далеко не первый случай, когда DeepSeek подозревают в использовании данных конкурентов. Ещё в декабре 2024 года разработчики заметили, что модель DeepSeek V3 нередко идентифицировала себя как ChatGPT, что наводило на мысль об использовании журналов чатов OpenAI для обучения. Позднее стало известно, что Microsoft, как один из главных партнёров OpenAI, зафиксировала подозрительную активность в разработческих аккаунтах OpenAI — по их мнению, связанной с DeepSeek. Через эти аккаунты в конце 2024 года могли быть выгружены крупные объёмы данных.

Такие действия напоминают технику, известную как дистилляция — процесс, при котором новая модель обучается на выходных данных более продвинутой системы. Несмотря на то, что метод считается технически допустимым, он напрямую нарушает условия обслуживания OpenAI: использовать ответы их моделей для создания конкурирующих решений запрещено. Как показывают исследования, проблемы с безопасностью китайской модели выходят далеко за рамки простого нарушения пользовательских соглашений.

При этом распознать источник обучения становится всё сложнее. Интернет захлёстывает волна контента, созданного ИИ, и многие современные модели независимо друг от друга начинают использовать одни и те же обороты, термины и фразы. Боты генерируют тексты на Reddit и X*, а сайты-контент-фермы заполняют выдачу однотипным ИИ-спамом. Всё это усложняет фильтрацию обучающих наборов и позволяет чужим данным просачиваться сквозь защиту. Дополнительную озабоченность вызывает тот факт, что данные пользователей DeepSeek передаются на серверы в Китае.

Тем не менее, по мнению некоторых специалистов, допустить возможность обучения DeepSeek на результатах Gemini — вполне реалистичный сценарий. Так считает, например, Нейтан Ламберт из исследовательского института AI2. По его словам, имея деньги, но ограниченное количество видеокарт, логичным ходом для DeepSeek было бы массовое генерирование синтетических данных с помощью лучших публичных моделей.

В ответ на участившиеся попытки дистилляции, крупнейшие ИИ-компании ужесточают защиту. OpenAI в апреле начала требовать прохождения верификации по ID для доступа к некоторым продвинутым моделям, при этом список поддерживаемых стран не включает Китай. Google пошёл ещё дальше: теперь следы рассуждений (traces), которые генерируют их модели на платформе AI Studio, подвергаются предварительному «сжатию» — этот шаг затрудняет копирование логики моделей. Аналогичную меру недавно внедрила и Anthropic, объяснив это желанием защитить конкурентные преимущества своих решений.

Пока Google не дал официального комментария по ситуации с DeepSeek, но, судя по усиливающимся мерам защиты в индустрии, проблема дистилляции и утечки данных уже переросла в серьёзную гонку за контроль над интеллектуальной собственностью. Эксперты также отмечают, что китайская модель имеет серьёзные уязвимости в системах безопасности, что может создавать дополнительные риски для пользователей.

Красная или синяя таблетка?

В Матрице безопасности выбор очевиден.