Золото олимпиад и открытый код. DeepSeekMath-V2 обошла Google и OpenAI на поле чистой математики.

Золото олимпиад и открытый код. DeepSeekMath-V2 обошла Google и OpenAI на поле чистой математики.

Специализированная модель для задач и теорем показывает результаты сильнее многих людей и открывает новую гонку в математическом ИИ.

image

Китайская компания DeepSeek представила новую специализированную модель для решения задач по математике DeepSeekMath-V2. Это крупная языковая модель, заточенная под доказательство теорем и олимпиадные задачи, и главное ее отличие в том, что она не просто выдает ответ, а проверяет собственные рассуждения на корректность.

По сути DeepSeekMath-V2 отвечает на давний вопрос к ИИ: как убедиться, что модель пришла к правильному решению честным путем, а не угадала результат или нашла короткий, но некорректный обходной путь. Большинство современных моделей тренируют так, чтобы они чаще попадали в правильный конечный ответ, за что их поощряет система вознаграждений в духе reinforcement learning. Но в математике этого мало: во многих задачах важен не сам ответ, а строгое и прозрачное доказательство. Авторы прямо пишут, что точный финальный результат не гарантирует корректности рассуждений, а для теорем вообще нет готового «правильного числа», с которым можно свериться.

DeepSeekMath-V2 строится на экспериментальной базе DeepSeek-V3.2-Exp-Base. Команда тренирует отдельную модель-проверяющий, которая оценивает математические доказательства, шаг за шагом ищет логические разрывы и ошибки, а затем использует этого проверяющего как «судью» для основной модели-генератора доказательств. Генератор получает награду не только за правильный финальный ответ, но и за то, насколько его рассуждения проходят строгую проверку. Если проверка проваливается, модель поощряют за попытку сама найти в своем решении слабые места и переписать доказательство так, чтобы оно уже прошло валидацию.

Чтобы система не «сломалась» в тот момент, когда генератор становится умнее проверяющего, разработчики отдельно масштабируют вычислительные ресурсы именно для верификатора. Он учится на все более сложных, трудных для проверки примерах, которые сама же модель генерирует по мере роста своих возможностей. Такой замкнутый цикл «генерация – проверка – улучшение проверяющего» позволяет удерживать разрыв в навыках между двумя частями системы и не терять способность к самокоррекции. дели впечатляюще. В статье на GitHub команда заявляет, что DeepSeekMath-V2 достигла «золотого» уровня на Международной математической олимпиаде 2025 года и Китайской математической олимпиаде 2024 года, а на конкурсе Putnam 2024 модель набрала 118 баллов из 120 при использовании масштабируемых вычислений на этапе решения. На специализированном бенчмарке IMO-ProofBench, который разработала команда Google DeepMind для собственной модели Gemini DeepThink, DeepSeekMath-V2, по независимому техническому разбору, обходит DeepThink на базовых тестах.

В неформальных сводках результатов, которые публикуют исследователи и энтузиасты, приводятся более конкретные цифры: DeepSeekMath-V2 набирает около 99 процентов на базовой и 61,9 процента на продвинутой части IMO-ProofBench. В той же сводке утверждается, что это выше показателей моделей GPT-5 и Gemini на этом наборе задач, хотя речь идет не об официальном рейтинге, а о сравнении по частным тестам.

Еще один важный момент для сообщества: DeepSeekMath-V2 позиционируют как первый открытый по весам математический ИИ, который достигает «золотого» уровня на задачах уровня IMO. Об этом уже пишут на профильных форумах, куда выкладывают ссылки на статью и сами веса модели.

Модель доступна на GitHub и Hugging Face, репозиторий оформлен под Apache 2.0, при этом для самих моделей действует отдельная лицензия, которая регулирует условия использования, включая коммерческое. О запуске и открытом характере DeepSeekMath-V2 дополнительно сообщают профильные блоги и посты в соцсетях, где подчеркивается, что веса можно свободно скачивать и запускать на собственных мощностях, соблюдая условия Model License.

Биржевые и финансовые медиа, освещающие тему ИИ, делают акцент на том, что DeepSeek продолжает инвестировать именно в математические модели и формальные доказательства. По их формулировкам, DeepSeekMath-V2 использует самопроверяющий тренировочный контур, в котором модель автоматически рецензирует свои доказательства, улучшая качество за счет сложных примеров и более мощной стадии верификации, что должно повысить доверие к результатам в научном и инженерном контексте.

Важно понимать, что DeepSeekMath-V2 не появляется на пустом месте. Ранее в этом году компания уже представила DeepSeek-Prover-V2, гигантскую модель на 671 миллиард параметров для формального доказательства теорем в системе Lean 4. Там упор делался именно на формальный язык и строгие, машинно проверяемые доказательства. Новая DeepSeekMath-V2 работает с более привычными олимпиадными и текстовыми задачами, но за счет самопроверки пытается приблизиться по надежности к миру формальных доказательств.

Для широкого ИИ-сообщества эта работа интересна не только цифрами в таблицах, но и самим подходом. Если научиться масштабировать не только генерацию, но и проверку рассуждений, такие модели можно будет безопаснее применять в науке, инженерии, формальной верификации программ и даже в образовании, где важнее объяснение решения, чем само число в ответе. Авторы прямо пишут, что их результаты показывают: направление самопроверяемых рассуждений выглядит реалистичным и перспективным шагом к более надежным математическим ИИ.

Пока же DeepSeekMath-V2 остается узкоспециализированным, но очень показательным примером того, как в ИИ смещается фокус: от «угадывания правильного ответа» к контролю над ходом мысли модели. И по тому, как активно на новинку отреагировали разработчики, исследователи и любители математических олимпиад, видно, что гонка уже идет не только за общим интеллектом, но и за качеством и проверяемостью рассуждений.