Смотри, кто тут лидер. Moonshot AI выпустила Kimi K2 Thinking, которая обошла GPT-5 в бенчмарке Humanity’s Last Exam

Смотри, кто тут лидер. Moonshot AI выпустила Kimi K2 Thinking, которая обошла GPT-5 в бенчмарке Humanity’s Last Exam

Новый «мыслящий» агент побил коммерческие модели в тестах на рассуждение.

image

Компания Moonshot AI представила новую открытую модель Kimi K2 Thinking — расширенную версию своего интеллектуального агента, способного выполнять рассуждения по цепочке и самостоятельно вызывать инструменты во время решения задач. Разработчики называют её «моделью мышления нового поколения» с глубокой агентностью и устойчивой последовательной логикой.

Kimi K2 Thinking достигает нового уровня на бенчмарках Humanity’s Last Exam (HLE) и BrowseComp, опережая по глубине пошагового рассуждения даже самые мощные коммерческие системы. Модель способна стабильно работать в ходе 200–300 последовательных обращений к инструментам без деградации, тогда как прежние версии теряли точность уже после 30–50 шагов.

Основой K2 служит архитектура Mixture-of-Experts (MoE) с общим объёмом 1 трлн параметров, из которых при вычислении активируется 32 млрд. Модель насчитывает 61 слой, использует 64 головы внимания и 384 эксперта, выбирая восемь из них для каждого токена. Контекстное окно увеличено до 256 тысяч токенов, что позволяет обрабатывать длинные цепочки рассуждений без потерь контекста.

Одним из ключевых технических достижений стала нативная INT4-квантизация. Благодаря использованию Quantization-Aware Training (QAT) в постобучении K2 Thinking достигает двукратного ускорения генерации и уменьшает нагрузку на GPU-память без потери точности. Все результаты тестов получены именно в режиме INT4, а контрольные точки модели сохраняются в формате compressed-tensors, совместимом с большинством движков вывода.

По результатам независимых сравнений, Kimi K2 Thinking показывает:
— 51,0 балл на HLE в режиме «heavy», что выше, чем у GPT-5 (42,0);
— 99,1 на AIME25 с Python-инструментами;
— 95,1 на HMMT25;
— 60,2 на BrowseComp;
— 71,3 на SWE-bench Verified.
На задачах BrowseComp-ZH, Seal-0 и FinSearchComp-T3 модель также удерживает лидерские позиции, демонстрируя стабильность агентных поисковых и программных сценариев.

Разработчики подчёркивают, что даже при интенсивных агентных задачах модель сохраняет целеустремлённое поведение и когерентность рассуждений. В тяжёлом режиме используется параллельное развёртывание восьми траекторий с последующим объединением результатов — аналог подхода GPT-5 Pro.

Kimi K2 Thinking доступна через платформу Moonshot AI, где предлагается API, совместимый с OpenAI и Anthropic. Модель оптимизирована для работы на движках vLLM, SGLang и KTransformers, а подробные инструкции по её установке и запуску приведены в руководстве по развёртыванию.

В разделе использования подробно показано, как обращаться к модели через Python API — от базового чата до интеграции инструментов, например, вызова погодного сервиса с динамическим исполнением функции. Поддерживаются цепочки сообщений, автономное определение необходимости вызова инструментов и полный контроль reasoning-контента.

Исходный код и веса модели опубликованы под модифицированной лицензией MIT, а список сторонних компонентов доступен в THIRD_PARTY_NOTICES.md.