Kimi K2.6, Qwen3.6 и DeepSeek-V4: что умеют китайские языковые модели

1221
Kimi K2.6, Qwen3.6 и DeepSeek-V4: что умеют китайские языковые модели

Kimi K2.6, Qwen3.6 и DeepSeek-V4 показывают, куда движется китайский рынок языковых моделей: длинный контекст, агенты для кода, работа с файлами, мультимодальность и более низкая цена API. Но сравнивать их с ChatGPT, Claude и Gemini по принципу «Китай догнал США» слишком грубо. В одних задачах китайские модели действительно выигрывают по цене и открытым весам, в других уступают по надёжности, удобству продукта, корпоративным функциям и предсказуемости.

Данные актуальны на 30 апреля 2026 года. По новым релизам ещё мало долгих независимых тестов, поэтому бенчмарки ниже лучше читать как рабочие ориентиры, а не как окончательный рейтинг. Отдельно надо проверять задержку (latency) в своём регионе: официальные страницы обычно публикуют цену, контекст и режимы, но не дают стабильную p95-задержку для всех API-маршрутов. Для скорости полезнее смотреть живые замеры вроде Artificial Analysis и OpenRouter, а затем прогонять собственные запросы.

Kimi K2.6, Qwen3.6 и DeepSeek-V4

Kimi K2.6 от Moonshot AI заточена под кодинг и долгие агентные цепочки. Модель работает с контекстом 262 144 токена, принимает текст, изображения и видео, а в API стоит $0,95 за 1 млн входных токенов, $0,16 за 1 млн кешированных входных токенов и $4 за 1 млн выходных токенов. В пересчёте на 1000 токенов получается примерно $0,00095 за вход и $0,004 за выход. Попадания в кеш (cache hits) сильно снижают цену повторных запросов, когда команда гоняет похожие документы или один и тот же репозиторий.

На практике Kimi K2.6 интересна разработчику, который просит не просто «написать функцию», а разобрать кодовую базу, предложить план правок и внести серию изменений. Пример, где Kimi выглядит лучше обычного чат-бота: фронтенд-команда даёт макет, описание поведения и старый компонент, а модель собирает новый интерфейс с учётом стиля проекта. Слабое место – контроль качества. Чем длиннее цепочка действий, тем выше риск, что модель уверенно внесёт лишнюю правку или пропустит крайний случай.

Qwen3.6 от Alibaba сильнее похожа на платформенную модель для агентов. В Qwen3.6-Plus заявлены 1 млн токенов контекста, текст, изображения, видео, агентный кодинг и API, совместимый с привычными SDK. Alibaba Cloud Model Studio указывает цену $0,5–2 за 1 млн входных токенов и $3–6 за 1 млн выходных токенов. В пересчёте на 1000 токенов – $0,0005–0,002 за вход и $0,003–0,006 за выход. Ветка Qwen3 поддерживает 119 языков и диалектов, поэтому для русскоязычных, арабских, испанских и азиатских проектов Qwen часто выгоднее узко англо-китайских моделей.

Qwen3.6 лучше всего смотрится там, где модель надо встроить в рабочий контур: IDE, внутренний портал, разбор видео, чтение документов, генерация кода и вызов инструментов. Пример преимущества перед ChatGPT в API-задаче – дешёвый прогон длинных внутренних документов через облако Alibaba. Пример проигрыша – готовый пользовательский продукт. У ChatGPT, Claude и Gemini богаче интерфейсы, больше готовых коннекторов и понятнее корпоративные правила для западных компаний.

DeepSeek-V4 вышла в двух вариантах: Pro и Flash. Pro имеет 1,6 трлн параметров, из которых активны 49 млрд, Flash – 284 млрд и 13 млрд активных. Обе версии держат 1 млн токенов контекста и опубликованы под MIT-лицензией. Artificial Analysis даёт для V4-Pro цену $1,74 за 1 млн входных токенов и $3,48 за 1 млн выходных, для V4-Flash – $0,14 и $0,28. В пересчёте на 1000 токенов Flash стоит около $0,00014 за вход и $0,00028 за выход.

DeepSeek-V4 ценна не только ценой. Pro набрал 52 балла в Artificial Analysis Intelligence Index и стал второй open-weight reasoning-моделью после Kimi K2.6, а Flash набрал 47 баллов при сильно меньшей цене. Но у DeepSeek есть неприятный нюанс: Artificial Analysis зафиксировал очень высокую частоту галлюцинаций (hallucination rate) – 94% у V4-Pro и 96% у V4-Flash в тесте AA-Omniscience. Для задач, где модель должна честно сказать «не знаю», такой показатель опасен. Flash-версию нельзя пускать в фактологические ответы без автоматической проверки, сверки с источниками и человеческого контроля: ошибка в справке, отчёте, юридическом тексте или новости легко превращается в репутационный риск для компании.

Где ChatGPT, Claude и Gemini реально сильнее

ChatGPT на GPT-5.5 превосходит китайские модели не только «зрелостью продукта», а конкретными режимами работы. OpenAI заявляет 84,9% на GDPval, 78,7% на OSWorld-Verified и 98% на Tau2-bench Telecom без настройки подсказок (prompt tuning). Цена API – $5 за 1 млн входных токенов, $0,50 за кешированный вход и $30 за 1 млн выходных токенов, то есть $0,005 и $0,03 за 1000 токенов. Такой API дорогой, зато сильнее в сложных задачах с инструментами, анализом данных, документами и интерфейсом ChatGPT для обычных пользователей.

Claude Opus 4.7 сильнее там, где важны длинный текст, аккуратная правка, сложные инструкции и кодовые агенты. Anthropic держит цену $5 за 1 млн входных токенов и $25 за 1 млн выходных, а также даёт кеширование с ценой $0,50 за 1 млн попаданий в кеш. Azure указывает, что Claude понимает и пишет на многих языках, включая английский, французский, арабский, китайский, японский, корейский, испанский и хинди, но качество зависит от языка.

Gemini 3.1 Pro силён в мультимодальных задачах: текст, изображение, аудио, видео, код и связка с Google AI Studio или Vertex AI. В Gemini API цена для Pro Preview зависит от длины запроса: $1 за 1 млн входных токенов до 200 тыс. токенов и $2 после 200 тыс.; выход стоит $6 и $9 соответственно. В пересчёте на 1000 токенов – $0,001–0,002 за вход и $0,006–0,009 за выход. Для видеоаналитики, поиска по мультимодальным данным и Google-инфраструктуры Gemini часто практичнее Kimi или DeepSeek, даже если отдельный бенчмарк показывает обратное.

Плюсы и минусы LLM-моделей

Сравнительная таблица:

Модель Контекст Цена за 1000 токенов Языки Модальности Задержка и риск
Kimi K2.6 262 144 токена Вход $0,00095, кеш $0,00016, выход $0,004 Английский, китайский и другие языки, точный список не раскрыт Текст, изображения, видео на входе, текст на выходе Хороша для длинного кода, но p95-задержка зависит от провайдера
Qwen3.6-Plus 1 млн токенов Вход $0,0005–0,002, выход $0,003–0,006 Семейство Qwen3 заявляет 119 языков и диалектов Текст, изображения, видео, инструменты Цена низкая, но лучшие функции завязаны на Alibaba Cloud
DeepSeek-V4 Pro / Flash 1 млн токенов Pro: $0,00174 / $0,00348; Flash: $0,00014 / $0,00028 Ориентир на текстовые задачи, публичный точный список языков ограничен Текст на входе и выходе Flash дешёвый, Pro сильнее; частота галлюцинаций в AA-Omniscience достигает 94–96%
ChatGPT, GPT-5.5 1 млн токенов в API Вход $0,005, кеш $0,0005, выход $0,03 Многоязычный, без публичного полного списка в rate card Текст, изображения, инструменты, файлы в продукте ChatGPT Дороже китайских моделей, зато сильнее в сложных агентных и офисных сценариях
Claude Opus 4.7 1 млн токенов Вход $0,005, попадание в кеш $0,0005, выход $0,025 Много языков, включая английский, французский, арабский, китайский, японский, корейский, испанский и хинди Текст, код, изображения в продуктах Claude Силён в длинных инструкциях, но дорог для массовых задач
Gemini 3.1 Pro До 1 млн токенов Вход $0,001–0,002, выход $0,006–0,009 Многоязычный, качество выше на хорошо представленных языках Текст, изображение, аудио, видео, код Хорош для мультимодальности, но условия зависят от AI Studio, API или Vertex AI
Главный вывод из цифр не в том, что китайские модели «лучше» американских. DeepSeek-V4 Flash может стоить на порядки дешевле GPT-5.5, но высокий риск галлюцинаций меняет экономику: если ответы потом вручную проверяет редактор, юрист или аналитик, компания быстро теряет выигрыш от дешёвых токенов. Claude и GPT-5.5 дороже, но в задачах с правками документов, кодовым ревью, агентами и корпоративной безопасностью цена одной ошибки часто выше счёта за API.

Какую ИИ-модель выбрать для разных задач.

Для редакции, разработки или SOC выбирайте модель по своему набору задач. Тестируйте Kimi K2.6 на репозиториях, интерфейсах и длинных инженерных поручениях. Пробуйте Qwen3.6 на мультимодальных документах, видео, китайско-русско-английских данных и задачах внутри Alibaba Cloud. Берите DeepSeek-V4 Flash для дешёвого массового прогона только там, где ответы можно автоматически сверить с источниками. Pro годится для сложного анализа, но факты всё равно надо проверять. ChatGPT, Claude и Gemini разумнее брать там, где нужны готовый интерфейс, зрелые инструменты, предсказуемая поддержка и меньше ручной сборки вокруг модели.

Заключая, можно сказать следующее. Возьмите 30 реальных запросов, одни и те же файлы, одинаковые лимиты, затем замерьте цену, время до первого токена, скорость ответа, число фактических ошибок и качество финального текста. Только такой прогон покажет, какая модель дешевле именно для вашей задачи, а не для красивой таблицы поставщика.

Работая с внешними LLM, соблюдайте законы РФ, защищайте персональные данные, берегите коммерческую тайну и следуйте внутренним правилам безопасности. Не отправляйте в публичные чаты клиентские базы, закрытый код, материалы расследований и документы с ограниченным доступом без разрешения владельца данных.

Alt text
Обращаем внимание, что все материалы в этом блоге представляют личное мнение их авторов. Редакция SecurityLab.ru не несет ответственности за точность, полноту и достоверность опубликованных данных. Вся информация предоставлена «как есть» и может не соответствовать официальной позиции компании.
4E9
ЛЕТ
ЭВОЛЮЦИИ
МИМО
Антипов жжет
МЫ СТАЛИ СРЕДОЙ, НА КОТОРОЙ ВЫРАСТАЕТ НЕЧТО ИНОЕ.
Разум впервые проектирует разум напрямую. Сингулярность уже вшита в логику повседневных решений. Техноманифест.

Pixel by Pixel

Pixel by Pixel — блог о гаджетах, где честно и подробно разбираю каждую новинку по пикселям: тесты, факты и понятные выводы для осознанного выбора.