Kimi K2.6, Qwen3.6 и DeepSeek-V4 показывают, куда движется китайский рынок языковых моделей: длинный контекст, агенты для кода, работа с файлами, мультимодальность и более низкая цена API. Но сравнивать их с ChatGPT, Claude и Gemini по принципу «Китай догнал США» слишком грубо. В одних задачах китайские модели действительно выигрывают по цене и открытым весам, в других уступают по надёжности, удобству продукта, корпоративным функциям и предсказуемости.
Данные актуальны на 30 апреля 2026 года. По новым релизам ещё мало долгих независимых тестов, поэтому бенчмарки ниже лучше читать как рабочие ориентиры, а не как окончательный рейтинг. Отдельно надо проверять задержку (latency) в своём регионе: официальные страницы обычно публикуют цену, контекст и режимы, но не дают стабильную p95-задержку для всех API-маршрутов. Для скорости полезнее смотреть живые замеры вроде Artificial Analysis и OpenRouter, а затем прогонять собственные запросы.
Kimi K2.6, Qwen3.6 и DeepSeek-V4
Kimi K2.6 от Moonshot AI заточена под кодинг и долгие агентные цепочки. Модель работает с контекстом 262 144 токена, принимает текст, изображения и видео, а в API стоит $0,95 за 1 млн входных токенов, $0,16 за 1 млн кешированных входных токенов и $4 за 1 млн выходных токенов. В пересчёте на 1000 токенов получается примерно $0,00095 за вход и $0,004 за выход. Попадания в кеш (cache hits) сильно снижают цену повторных запросов, когда команда гоняет похожие документы или один и тот же репозиторий.
На практике Kimi K2.6 интересна разработчику, который просит не просто «написать функцию», а разобрать кодовую базу, предложить план правок и внести серию изменений. Пример, где Kimi выглядит лучше обычного чат-бота: фронтенд-команда даёт макет, описание поведения и старый компонент, а модель собирает новый интерфейс с учётом стиля проекта. Слабое место – контроль качества. Чем длиннее цепочка действий, тем выше риск, что модель уверенно внесёт лишнюю правку или пропустит крайний случай.
Qwen3.6 от Alibaba сильнее похожа на платформенную модель для агентов. В Qwen3.6-Plus заявлены 1 млн токенов контекста, текст, изображения, видео, агентный кодинг и API, совместимый с привычными SDK. Alibaba Cloud Model Studio указывает цену $0,5–2 за 1 млн входных токенов и $3–6 за 1 млн выходных токенов. В пересчёте на 1000 токенов – $0,0005–0,002 за вход и $0,003–0,006 за выход. Ветка Qwen3 поддерживает 119 языков и диалектов, поэтому для русскоязычных, арабских, испанских и азиатских проектов Qwen часто выгоднее узко англо-китайских моделей.
Qwen3.6 лучше всего смотрится там, где модель надо встроить в рабочий контур: IDE, внутренний портал, разбор видео, чтение документов, генерация кода и вызов инструментов. Пример преимущества перед ChatGPT в API-задаче – дешёвый прогон длинных внутренних документов через облако Alibaba. Пример проигрыша – готовый пользовательский продукт. У ChatGPT, Claude и Gemini богаче интерфейсы, больше готовых коннекторов и понятнее корпоративные правила для западных компаний.
DeepSeek-V4 вышла в двух вариантах: Pro и Flash. Pro имеет 1,6 трлн параметров, из которых активны 49 млрд, Flash – 284 млрд и 13 млрд активных. Обе версии держат 1 млн токенов контекста и опубликованы под MIT-лицензией. Artificial Analysis даёт для V4-Pro цену $1,74 за 1 млн входных токенов и $3,48 за 1 млн выходных, для V4-Flash – $0,14 и $0,28. В пересчёте на 1000 токенов Flash стоит около $0,00014 за вход и $0,00028 за выход.
DeepSeek-V4 ценна не только ценой. Pro набрал 52 балла в Artificial Analysis Intelligence Index и стал второй open-weight reasoning-моделью после Kimi K2.6, а Flash набрал 47 баллов при сильно меньшей цене. Но у DeepSeek есть неприятный нюанс: Artificial Analysis зафиксировал очень высокую частоту галлюцинаций (hallucination rate) – 94% у V4-Pro и 96% у V4-Flash в тесте AA-Omniscience. Для задач, где модель должна честно сказать «не знаю», такой показатель опасен. Flash-версию нельзя пускать в фактологические ответы без автоматической проверки, сверки с источниками и человеческого контроля: ошибка в справке, отчёте, юридическом тексте или новости легко превращается в репутационный риск для компании.
Где ChatGPT, Claude и Gemini реально сильнее
ChatGPT на GPT-5.5 превосходит китайские модели не только «зрелостью продукта», а конкретными режимами работы. OpenAI заявляет 84,9% на GDPval, 78,7% на OSWorld-Verified и 98% на Tau2-bench Telecom без настройки подсказок (prompt tuning). Цена API – $5 за 1 млн входных токенов, $0,50 за кешированный вход и $30 за 1 млн выходных токенов, то есть $0,005 и $0,03 за 1000 токенов. Такой API дорогой, зато сильнее в сложных задачах с инструментами, анализом данных, документами и интерфейсом ChatGPT для обычных пользователей.
Claude Opus 4.7 сильнее там, где важны длинный текст, аккуратная правка, сложные инструкции и кодовые агенты. Anthropic держит цену $5 за 1 млн входных токенов и $25 за 1 млн выходных, а также даёт кеширование с ценой $0,50 за 1 млн попаданий в кеш. Azure указывает, что Claude понимает и пишет на многих языках, включая английский, французский, арабский, китайский, японский, корейский, испанский и хинди, но качество зависит от языка.
Gemini 3.1 Pro силён в мультимодальных задачах: текст, изображение, аудио, видео, код и связка с Google AI Studio или Vertex AI. В Gemini API цена для Pro Preview зависит от длины запроса: $1 за 1 млн входных токенов до 200 тыс. токенов и $2 после 200 тыс.; выход стоит $6 и $9 соответственно. В пересчёте на 1000 токенов – $0,001–0,002 за вход и $0,006–0,009 за выход. Для видеоаналитики, поиска по мультимодальным данным и Google-инфраструктуры Gemini часто практичнее Kimi или DeepSeek, даже если отдельный бенчмарк показывает обратное.
Сравнительная таблица:
| Модель | Контекст | Цена за 1000 токенов | Языки | Модальности | Задержка и риск |
|---|---|---|---|---|---|
| Kimi K2.6 | 262 144 токена | Вход $0,00095, кеш $0,00016, выход $0,004 | Английский, китайский и другие языки, точный список не раскрыт | Текст, изображения, видео на входе, текст на выходе | Хороша для длинного кода, но p95-задержка зависит от провайдера |
| Qwen3.6-Plus | 1 млн токенов | Вход $0,0005–0,002, выход $0,003–0,006 | Семейство Qwen3 заявляет 119 языков и диалектов | Текст, изображения, видео, инструменты | Цена низкая, но лучшие функции завязаны на Alibaba Cloud |
| DeepSeek-V4 Pro / Flash | 1 млн токенов | Pro: $0,00174 / $0,00348; Flash: $0,00014 / $0,00028 | Ориентир на текстовые задачи, публичный точный список языков ограничен | Текст на входе и выходе | Flash дешёвый, Pro сильнее; частота галлюцинаций в AA-Omniscience достигает 94–96% |
| ChatGPT, GPT-5.5 | 1 млн токенов в API | Вход $0,005, кеш $0,0005, выход $0,03 | Многоязычный, без публичного полного списка в rate card | Текст, изображения, инструменты, файлы в продукте ChatGPT | Дороже китайских моделей, зато сильнее в сложных агентных и офисных сценариях |
| Claude Opus 4.7 | 1 млн токенов | Вход $0,005, попадание в кеш $0,0005, выход $0,025 | Много языков, включая английский, французский, арабский, китайский, японский, корейский, испанский и хинди | Текст, код, изображения в продуктах Claude | Силён в длинных инструкциях, но дорог для массовых задач |
| Gemini 3.1 Pro | До 1 млн токенов | Вход $0,001–0,002, выход $0,006–0,009 | Многоязычный, качество выше на хорошо представленных языках | Текст, изображение, аудио, видео, код | Хорош для мультимодальности, но условия зависят от AI Studio, API или Vertex AI |
Главный вывод из цифр не в том, что китайские модели «лучше» американских. DeepSeek-V4 Flash может стоить на порядки дешевле GPT-5.5, но высокий риск галлюцинаций меняет экономику: если ответы потом вручную проверяет редактор, юрист или аналитик, компания быстро теряет выигрыш от дешёвых токенов. Claude и GPT-5.5 дороже, но в задачах с правками документов, кодовым ревью, агентами и корпоративной безопасностью цена одной ошибки часто выше счёта за API.
Для редакции, разработки или SOC выбирайте модель по своему набору задач. Тестируйте Kimi K2.6 на репозиториях, интерфейсах и длинных инженерных поручениях. Пробуйте Qwen3.6 на мультимодальных документах, видео, китайско-русско-английских данных и задачах внутри Alibaba Cloud. Берите DeepSeek-V4 Flash для дешёвого массового прогона только там, где ответы можно автоматически сверить с источниками. Pro годится для сложного анализа, но факты всё равно надо проверять. ChatGPT, Claude и Gemini разумнее брать там, где нужны готовый интерфейс, зрелые инструменты, предсказуемая поддержка и меньше ручной сборки вокруг модели.
Заключая, можно сказать следующее. Возьмите 30 реальных запросов, одни и те же файлы, одинаковые лимиты, затем замерьте цену, время до первого токена, скорость ответа, число фактических ошибок и качество финального текста. Только такой прогон покажет, какая модель дешевле именно для вашей задачи, а не для красивой таблицы поставщика.
Работая с внешними LLM, соблюдайте законы РФ, защищайте персональные данные, берегите коммерческую тайну и следуйте внутренним правилам безопасности. Не отправляйте в публичные чаты клиентские базы, закрытый код, материалы расследований и документы с ограниченным доступом без разрешения владельца данных.