DeepSeek V4, Claude Opus 4.7 и GPT-5.5: кто дешевле, кто умнее и кому верить

1499
DeepSeek V4, Claude Opus 4.7 и GPT-5.5: кто дешевле, кто умнее и кому верить

За последние дни рынок больших языковых моделей получил сразу три новых раздражителя: DeepSeek V4, Claude Opus 4.7 и GPT-5.5. Если читать презентации компаний буквально, человечество опять стоит на пороге новой эры, машины почти научились думать, разработчики почти освободились от рутины, а бизнес почти получил цифрового сотрудника, который не болеет, не спорит и не просит премию.

В реальности картина грязнее и интереснее. Новые модели стали сильнее, длиннее по контексту и местами дешевле. Но вместе с ними выросла старая проблема: чем убедительнее модель говорит, тем опаснее ее использовать без проверки. Нейросеть не стала коллегой с совестью. Нейросеть осталась статистической машиной, которая научилась выглядеть как специалист. Иногда специалист. Иногда уверенный идиот в дорогом костюме.

Я сравню не рекламные лозунги, а три практических слоя: сколько стоит работа с моделями, что показывают тесты и где каждая система выглядит разумным выбором. Без религиозного поклонения брендам. В индустрии ИИ и так хватает цифрового шаманства, только вместо бубна теперь графики с процентами.

Цена: DeepSeek пришел с ломом, Claude держит премиум, OpenAI продает универсальность

Главная новость DeepSeek V4 не в том, что модель стала умнее. Главная новость в цене. DeepSeek выпустил две версии: V4 Flash и V4 Pro. Обе поддерживают контекст до 1 млн токенов, обе доступны через программный доступ, обе рассчитаны на сценарии с длинными документами, кодом и цепочками действий.

Flash выглядит как дешевый рабочий инструмент для массовых задач. Pro уже претендует на территорию сильных закрытых моделей, но стоит заметно меньше западных конкурентов. По официальной странице DeepSeek, V4 Flash стоит 0,14 доллара за миллион входных токенов и 0,28 доллара за миллион выходных. V4 Pro в обычной цене стоит 1,74 доллара за вход и 3,48 доллара за выход, но до 5 мая 2026 года действует скидка 75%, и тогда цена Pro падает до 0,435 доллара за вход и 0,87 доллара за выход.

Claude Opus 4.7 стоит совсем иначе: 5 долларов за миллион входных токенов и 25 долларов за миллион выходных. GPT-5.5 в стандартном режиме короткого контекста стоит 5 долларов за вход и 30 долларов за выход. GPT-5.5 Pro уже относится к классу «сначала спросите бухгалтера»: 30 долларов за вход и 180 долларов за выход. Для длинного контекста у OpenAI цена выше: GPT-5.5 стоит 10 долларов за вход и 45 долларов за выход, GPT-5.5 Pro - 60 и 270 долларов.

Модель Вход, $ за 1 млн токенов Выход, $ за 1 млн токенов Контекст Короткий смысл
DeepSeek V4 Flash 0,14 0,28 1 млн Самый дешевый рабочий вариант
DeepSeek V4 Pro 1,74 3,48 1 млн Сильная модель с агрессивной ценой
DeepSeek V4 Pro со скидкой до 5 мая 0,435 0,87 1 млн Временный демпинг, не база для долгого бюджета
Claude Opus 4.7 5 25 до 1 млн Дорогой, сильный, особенно в коде
GPT-5.5 5 30 до 1 млн Универсальная дорогая рабочая лошадь
GPT-5.5 Pro 30 180 до 1 млн Режим для задач, где ошибка дороже запроса

На простом примере разница становится грубой. Представим задачу: 100 тысяч токенов на входе и 10 тысяч токенов на выходе. DeepSeek V4 Flash обойдется примерно в 0,017 доллара. DeepSeek V4 Pro без скидки - примерно в 0,209 доллара. Claude Opus 4.7 - около 0,75 доллара. GPT-5.5 - около 0,8 доллара. GPT-5.5 Pro - около 4,8 доллара.

Да, арифметика неприятная для западных моделей. Но нельзя смотреть только на цену токена. Модель может быть дешевой, но ошибаться чаще, требовать больше повторов, хуже следовать инструкциям или тратить больше токенов на обходной путь. В продакшене платят не за токены. Платят за решенную задачу. Иногда дешевый запрос превращается в дорогую ручную проверку, а дорогой запрос экономит час инженера. Капитализм, как обычно, портит красивую табличку.

Тесты: цифры нужны, но поклоняться им глупо

У OpenAI в презентации GPT-5.5 много сильных цифр. Модель показывает 82,7% на Terminal-Bench 2.0, 58,6% на SWE-Bench Pro, 78,7% на OSWorld-Verified, 84,4% на BrowseComp, 93,6% на GPQA Diamond. На FrontierMath Tier 4 обычная GPT-5.5 дает 35,4%, а GPT-5.5 Pro - 39,6%. По таким тестам OpenAI рисует образ модели, которая умеет работать не только с текстом, но и с инструментами, командной строкой, браузером, файлами и многошаговыми задачами.

Claude Opus 4.7 в этих же сравнительных данных выглядит сильнее GPT-5.5 на SWE-Bench Pro: 64,3% против 58,6%. Для разработчиков цифра заметная. Код - не поэзия. В коде нельзя красиво объяснить, почему сборка упала. Либо патч работает, либо сидишь и смотришь на красную простыню ошибок, как на диагноз.

Anthropic отдельно говорит, что Claude Opus 4.7 стал лучше для сложных, длинных задач по программированию. Компания заявляет рост успешного решения на собственном наборе из 93 задач по коду на 13% относительно Opus 4.6. Конечно, внутренние тесты поставщика надо читать с выражением лица прокурора. Но рынок и разработчики давно воспринимают Claude как одну из лучших моделей для работы с большими кодовыми базами, архитектурой, правками и длинными техническими контекстами.

DeepSeek V4 Pro на бумаге выглядит особенно интересно как открытая модель с огромным контекстом и низкой ценой. DeepSeek заявляет 1,6 трлн общих параметров и 49 млрд активных параметров у V4 Pro. Flash меньше: 284 млрд общих и 13 млрд активных. Такой подход относится к архитектуре «смеси экспертов»: внутри модели много блоков, но при каждом запросе работают не все, а только часть. В переводе на бытовой язык - склад большой, но к станку подходят только нужные рабочие. Звучит рационально, если не начинать приписывать этому сознание и прочую эзотерику для инвесторов.

По тестам DeepSeek надо быть осторожнее. Компания заявляет сильные результаты в знаниях, рассуждениях, математике, программировании и агентных задачах. Reuters пишет, что V4 Pro входит в число сильнейших моделей по ряду тестов знаний, а DeepSeek продвигает модель как особенно подходящую для агентных сценариев. Но независимых проверок пока меньше, чем у OpenAI и Anthropic, а свежая модель всегда проходит фазу «все восторгаются, потом находят странные углы».

Сами тесты тоже давно стали полем войны. Поставщик выбирает наборы, режимы усилия, промпты, настройки инструментов, длину контекста и условия запуска. Иногда тест честно показывает силу модели. Иногда тест показывает, кто лучше подготовился к тесту. Школа, только вместо шпаргалок - миллионы долларов на обучение.

Где какая модель выглядит разумно

Если нужна массовая обработка текста, разметка, черновики, извлечение сущностей, дешевые длинные контексты и простая автоматизация, DeepSeek V4 Flash выглядит очень соблазнительно. Цена почти неприличная. Такой моделью можно прогонять большие массивы документов, делать первичную классификацию, резюмировать переписки, строить черновые ответы и не вздрагивать при каждом миллионе токенов.

Но Flash не стоит превращать в универсального пророка. Для задач с высокой ценой ошибки, юридических выводов, медицины, финансов, критичной кибербезопасности и сложной инженерии дешевизна должна вызывать не восторг, а вопрос: где будет стоять контроль качества?

DeepSeek V4 Pro интереснее. Модель уже претендует на класс «почти премиум, но за гораздо меньшие деньги». Вариант хорош для компаний, которые хотят держать расходы под контролем, но не готовы сидеть на маленьких моделях. Особенно если есть собственные проверки, тестовые наборы, повторная валидация результатов и люди, которые умеют отличать ответ от уверенной имитации ответа.

Claude Opus 4.7 я бы выбирал для сложного кода, больших документов, рефакторинга, аккуратной работы с требованиями, анализа проектной логики и задач, где важны последовательность и дисциплина. Claude часто производит ощущение не самого громкого, но самого внимательного инженера в комнате. Не святой, конечно. Просто меньше шансов, что он радостно подпалит проект и назовет пожар «оптимизацией».

GPT-5.5 выглядит сильнее всего как универсальная рабочая среда. Код, инструменты, браузерные задачи, таблицы, документы, связка с ChatGPT и Codex, многошаговые сценарии - здесь OpenAI продает не только модель, а целую экосистему. Цена выше, особенно на выходе, но для многих рабочих процессов выигрывает не самая дешевая модель, а та, которая меньше мешает человеку думать.

GPT-5.5 Pro - отдельная история. Такой режим не нужен для бытовых текстов, пересказов и обычной разработки. Держать Pro для ежедневной рутины - примерно как ездить за хлебом на бронированном внедорожнике с кортежем. Можно, но вопрос уже не технический, а психиатрический. Pro оправдан там, где сложность, проверка, длинная цепочка рассуждений и цена ошибки действительно велики.

Длинный контекст: миллион токенов не делает модель умной

Один миллион токенов звучит красиво. Маркетинг любит такие числа. Мозг человека видит «миллион» и сразу думает, что теперь можно скормить модели весь проект, всю документацию, весь архив переписки и получить истину в последней инстанции.

На практике длинный контекст - не равен пониманию. Модель может принять большой объем текста, но не обязана одинаково хорошо держать все связи внутри этого текста. Чем длиннее контекст, тем важнее структура: оглавления, краткие вводные, четкие вопросы, разделение документов, явные правила, контрольные проверки. Миллион токенов без структуры превращается в цифровую свалку. Модель может ходить по свалке уверенным шагом, но уверенный шаг не делает свалку библиотекой.

Для бизнеса длинный контекст полезен в трех случаях. Первый - анализ больших договоров, отчетов, технической документации и переписок. Второй - работа с кодовой базой, где надо видеть не один файл, а архитектуру. Третий - агентные сценарии, где модель держит инструкции, историю действий, набор инструментов и промежуточные результаты.

DeepSeek в этом смысле особенно давит ценой. Claude и GPT-5.5 давят качеством инструментальной работы и более зрелой экосистемой. Выбор зависит от того, что дороже: токены, ошибки или время людей.

Почему цена за токен обманывает

Сравнение «долларов за миллион токенов» удобно для таблицы, но плохо описывает реальную экономику. У модели есть скрытая стоимость. Сколько попыток нужно для хорошего результата? Сколько токенов модель тратит на рассуждение? Как часто приходится перепроверять? Насколько хорошо модель держит формат ответа? Сколько времени инженеры тратят на обвязку, повторные запросы, отладку и борьбу с выдумками?

Для редакции цена тоже не сводится к API. Если модель дешево написала текст, но журналист потом час вычищает бред, экономии нет. Если модель дороже, но сразу дает чистый структурированный черновик, цена токена уже вторична. То же самое в коде: плохой патч стоит дороже хорошего запроса.

Поэтому я бы не строил выбор только по прайсу. Нужен собственный набор тестов. Не «реши задачу из интернета», а реальные задачи компании: типовые тикеты, реальные документы, фрагменты кода, старые инциденты, редакционные задания, финансовые таблицы. Модель надо гонять не на красоту ответа, а на полезность результата.

И желательно считать не только стоимость запроса, но и стоимость исправления. В ИИ все любят смотреть на цену генерации. Почти никто не любит смотреть на цену последствий. Потому что последствия редко помещаются в красивый слайд.

Мой практический выбор

Для дешевой массовой работы я бы начал с DeepSeek V4 Flash. Особенно для задач, где ошибку легко поймать автоматикой или человеком: разметка, черновое резюме, первичная классификация, извлечение данных, подготовка вариантов.

Для серьезных задач с ограниченным бюджетом я бы смотрел на DeepSeek V4 Pro, но только с жесткими проверками. Модель слишком дешевая, чтобы игнорировать. Но достаточно новая, чтобы не верить ей на слово. На слово вообще никому верить не надо, но нейросетям особенно. У них нет стыда. Удобное качество для рынка, неприятное для пользователей.

Для кода, сложных проектов и длинной инженерной работы я бы держал Claude Opus 4.7 в числе первых кандидатов. Цена высокая, но сильная работа с кодом часто окупается быстрее, чем кажется. Один хороший патч может стоить дешевле часа разработчика, особенно если разработчик уже устал, зол и мысленно разговаривает с монитором.

Для универсальной работы, где нужны инструменты, браузер, документы, таблицы, код и нормальная интеграция в привычную среду, GPT-5.5 выглядит самым сбалансированным вариантом. Не самым дешевым. Не всегда лучшим в каждом отдельном тесте. Но сильным как рабочая платформа.

GPT-5.5 Pro я бы оставил для задач, где цена ошибки выше цены запроса: сложная аналитика, критичные проверки, тяжелые инженерные решения, научные и финансовые сценарии с ручной валидацией. Для обычного контентного конвейера Pro будет не интеллектом, а способом красиво сжечь бюджет.

Вывод без восторга

DeepSeek V4 показывает, что цена интеллекта как услуги продолжает падать. Claude Opus 4.7 напоминает, что качество кода и длинных задач все еще стоит денег. GPT-5.5 демонстрирует, что OpenAI продает не просто модель, а рабочую среду вокруг модели. Все три подхода имеют смысл.

Но главный вывод неприятнее. Ни одна из новых моделей не снимает с человека ответственность. Модели стали быстрее, дешевле и убедительнее. Проверка стала важнее, а не менее важной. Чем лучше машина имитирует компетентность, тем опаснее ленивый пользователь рядом с ней.

Если выбирать коротко: DeepSeek - для цены, Claude - для кода и длинной аккуратной работы, GPT-5.5 - для универсальной экосистемы и инструментальных задач. А доверять надо только результатам, которые прошли проверку. Все остальное - дорогой разговор с автодополнением, которое выучило деловой тон.

DeepSeek V4 Claude Opus 4.7 GPT-5.5 ChatGPT цены нейросетей тесты ИИ большие языковые модели API искусственный интеллект
Alt text
Обращаем внимание, что все материалы в этом блоге представляют личное мнение их авторов. Редакция SecurityLab.ru не несет ответственности за точность, полноту и достоверность опубликованных данных. Вся информация предоставлена «как есть» и может не соответствовать официальной позиции компании.
4E9
ЛЕТ
ЭВОЛЮЦИИ
МИМО
Антипов жжет
МЫ СТАЛИ СРЕДОЙ, НА КОТОРОЙ ВЫРАСТАЕТ НЕЧТО ИНОЕ.
Разум впервые проектирует разум напрямую. Сингулярность уже вшита в логику повседневных решений. Техноманифест.

Техноретроградка

Технологии без шума вентиляторов и сухих спецификаций.