Прости, джун, мы нанимаем робота. Claude Opus 4.5 прошла тестовое задание лучше живых программистов

Прости, джун, мы нанимаем робота. Claude Opus 4.5 прошла тестовое задание лучше живых программистов

Что умеет новая флагманская модель от Anthropic.

image

Anthropic представила новую флагманскую модель Claude Opus 4.5, которую позиционирует как свое самое мощное решение для программирования, работы агентов и управления компьютером. Компания утверждает, что модель заметно лучше предшественников в прикладных задачах вроде глубоких исследований, работы с презентациями и таблицами.

По данным разработчика, Claude Opus 4.5 показывает результат уровня state of the art в тестах реальной разработки ПО. Внутренний экзамен по производительности, который обычно дают кандидатам на позицию инженеров, модель в отведенные 2 часа выполнила лучше любого соискателя. В Anthropic при этом подчеркивают, что такой тест оценивает технические навыки и работу под давлением, но не заменяет проверку командной работы и опыта.

Opus 4.5 лидирует на ряде отраслевых бенчмарков. В частности, модель показывает лучшие результаты на SWE-bench Verified и SWE-bench Multilingual, где она опережает конкурентов по 7 из 8 языков программирования. Также заявлено улучшение в задачах на зрение, математическое рассуждение и многошаговые агентные сценарии.

Отдельно разработчики приводят результаты в тестах ARC-AGI на абстрактное мышление и перенос знаний. В полу-приватной оценке Opus 4.5 в режиме Thinking с контекстом 64k решает 80 % задач набора ARC-AGI-1 при средней стоимости около 1,47 доллара за задачу и 37,64 % задач более сложного набора ARC-AGI-2 при цене примерно 2,40 доллара за задание.

В одном из тестов τ2-bench, где модели выступают в роли сотрудника авиакомпании, Opus 4.5 нашла легитимный способ помочь клиенту, который формально не был предусмотрен сценариями: сначала предложила апгрейд до более высокого класса обслуживания, а затем изменение рейса. Формально это засчитали как ошибку бенчмарка, однако в Anthropic называют такой обход ограничений примером творческого решения в рамках правил, а не взлома метрик.

Отдельный акцент сделан на безопасности. В системе оценки компании новые модели проверяют на широкий спектр "тревожного поведения" и устойчивость к попыткам злоупотребления. По утверждению Anthropic, Opus 4.5 стала их наиболее "выравненной" моделью и заметно лучше конкурентов сопротивляется сложным атакам типа prompt injection, когда вредоносные инструкции встраиваются в текст запросов.

На уровне платформы разработчиков появилось управление параметром effort, который позволяет выбирать компромисс между скоростью и глубиной рассуждений. На среднем уровне усилия Opus 4.5 достигает лучших результатов Sonnet 4.5 на SWE-bench Verified при снижении объема выходного текста примерно на три четверти. На максимальном уровне модель еще улучшает качество, одновременно сокращая количество токенов относительно Sonnet.

Anthropic также сообщает об улучшении механизмов работы с контекстом и памятью, особенно в многоагентных сценариях. Внутренние тесты показывают, что совмещение новых функций контекст-менеджмента и инструментов повышает качество глубоких исследовательских задач почти на 15 процентных пунктов. Модель может управлять группой подагентов и координировать сложные пайплайны.

Одновременно обновлены пользовательские продукты. В Claude Code появился более строгий режим планирования, когда модель сначала задает уточняющие вопросы, затем формирует файл плана, и только после этого приступает к изменениям кода. Поддержка Claude Code добавлена в десктопное приложение, где можно параллельно запускать несколько сессий, например для поиска по GitHub, исправления ошибок и обновления документации.

В приложении Claude снято ограничение на длину диалогов за счет автоматического суммирования старого контекста. Расширен доступ к расширению Claude для Chrome и бете Claude для Excel. Для пользователей, у которых уже есть доступ к Opus 4.5, компания увеличивает лимиты использования и убирает отдельные ограничения именно для этой модели, заявляя, что она рассчитана на ежедневную рабочую нагрузку.