Claude Opus 4.6 официально мощнее GPT-5.2.

Компания Anthropic выпустила обновление своей флагманской модели искусственного интеллекта. Новый Claude Opus 4.6 заметно превосходит предшественника в программировании, автономной работе и решении сложных задач, а также впервые получил контекстное окно на миллион токенов.
Разработчики особо отмечают улучшенные способности модели в написании кода. Opus 4.6 тщательнее планирует работу, дольше справляется с автономными задачами, увереннее ориентируется в крупных кодовых базах и лучше проверяет собственный код на ошибки. Модель показала лучший результат в индустрии на тесте Terminal-Bench 2.0, оценивающем способности ИИ к автономному программированию.
Новые возможности пригодятся не только программистам. Opus 4.6 эффективно справляется с повседневными рабочими задачами — проводит финансовый анализ, выполняет исследования, работает с документами, таблицами и презентациями. В приложении Cowork, где Claude может самостоятельно выполнять несколько задач одновременно, модель применяет все эти навыки без постоянного контроля со стороны пользователя.
Результаты тестирования впечатляют. На экзамене Humanity's Last Exam, проверяющем способность к сложным междисциплинарным рассуждениям, Opus 4.6 опередил все конкурирующие модели. На тесте GDPval-AA, оценивающем работу с экономически значимыми задачами в финансах, праве и других областях, новая модель превзошла ближайшего конкурента GPT-5.2 от OpenAI на 144 пункта Эло, а собственного предшественника Claude Opus 4.5 — на 190 пунктов. Модель также показала лучший результат на BrowseComp — тесте способности находить труднодоступную информацию в интернете. Кроме того, Opus 4.6 продемонстрировал высочайший результат в индустрии на тесте DeepSearchQA, который оценивает способность к глубокому многошаговому агентному поиску информации.
Одна из ключевых проблем современных ИИ-моделей — «деградация контекста», когда качество ответов падает по мере увеличения объёма обрабатываемой информации. Opus 4.6 справляется с этим значительно лучше предшественников. На тесте MRCR v2, где модель должна найти информацию, «спрятанную» среди огромного массива текста, новая версия набрала 76% против всего 18,5% у Sonnet 4.5. Модель лучше извлекает нужные сведения из больших документов, отслеживает информацию в контексте длиной в сотни тысяч токенов и замечает детали, которые упускала даже Opus 4.5.
Важно, что улучшение интеллектуальных способностей не пошло в ущерб безопасности. По результатам автоматизированного аудита поведения, Opus 4.6 показал низкий уровень нежелательного поведения — обмана, подхалимства, поощрения заблуждений пользователей и содействия неправомерному использованию. При этом модель реже отказывается отвечать на безобидные вопросы — проблема, характерная для многих ИИ-систем. Anthropic провела самый обширный набор тестов безопасности среди всех своих моделей, включая новые оценки влияния на благополучие пользователей и способности отказывать в потенциально опасных запросах.
Поскольку модель демонстрирует продвинутые возможности в кибербезопасности, которые можно использовать как во благо, так и во вред, разработчики создали шесть новых методов обнаружения вредоносных ответов. Параллельно Anthropic использует модель для поиска и исправления уязвимостей в программном обеспечении с открытым кодом, помогая защитникам в области кибербезопасности.
Для разработчиков, работающих через API, появилось несколько полезных функций. Адаптивное мышление позволяет модели самостоятельно решать, когда требуется более глубокий анализ задачи. Разработчики могут выбрать один из четырёх уровней усилий — низкий, средний, высокий или максимальный. Функция компактификации контекста автоматически резюмирует и заменяет старый контекст при приближении к лимиту, что позволяет выполнять более длительные задачи. Модель поддерживает выходные данные объёмом до 128 тысяч токенов, что избавляет от необходимости разбивать крупные задачи на несколько запросов.
В приложении Claude Code появились командные агенты — можно запустить несколько помощников, которые работают параллельно и координируют действия самостоятельно. Это особенно удобно для задач, которые разделяются на независимые части, например для проверки кодовой базы.
Улучшилась работа Claude с офисными приложениями. Обновлённый Claude in Excel лучше справляется со сложными и длительными задачами, может планировать действия перед их выполнением, обрабатывает неструктурированные данные и выполняет многошаговые изменения за один проход. Теперь доступен и Claude in PowerPoint в режиме исследовательского просмотра — модель читает макеты, шрифты и мастер-слайды, чтобы соответствовать фирменному стилю, и может как создавать презентации с нуля, так и работать с готовыми шаблонами.
Claude Opus 4.6 уже доступен на сайте claude.ai, через API и на основных облачных платформах. Для разработчиков модель доступна под названием claude-opus-4-6. Стоимость использования осталась прежней — 5 долларов за миллион входных токенов и 25 долларов за миллион выходных.