Что будет, если ИИ заставят программировать 7 часов подряд? В Anthropic проверили. И удивились.
Компания Anthropic выпустила два новых ИИ-помощника четвёртого поколения: Claude Sonnet 4 и Claude Opus 4. Запуск прошёл 22 мая, причём младшая модель стала доступна бесплатным пользователям, а старшая требует платной подписки. Opus 4 заметно лучше справляется с программированием , чем собрат, согласно результатам независимых испытаний.
Новый флагман семейства набрал 72,5% в авторитетном бенчмарке SWE-bench, специально разработанном для оценки способностей ИИ в сфере разработки программного обеспечения. Аббревиатура SWE расшифровывается как Software Engineering Benchmark — комплексный набор задач, имитирующих реальные вызовы, с которыми сталкиваются инженеры-программисты в повседневной работе.
Тесты показали впечатляющую выносливость модели. Opus 4 способен поддерживать стабильную производительность на протяжении длительных сессий, требующих концентрации и выполнения тысяч последовательных операций. Был даже зафиксирован случай, когда система непрерывно работала над кодом в течение семи часов подряд, не теряя качества результатов.
Команда Lovable — стартапа, специализирующегося на создании веб-приложений с помощью нейросетей, — на практике убедилась в улучшениях. Они встроили Claude в свой инструмент автоматической генерации кода на основе текстовых запросов пользователей. После обновления до четвёртой версии инженеры увидели кардинальные изменения в работе системы.
Количество ошибок в генерируемом коде сократилось на четверть, а общая скорость обработки запросов возросла на 40%. Улучшения затронули как создание новых проектов с нуля, так и редактирование существующих разработок, включая проекты, созданные ранее с помощью предыдущих версий языковой модели.
Основатель Lovable Антон Осика отдельно отметил резкое снижение количества синтаксических ошибок при генерации кода в публикации в социальной сети X.
Синтаксические ошибки особенно болезненны для систем автоматической генерации кода, поскольку нарушают структуру программы и делают её неработоспособной. Все мы понимаем, что даже единственная пропущенная скобка или неправильно поставленная точка с запятой может полностью парализовать выполнение программы. Тогда разработчику придётся устранять проблему вручную.
Качество разных ИИ-помощников сильно зависит от особенностей конкретного проекта и поставленных задач. В случаях, где не нужно обрабатывать огромные объёмы контекстной информации, Claude 4 стабильно выигрывает — пишет более чистый и функциональный софт с меньшим числом недочётов.
Вообще семейство Claude долго удерживало лидерство среди ИИ-инструментов для программистов. Однако позиции серьёзно пошатнулись после выхода Google Gemini 2.5 Pro, который может работать с контекстными окнами до миллиона токенов — единиц текстовой информации, которые модель держит в памяти одновременно.
Контекстное окно Claude 4 ограничено 200 тысячами токенов, что в пять раз меньше возможностей конкурента. Большой контекст позволяет модели анализировать обширные кодовые базы и учитывать множественные взаимосвязи между различными компонентами программы при генерации новых фрагментов.
Впрочем, размер контекстного окна — не единственный критерий качества программирования. Способность модели понимать логику кода, следовать архитектурным принципам и создавать элегантные решения часто оказывается важнее возможности обработки больших объёмов информации за один раз.
Практический опыт показывает: обе модели порой выдают как блестящие результаты, так и серьёзные промахи в зависимости от постановки задачи. Качество итогового кода во многом определяется искусством формулирования запросов — то есть промпт инжинирингом, который требует понимания особенностей работы конкретной технологии.
Опытные разработчики часто комбинируют различные инструменты для достижения оптимальных ответов. Модели вроде OpenAI o3 или Google Gemini хорошо справляются с планированием архитектуры и общей стратегии проекта, в то время как Claude 4 и Gemini лучше проявляют себя в непосредственном написании программ.
Одно ясно наверняка: появление Claude 4 открывает новый этап в развитии инструментов автоматизации, предлагая разработчикам более надёжного и точного помощника для решения повседневных задач. Сокращение количества ошибок и повышение скорости создают возможности для более эффективного использования ИИ в IT . Дальше - только больше.