Claude 4 уже здесь. Бесплатный — просто умный, платный — кодит как сеньор, только без отпусков

leer en español

11:17 / 26 мая, 2025

Что будет, если ИИ заставят программировать 7 часов подряд? В Anthropic проверили. И удивились.

Компания Anthropic выпустила два новых ИИ-помощника четвёртого поколения: Claude Sonnet 4 и Claude Opus 4. Запуск прошёл 22 мая, причём младшая модель стала доступна бесплатным пользователям, а старшая требует платной подписки. Opus 4 заметно лучше справляется с программированием, чем собрат, согласно результатам независимых испытаний.

Новый флагман семейства набрал 72,5% в авторитетном бенчмарке SWE-bench, специально разработанном для оценки способностей ИИ в сфере разработки программного обеспечения. Аббревиатура SWE расшифровывается как Software Engineering Benchmark — комплексный набор задач, имитирующих реальные вызовы, с которыми сталкиваются инженеры-программисты в повседневной работе.

Тесты показали впечатляющую выносливость модели. Opus 4 способен поддерживать стабильную производительность на протяжении длительных сессий, требующих концентрации и выполнения тысяч последовательных операций. Был даже зафиксирован случай, когда система непрерывно работала над кодом в течение семи часов подряд, не теряя качества результатов.

Команда Lovable — стартапа, специализирующегося на создании веб-приложений с помощью нейросетей, — на практике убедилась в улучшениях. Они встроили Claude в свой инструмент автоматической генерации кода на основе текстовых запросов пользователей. После обновления до четвёртой версии инженеры увидели кардинальные изменения в работе системы.

Количество ошибок в генерируемом коде сократилось на четверть, а общая скорость обработки запросов возросла на 40%. Улучшения затронули как создание новых проектов с нуля, так и редактирование существующих разработок, включая проекты, созданные ранее с помощью предыдущих версий языковой модели.

Основатель Lovable Антон Осика отдельно отметил резкое снижение количества синтаксических ошибок при генерации кода в публикации в социальной сети X.

Синтаксические ошибки особенно болезненны для систем автоматической генерации кода, поскольку нарушают структуру программы и делают её неработоспособной. Все мы понимаем, что даже единственная пропущенная скобка или неправильно поставленная точка с запятой может полностью парализовать выполнение программы. Тогда разработчику придётся устранять проблему вручную.

Качество разных ИИ-помощников сильно зависит от особенностей конкретного проекта и поставленных задач. В случаях, где не нужно обрабатывать огромные объёмы контекстной информации, Claude 4 стабильно выигрывает — пишет более чистый и функциональный софт с меньшим числом недочётов.

Вообще семейство Claude долго удерживало лидерство среди ИИ-инструментов для программистов. Однако позиции серьёзно пошатнулись после выхода Google Gemini 2.5 Pro, который может работать с контекстными окнами до миллиона токенов — единиц текстовой информации, которые модель держит в памяти одновременно.

Контекстное окно Claude 4 ограничено 200 тысячами токенов, что в пять раз меньше возможностей конкурента. Большой контекст позволяет модели анализировать обширные кодовые базы и учитывать множественные взаимосвязи между различными компонентами программы при генерации новых фрагментов.

Впрочем, размер контекстного окна — не единственный критерий качества программирования. Способность модели понимать логику кода, следовать архитектурным принципам и создавать элегантные решения часто оказывается важнее возможности обработки больших объёмов информации за один раз.

Практический опыт показывает: обе модели порой выдают как блестящие результаты, так и серьёзные промахи в зависимости от постановки задачи. Качество итогового кода во многом определяется искусством формулирования запросов — то есть промпт инжинирингом, который требует понимания особенностей работы конкретной технологии.

Опытные разработчики часто комбинируют различные инструменты для достижения оптимальных ответов. Модели вроде OpenAI o3 или Google Gemini хорошо справляются с планированием архитектуры и общей стратегии проекта, в то время как Claude 4 и Gemini лучше проявляют себя в непосредственном написании программ.

Одно ясно наверняка: появление Claude 4 открывает новый этап в развитии инструментов автоматизации, предлагая разработчикам более надёжного и точного помощника для решения повседневных задач. Сокращение количества ошибок и повышение скорости создают возможности для более эффективного использования ИИ в IT. Дальше - только больше.

Хватит тратить время на ручные проверки и «накликивание»!

12 февраля на бесплатном вебинаре Security Vision покажем, как SGRC-подход создаёт «живую» безопасность. Меняем формальный контроль на стратегию вместе.

Регистрируйтесь!

Реклама. 18+ ООО «Интеллектуальная безопасность», ИНН 7719435412

Наука безумнее, чем фантастика

Claude 4 уже здесь. Бесплатный — просто умный, платный — кодит как сеньор, только без отпусков

Хватит тратить время на ручные проверки и «накликивание»!

Подпишитесь на email рассылку