Anthropic запустила сервис для проверки кода, который стоит как обед, но работает как senior-разработчик

Anthropic запустила сервис для проверки кода, который стоит как обед, но работает как senior-разработчик

Компания выпустила ИИ, который проверяет код внимательнее, чем ваш тимлид.

image

Anthropic представила новый сервис автоматической проверки кода Code Review. Инструмент анализирует изменения в репозиториях GitHub и ищет ошибки, уязвимости и скрытые регрессии. Разработчики компании рассчитывают, что технология поможет командам быстрее находить проблемы в проектах, где всё больше строк написаны при участии нейросетей.

Сервис предназначен для корпоративных клиентов и работает заметно иначе, чем обычные помощники на базе искусственного интеллекта. Проверку выполняет группа специализированных агентов Claude. Каждый агент анализирует изменения в запросе на включение изменений с учётом всего кодового проекта и публикует замечания прямо в комментариях к строкам, где обнаружена проблема. Алгоритмы ищут логические ошибки, потенциальные уязвимости безопасности, пограничные случаи и изменения поведения программы.

За такую глубину анализа приходится платить. Anthropic оценивает среднюю стоимость проверки одного запроса на включение изменений в диапазоне от 15 до 25 долларов. Итоговая цена зависит от размера и сложности изменений, поскольку расчёт ведётся по количеству использованных токенов. Для сравнения, сервис CodeRabbit предлагает проверку кода на базе искусственного интеллекта по подписке за 24 доллара в месяц.

Проверка занимает около 20 минут, хотя время сильно зависит от размера запроса на включение изменений. При таком темпе возникает очевидный вопрос: не окажется ли дешевле поручить ту же работу разработчику с почасовой ставкой около 60 долларов.

Несмотря на стоимость, Anthropic утверждает, что внутренние тесты показали высокую эффективность инструмента. При проверке крупных изменений объёмом более 1000 строк система находила проблемы в 84 процентах случаев и в среднем выявляла около 7,5 потенциальных ошибок. Для небольших запросов на включение изменений до 50 строк замечания появлялись в 31 проценте случаев, в среднем около 0,5 проблемы на одну проверку.

По данным компании, разработчики отклоняют менее одного процента замечаний, найденных Claude. Некоторые пользователи уже сообщили о практической пользе сервиса. Например, во время переработки системы шифрования ZFS в проекте TrueNAS автоматическая проверка обнаружила ошибку в соседнем участке кода. Несовпадение типов могло привести к очистке кеша ключей шифрования во время операций синхронизации.

В другом случае Code Review обнаружил однострочное изменение во внутреннем сервисе Anthropic, которое незаметно ломало механизм аутентификации. Ошибку исправили до слияния изменений в основную ветку.

Сервис уже умеет запускать автоматическую проверку в процессе CI/CD через действие Claude Code для GitHub, однако новый режим Code Review проводит более глубокий анализ. Подробности работы инструмента компания описала в документации. Эффективность автоматических проверок частично подтверждают и академические работы: одно исследование показывает положительные результаты, хотя другие работы дают более неоднозначную картину.