OpenAI выкатила GPT-5.5, но Claude все еще лучше пишет код. Битва титанов затянулась

OpenAI выкатила GPT-5.5, но Claude все еще лучше пишет код. Битва титанов затянулась

Компания делает ставку на рост качества в программировании, офисной работе, анализе данных и ранних научных сценариях.

image

OpenAI 23 апреля представила GPT-5.5 и подает новинку как самый сильный и самый удобный в работе вариант своей линейки. Главная ставка сделана не на красивую витрину, а на практику: модель должна быстрее понимать намерение человека, сама тянуть больше шагов задачи и увереннее доводить работу до конца, будь то код, поиск в сети, анализ данных, документы, таблицы или переход между разными инструментами. По утверждению компании, GPT-5.5 при более высоком уровне качества сохраняет задержку GPT-5.4 на токен и при работе в Codex тратит заметно меньше токенов на те же задачи.

По цифрам OpenAI картина для новинки выглядит сильной. В Terminal-Bench 2.0 модель набрала 82,7% против 75,1% у GPT-5.4, в GDPval получила 84,9% против 83,0%, в OSWorld-Verified вышла на 78,7% против 75,0%, а в CyberGym показала 81,8% против 79,0%. Компания также пишет о росте в научных сценариях: 25,0% против 19,0% на GeneBench и 80,5% против 74,0% на BixBench. При этом OpenAI отдельно подчеркивает, что часть оценок внутренние, а значит относиться к ним как к окончательному рыночному вердикту рано.

Есть и важная оговорка, которую компания сама не скрывает. В публичном SWE-Bench Pro GPT-5.5 у OpenAI набирает 58,6%, тогда как Claude Opus 4.7 в той же таблице указан с результатом 64,3%. Так что разговор о безусловном лидерстве во всех классах задач пока не получается, хотя в длинных агентных сценариях и работе с инструментами прирост у новой версии действительно заметный.

OpenAI особенно продвигает GPT-5.5 как рабочую модель для автономного программирования, офисных задач и ранних научных исследований. В описании релиза компания приводит примеры, где модель помогает разбирать большие кодовые базы, чинить сложные сбои, собирать исследовательские отчеты по биологическим данным и даже участвовать в поиске нового математического доказательства для задач о числах Рамсея. Звучит амбициозно, но почти все такие истории пока исходят от самой OpenAI и партнеров раннего доступа, а не из независимых массовых испытаний.

Отдельный акцент сделан на защите от злоупотреблений. OpenAI пишет, что выпустила GPT-5.5 с самым жестким набором защит в своей истории, провела внутренние и внешние проверки, добавила отдельное тестирование по кибербезопасности и биорискам и собрала отзывы почти от 200 доверенных партнеров до релиза. Биологические, химические и кибервозможности GPT-5.5 компания относит к уровню High в своей Preparedness Framework, но признает, что до уровня Critical новая модель не дотянулась. Параллельно OpenAI открыла программу Bio Bug Bounty для поиска универсальных обходов защит GPT-5.5 в биосценариях.

Сейчас GPT-5.5 начали разворачивать для пользователей Plus, Pro, Business и Enterprise в ChatGPT и Codex, а GPT-5.5 Pro доступен в ChatGPT для Pro, Business и Enterprise. В Codex модель работает с окном контекста 400 тысяч токенов. Выход в API OpenAI обещает «очень скоро»: базовая версия заявлена по $5 за миллион входных токенов и $30 за миллион выходных, версия Pro по $30 и $180 соответственно, с окном контекста до миллиона токенов.