Учёные создали тест из 1490 рабочих задач для ИИ. Лидеры индустрии справились только с четвертью

Автоматизация будущего внезапно споткнулась о простые повседневные задачи.

Пока компании вкладывают миллиарды в разработку ИИ-агентов, способных выполнять реальную профессиональную работу, новый независимый тест наглядно показал, насколько далеки даже лучшие модели от заявленных возможностей. Исследователи совместно с более чем 300 отраслевыми специалистами запустили бенчмарк Agents’ Last Exam (ALE) - один из наиболее требовательных инструментов оценки ИИ-агентов на сегодняшний день.

В отличие от большинства существующих тестов, ALE проверяет не способность модели отвечать на изолированные вопросы, а умение выполнять многоэтапные профессиональные задачи, характерные для реальной экономики. Задания основаны на американском федеральном классификаторе профессий и охватывают 55 отраслей: от создания 3D-моделей в Siemens NX до анализа нейровизуализации и монтажа визуальных эффектов в Adobe After Effects. Всего в бенчмарке 1490 задач с перспективой расширения до 5000.

Неожиданным лидером таблицы стал GPT-5.5 от OpenAI в связке с агентным окружением Codex - с результатом 24,0%. Совсем недавно вышедший Claude Fable 5 от Anthropic занял третье место с 22,0%. При этом абсолютные показатели остаются крайне низкими: на самом сложном уровне заданий большинство моделей, включая Claude Opus 4.8 и Gemini CLI от Google, набирают ровно 0,0%.

Создатели ALE также устранили недостатки предыдущих тестов. Во-первых, оценка результатов построена на детерминированных алгоритмах, а не на суждениях другой языковой модели - такой подход применяется в 93,2% случаев. Во-вторых, бенчмарк защищён от «утечки» заданий в обучающие данные: в открытом доступе находится лишь около 10% задач, остальные хранятся в закрытом виде и периодически ротируются.

Разработчики могут сравнивать модели в равных условиях: ALE публикует отдельные результаты для задач с платным и бесплатным программным обеспечением, чтобы высокий балл не объяснялся простым доступом к дорогим корпоративным инструментам.

Результаты ALE фиксируют любопытный разрыв: модели, которые убедительно побеждают друг друга в пресс-релизах, на практике одинаково пасуют перед реальной многоэтапной работой. Теперь у отрасли есть честная точка отсчёта - и она наглядно показывает, насколько маркетинговые обещания разработчиков ИИ расходятся с реальностью.

Кто-то прячет адрес ради сериалов. Вы — ради новостей про кибербезопасность.

Учёные создали тест из 1490 рабочих задач для ИИ. Лидеры индустрии справились только с четвертью

Подпишитесь на email рассылку