9 отраслей ВВП протестировали нейросети и были очень удивлены.
OpenAI представила новый тест под названием GDPval, который измеряет, насколько хорошо искусственный интеллект справляется с задачами из реальной экономики по сравнению с людьми. В отличие от привычных академических бенчмарков, он опирается на девять крупнейших отраслей, формирующих основную часть американского ВВП: сюда включены здравоохранение, финансы, промышленное производство и государственный сектор. Внутри каждой сферы выбраны 44 профессии — от программистов и журналистов до медицинских работников и аналитиков. Идея в том, чтобы моделям поручать те же задания, что обычно получают люди, а затем давать исследователям сравнить итоговые материалы.
Задачи в GDPval-v0 максимально приближены к повседневной работе. Например, инвестиционным банкирам предложили подготовить обзор конкурентов в сегменте доставки последней мили, после чего сопоставить свой результат с отчетом, написанным искусственным интеллектом. В каждом случае участники выбирали более качественный вариант, а затем результаты усреднялись, формируя показатель побед и ничьих модели против профессиональных материалов.
Итоги оказались показательными. Расширенная конфигурация GPT-5 с увеличенной вычислительной мощностью, получившая обозначение GPT-5-high, была признана равной или лучшей, чем отчеты отраслевых экспертов, в 40,6 процента случаев. Для сравнения, мультимодальная GPT-4o, вышедшая полтора года назад, показывала лишь 13,7 процента. Разница демонстрирует заметный рост способности нейросетей формировать структурированные и убедительные документы. Еще более высокие показатели продемонстрировала модель Anthropic Claude Opus 4.1, набравшая 49 процентов. В OpenAI отмечают, что столь высокий результат мог быть связан не только с глубиной анализа, но и с визуальной подачей — Claude склонен оформлять материалы с диаграммами и графиками, что повышает восприятие готового отчета.
При этом OpenAI открыто говорит о слабых сторонах нынешнего теста. В реальной работе сотрудники выполняют гораздо больше задач, чем просто написание отчетов. Здесь есть взаимодействие с коллегами, многократные уточнения, проверка гипотез, быстрая адаптация к изменяющимся условиям. GDPval пока этого не отражает, и компания планирует создавать более сложные сценарии, в которых ИИ придется работать в интерактивном режиме с промежуточными этапами и обратной связью.
Несмотря на ограничения, внутри компании подчеркивают значимость уже достигнутого. Главный экономист OpenAI Аарон Чаттерджи считает, что модели теперь способны закрывать часть рутинных задач, позволяя специалистам сосредоточиться на более сложных и содержательных аспектах своей работы. Руководитель направления оценок Теджал Патвардхан отмечает и темпы прогресса: всего за пятнадцать месяцев показатель GPT-5 почти втрое превысил результат GPT-4o, и тенденция выглядит устойчивой.
До этого момента индустрия в основном полагалась на другие испытания: AIME 2025 проверяет умение решать сложные математические задачи, а GPQA Diamond оценивает знание научных дисциплин на уровне аспирантуры. Однако лучшие модели уже достигли там потолка. На этом фоне эксперименты вроде GDPval становятся важнее, поскольку они позволяют судить о том, насколько искусственный интеллект готов к практическому применению. При этом для окончательных выводов потребуется следующая версия теста, которая учтет больше профессий и отразит сам процесс работы, а не только финальный документ.
Сегодняшние результаты показывают не превосходство машин над людьми, а появление инструмента, который уже может вписаться в повседневные процессы. Часть работы — сбор и компоновка информации — можно делегировать ИИ, а человеку оставить постановку задачи, проверку фактов и окончательные решения. Такой сдвиг делает модели не конкурентами, а помощниками, ускоряющими и упрощающими выполнение задач в ряде сфер.