Сверхразум? Нет. Microsoft выяснил, что ваш будущий ИИ-агент не сможет даже заказать вам пиццу

leer en español

Сверхразум? Нет. Microsoft выяснил, что ваш будущий ИИ-агент не сможет даже заказать вам пиццу

GPT-5 и Gemini впервые столкнулись в симуляции без контроля — и результаты шокировали разработчиков.

image

Компания Microsoft совместно с учёными из Университета штата Аризона разработала симулятор «Magentic Marketplace» — искусственную торговую площадку, предназначенную для изучения поведения автономных ИИ-агентов в условиях имитации рыночной конкуренции. Первые тесты выявили неоднозначные результаты: модели нередко ошибались, теряли фокус внимания и демонстрировали уязвимость к манипуляциям со стороны других агентов.

Сценарии в симуляции воспроизводят повседневные ситуации: например, агент-покупатель пытается заказать еду, руководствуясь пользовательскими указаниями, а многочисленные агенты-рестораны конкурируют за его внимание. В одном из базовых испытаний участвовали 100 «покупательских» агентов и 300 бизнес-агентов, причём взаимодействие между ними происходило без внешнего вмешательства. Исходный код симулятора опубликован в открытом доступе, что должно облегчить верификацию результатов и проведение новых исследований другими группами.

Проверке подвергались современные языковые модели, включая GPT-4o, GPT-5 и Gemini-2.5-Flash. Несмотря на их высокую производительность в других задачах, в рамках тестирования обнаружились серьёзные проблемы. При большом количестве предложений агенты теряли фокус, демонстрируя заметное снижение эффективности. Разработчики отмечают, что избыточное количество вариантов перегружает модель и затрудняет принятие решений — вопреки ожиданиям, что ИИ должен справляться с множеством опций одновременно.

Ещё одной слабой стороной оказалось взаимодействие между агентами при выполнении коллективных задач. Без чётких инструкций модели не могли скоординировать действия или распределить роли, что приводило к снижению общего качества результата. Повысить эффективность удавалось только при явном описании шагов сотрудничества, что говорит о недостаточной автономной способности к командной работе у текущих версий.

По мнению исследовательской команды, дальнейшее развитие подобных тестовых сред поможет точнее понять ограничения современных ИИ и выработать рекомендации для повышения устойчивости и адаптивности автономных агентов. Это особенно важно на фоне заявлений крупных компаний о скором внедрении агентных систем в повседневную цифровую инфраструктуру.