Как компания решает проблему, о которой молчат разработчики?

Роботы до сих пор часто спотыкаются на задаче, которая человеку кажется почти элементарной: мало понять, что именно нужно сделать, еще нужно правильно связать действие с конкретным предметом и местом в реальном пространстве. Microsoft вместе с группой университетских исследователей решила заняться именно этим узким, но очень болезненным местом. Команда представила новый тест GroundedPlanBench, который проверяет, умеет ли модель одновременно строить план действий и точно привязывать каждый шаг к объекту на изображении.
Обычно робот сначала получает словесный план от одной модели, а потом другая модель пытается перевести его в набор физических действий. На практике два этапа плохо стыкуются. Ошибка, которая появилась при составлении плана, спокойно переезжает дальше, а на выходе робот либо берется не за тот предмет, либо делает лишнее, о чем его вообще не просили.
Такие сбои проявляются даже в простых ситуациях. Если поручить машине выбросить бумажные стаканчики, она может перепутать, какой именно стакан нужно взять, или внезапно добавить шаги, которых в инструкции не было. Чем сильнее загромождено пространство, тем чаще возникают такие промахи. Причина в том, что планирование и пространственная привязка живут отдельно друг от друга. Одна часть системы решает, что делать, другая пытается угадать, где именно это делать, и на стыке все начинает ломаться.
В новом тесте недостаточно просто выдать правильную последовательность действий в текстовом виде. Каждый шаг нужно жестко связать с конкретной точкой или объектом на изображении. Базовые действия вроде взять, положить, открыть или закрыть идут не сами по себе, а вместе с указанием, к чему именно они относятся. Такая постановка заставляет модель не рассуждать в отрыве от мира, а сразу держать в голове физическую обстановку.
В набор вошло больше 1000 заданий, собранных на основе реальных взаимодействий роботов с предметами. Часть инструкций предельно прямолинейна, например положить ложку на тарелку. Но есть и более расплывчатые сценарии вроде просьбы прибраться на столе. Именно в таких ситуациях и становится видно, насколько машинная система далека от человеческого понимания. Формулировка, которая для человека звучит совершенно нормально, для робота оказывается слишком туманной, особенно когда вокруг лежат похожие предметы.
Один из примеров в работе хорошо показывает, где начинается сбой. Системе дали задание положить 4 салфетки на диван. Вместо того чтобы брать их по очереди, модель снова и снова выбирала одну и ту же салфетку, потому что словесного описания не хватало для надежного различения объектов. Даже попытка уточнить положение через подсказки вроде "верхняя левая салфетка" не спасала: для устойчивого выполнения такая фраза все равно слишком расплывчатая. Исследователи прямо указывают, что неоднозначный язык порождает действия, которые нельзя нормально исполнить.
Чтобы не ограничиваться одним тестированием, команда предложила и способ обучения, который должен уменьшить такие ошибки. Новый метод назвали Video-to-Spatially Grounded Planning, или V2GP. Система учится на видео, где роботы выполняют реальные задачи. Алгоритм отслеживает моменты взаимодействия с объектами, распознает сами предметы и фиксирует их положение в кадре. На выходе получается уже не просто словесное описание, а структурированный план, где каждое действие привязано к конкретному месту.
С помощью такого подхода исследователи собрали больше 40 тысяч планов с пространственной привязкой. В выборку вошли и простые одношаговые действия, и длинные последовательности до 26 шагов. После обучения на этих данных модели стали заметно лучше выбирать правильные действия и точнее связывать их с нужными объектами. Заодно уменьшилось число повторяющихся ошибок, когда система несколько раз действует с одним и тем же предметом, хотя должна переходить к следующему.
Полностью проблему решить пока не удалось. Длинные и сложные задачи по-прежнему даются тяжело, особенно если инструкция сформулирована косвенно, без четких ориентиров. В таких случаях модели приходится удерживать в памяти длинную цепочку шагов и не терять внутреннюю согласованность по ходу выполнения. Именно здесь нынешние системы все еще часто сыплются.
Старые системы ожидаемо хуже справлялись с неоднозначностью и часто назначали несколько действий одному и тому же предмету или одной и той же точке. Когда оба этапа собирают в один процесс, разрыв между решением и физическим контекстом становится меньше. Проще говоря, система реже думает одно, а делает другое.
Следующий свой шаг команда тоже уже обозначила. Такой подход можно объединить с предсказательными моделями, которые заранее оценивают результат действия еще до того, как робот его выполнит. Тогда машина сможет не только выбирать объект и строить план, но и заранее замечать, что следующий шаг приведет к ошибке, и перестраиваться на лету.