Что скрывается за главным обновлением платформы Gemini Robotics-ER 1.6?

Google представила новую модель Gemini Robotics-ER 1.6, которая должна помочь роботам лучше понимать физический мир, а не просто исполнять команды по шаблону. В центре внимания embodied reasoning — способность машины смотреть на обстановку, понимать происходящее, разбивать задачу на шаги и проверять, доведено ли дело до конца. Для робототехники это заметный сдвиг: робот не только слушается, но и ориентируется по ситуации и быстро меняет стратегию своей работы, если что-то идёт не так.
Новая версия прибавила в пространственном понимании и в работе сразу с несколькими источниками изображения. Робот увереннее определяет, где лежат предметы, как они связаны друг с другом и что видно с разных камер. Это важно в обычной рабочей среде: обзор часто перекрыт, вещи лежат как попало, обстановка меняется прямо во время работы.
Gemini Robotics-ER 1.6 точнее распознаёт объекты, умеет их считать и лучше понимает связи между ними. Модель также может указывать на предметы по ходу рассуждения. За счёт этого сложную задачу проще разложить на понятные действия. На практике это нужно постоянно: пройти через загромождённое помещение, выбрать нужный предмет среди похожих, не потерять уже сделанные шаги.
Google также улучшила проверку результата. Модель лучше понимает, выполнена ли задача правильно. Для автоматизации это один из ключевых моментов. Системе мало просто сделать движение. Нужно ещё понять, хватило ли его, стоит ли повторить попытку или можно идти дальше. Без этой проверки робот либо застрянет на одном месте, либо слишком рано решит, что всё готово.
Ещё одно важное обновление связано с многокамерной обработкой. Роботы часто смотрят на сцену с нескольких точек, например сверху и с камеры на манипуляторе. Gemini Robotics-ER 1.6 умеет собирать эти ракурсы в более цельную картину. Это помогает, когда часть объекта закрыта, освещение плохое или одна камера даёт лишь кусок сцены.
Самая прикладная новая функция, пожалуй, чтение приборов. Модель научили распознавать показания манометров, смотровых стёкол и цифровых дисплеев. Для промышленной робототехники это полезный навык: на объектах полно шкал, индикаторов и датчиков, которые раньше часто приходилось проверять человеку. Эту возможность Google разрабатывала вместе с Boston Dynamics, чьих роботов Spot используют для инспекции оборудования.
Чтобы снять показания, модель сочетает визуальный анализ с исполнением кода. Она может приблизить изображение, выделить стрелку, деления и другие важные элементы, а затем вычислить значение с высокой точностью. По данным Google, точность чтения приборов выросла с 23% у предыдущих моделей до 93% в режиме agentic vision, когда система активнее управляет собственным визуальным анализом.
Google также утверждает, что новая модель лучше соблюдает ограничения безопасности. В частности, она осторожнее обращается с потенциально опасными объектами и надёжнее замечает моменты, когда действие может быть рискованным. В компании называют Gemini Robotics-ER 1.6 самой безопасной робототехнической системой Google на сегодня.
Google пытается решить одну из самых старых проблем робототехники: команде в цифровом виде нужно соответствие в реальном мире, а там всё меняется на ходу, часть обзора закрыта, а результат приходится постоянно перепроверять. Gemini Robotics-ER 1.6 уже доступна разработчикам через Gemini API и Google AI Studio вместе с инструментами для тестирования и создания приложений, в которых роботу нужно не только выполнять команду, но и понимать происходящее вокруг.