Машины наконец-то начнут осознавать контекст наших действий, а не просто слепо копировать их.

Компания Nvidia представила новую систему обучения роботов DreamDojo, которая использует большой массив видеозаписей с участием людей, чтобы формировать у машин понимание физического мира. Разработка нацелена на ускорение подготовки гуманоидных и промышленных роботов и снижение затрат на их обучение в реальных условиях.
Проект создан командой под руководством Nvidia совместно с университетами Калифорнии в Беркли, Стэнфорда и Техаса в Остине. Авторы работы называют DreamDojo первой моделью такого типа, способной после дополнительной настройки уверенно работать с разными объектами и в разнообразных средах.
В основе лежит обучающий набор DreamDojo-HV — около 44 тысяч часов видеозаписей от первого лица, где люди выполняют повседневные действия. По данным разработчиков, этот массив заметно превосходит прежние базы для подобных моделей по длительности, количеству навыков и числу сцен.
Система использует двухэтапную схему. Сначала модель получает общее представление о физике взаимодействий, анализируя человеческие действия на видео и скрытые параметры движений. Затем проводится дообучение под конкретную роботизированную платформу с учётом непрерывных управляющих сигналов. Такой подход позволяет сократить объём специальных демонстраций, которые обычно приходится собирать отдельно для каждого робота.
Отдельно отмечается прирост производительности. После процедуры оптимизации модель обеспечивает работу в реальном времени на уровне около 10 кадров в секунду в течение более минуты. Это открывает возможность для дистанционного управления и оперативного планирования действий. Тестирование проводилось на нескольких гуманоидных платформах, среди них GR-1, G1, AgiBot и YAM. Во время испытаний система корректно прогнозировала манипуляции с предметами и поведение в разных типах окружения.
Выход DreamDojo совпал с ростом интереса Nvidia к робототехнике. Глава компании Дженсен Хуанг ранее заявлял, что ближайшие годы станут периодом ускоренного развития этого направления, а инвестиции в инфраструктуру искусственного интеллекта продолжают расти. По оценкам отраслевых аналитиков, объём вложений в робототехнические стартапы за прошлый год достиг рекордных значений, а крупные промышленные компании расширяют партнёрства в этой сфере.
Разработчики DreamDojo также указывают на практическую пользу симуляции. Модель позволяет заранее оценивать стратегии управления и поведение робота без запуска в физической среде. Это снижает риски и стоимость испытаний, особенно в нестабильных и плохо предсказуемых условиях. Планы по публикации исходного кода подтверждены, но точные сроки пока не названы.