Железка собирает коробку за 12 секунд. Человек — за 34. Добро пожаловать в будущее.

Нейросети научились писать тексты и генерировать картинки, но с физическим миром всё долго оставалось сложнее. Новый проект GEN-1 показывает, что ситуация начинает меняться: модель впервые довела выполнение простых действий до уровня, который можно использовать не в демонстрациях, а в реальной работе.
Разработчики называют GEN-1 универсальной системой для управления роботами. Модель принимает визуальные и другие входные данные и сразу выдаёт действия в реальном времени. В основе лежит масштабирование подхода, который команда ранее проверила на версии GEN-0. Тогда удалось показать, что обучение роботов подчиняется тем же законам масштабирования, что и языковые модели: больше данных и вычислений дают предсказуемый рост качества.
В новой версии эффект стал заметен на практике. На ряде задач уровень успешного выполнения достиг примерно 99%. Для сравнения, предыдущие модели в среднем давали около 64%. При этом GEN-1 справляется быстрее: в отдельных сценариях время выполнения сократилось почти втрое. Важная деталь — для дообучения под конкретную задачу требуется около одного часа данных с реального робота.
Модель обучалась на массиве из более чем 500 тысяч часов взаимодействия с физическим миром. При этом базовое предобучение вообще не использует данные с роботов. Вместо этого применяют записи действий людей, полученные с носимых устройств. Такой подход позволяет резко снизить стоимость обучения и не зависеть от дорогих телеметрических или симуляционных наборов данных.
GEN-1 — не только модель, а целая система. В неё входят механизмы предобучения, дообучения, обучение с подкреплением, подсказки от человека и отдельные методы работы на этапе вывода. Всё это вместе даёт прирост качества, который не получается объяснить только архитектурой сети.
Разработчики вводят для оценки новое понятие — «мастерство». Под ним понимают сочетание трёх параметров: надёжность, скорость и способность адаптироваться к неожиданным ситуациям. Первые два критерия давно знакомы промышленной робототехнике, но достигаются там за счёт жёсткого контроля среды. Новый подход делает ставку не на ограничение условий, а на поведение самой системы.
С надёжностью ситуация выглядит показательно. В экспериментах робот без вмешательства человека складывал футболки десятки раз подряд, обслуживал робот-пылесос более 200 циклов, упаковывал объекты сотни и тысячи раз. На таких задачах система удерживает стабильный результат на протяжении длительного времени, без сбоев и ручной коррекции.
Скорость остаётся отдельным барьером для робототехники. При ускорении движения меняются силы трения, возрастает роль инерции, а ошибки становятся дороже. GEN-1 показывает, что этот барьер можно сдвинуть. Например, сборка коробки занимает около 12 секунд вместо примерно 34 секунд у предыдущих решений. Похожий прирост наблюдается и в других задачах, где важна точная работа с объектами.
Третий компонент — адаптация. Модель умеет корректировать действия на ходу, если ситуация выходит за рамки привычного сценария. В примерах робот перехватывает смещённые детали, меняет способ захвата или подключает вторую руку, если первая не справляется. Такие решения не задавались напрямую в обучении, а возникают в процессе работы.
Поведение системы меняется в зависимости от условий. На высоких уровнях сложности она может действовать иначе, чем в простых сценариях, и искать обходные пути. Для реальных задач это критично: окружающая среда редко совпадает с идеальной моделью, а жёстко запрограммированные последовательности быстро дают сбой.
Несмотря на прогресс, ограничения остаются. Не все задачи удаётся довести до уровня 99% успешности, а для некоторых сценариев требуется ещё более высокая точность и скорость. Разработчики рассчитывают, что дальнейшее увеличение объёма данных и вычислений позволит закрыть эти пробелы и расширить список доступных задач.
Отдельный вопрос — управление поведением системы. Способность импровизировать даёт гибкость, но одновременно увеличивает риск нежелательных действий. Для практического применения важно не только научить робота действовать, но и задать границы, в которых он не будет выходить за рамки задачи.
Работа над GEN-1 потребовала серьёзной перестройки инфраструктуры. Команда переработала систему обучения под работу с петабайтами данных, улучшила стабильность тренировки, разработала новые методы ускорения вывода и создала собственное оборудование для сбора данных. Параллельно развернули сеть устройств в разных регионах, чтобы получить более разнообразный набор физических действий.