$400 миллионов за дверью с символом π! Безос и OpenAI купили роботов, которые учатся как мы.

В старом складском помещении в районе Мишн, Сан-Франциско, за неприметной металлической дверью, помеченной лишь символом π, происходит один из самых любопытных экспериментов в современной робототехнике. Компания с лаконичным названием Physical Intelligence, или просто PI, разрабатывает технологии, которые, по словам её основателей, могут научить роботов не просто выполнять задачи, а действительно обучаться физическим навыкам — как это делает человек. Причём не в теории, а руками, с предметами, в физическом мире.
На тесной производственной площадке среди недособранных механических рук, рабочих станций и разбросанных прототипов роботы под контролем операторов складывают футболки, собирают коробки, тестируют новые захваты с камерами и перемещают хозяйственные товары из одного ящика в другой. Механика и алгоритмы работают бок о бок — буквально.
Стартап стал объектом пристального внимания специалистов, а на прошлой неделе получил $400 млн инвестиций. Среди вложившихся — OpenAI и Джефф Безос. После раунда компания получила оценку свыше $2 млрд, и это уже больше, чем просто интерес: это заявка на участие в гонке, где главный приз — машины, способные обучаться физическим навыкам не хуже (а в будущем и лучше) человека.
Проблема, над которой ломают голову десятки команд по всему миру, звучит просто: большинство современных ИИ-систем прекрасно справляются с текстами, изображениями, кодом — но крайне нестабильны в реальном мире. Даже если робот смотрит, как человек собирает коробку или готовит эспрессо, он может легко сбиться, стоит лишь немного изменить условия. Ошибка в пару миллиметров при захвате предмета — и вся операция идёт наперекосяк. ИИ теряется, потому что не знает, как действовать вне рамок увиденного.
PI утверждает, что нашла способ обойти этот барьер. Их новая методика получила название Recap — сокращение от Reinforcement Learning with Experience and Corrections via Advantage-conditioned Policies. В переводе на простой язык: это гибрид, в котором сочетаются обучение с подкреплением, ручные корректировки и способность извлекать пользу даже из неполных или неудачных попыток. Роботу показывают, как выполнять задачу, исправляют его ошибки в процессе, а дальше он самостоятельно практикуется и дорабатывает поведение.
Во время тестов с использованием Recap команда обучила свою модель π*0.6 — она объединяет зрение, язык и действия — выполнять задачи вроде складывания одежды, сборки коробок и приготовления кофе. В некоторых случаях производительность увеличилась более чем в 2 раза, а количество сбоев сократилось вдвое. Машина могла без перерывов варить кофе в течение суток, собирать упаковки с промышленной скоростью и складывать одежду в реальной домашней обстановке.
Разница между «частичным успехом» и выполнением на все 100 — одна из главных причин, по которой роботы пока не работают в больших объёмах на складах, в кафе или на фабриках. Проблема в тактильной точности: если робот промахнулся на долю сантиметра, он может попасть в ситуацию, которой нет в его обучающем наборе. Он не знает, как выйти из положения, не может импровизировать.
Recap меняет это. В систему добавлены два новых источника данных: во-первых, оператор вмешивается, когда робот начинает ошибаться, и показывает, как именно нужно действовать дальше. Это помогает ИИ научиться «вставать на ноги» после промаха. Во-вторых, сама система оценивает свои действия и соотносит их с успехом или неудачей — даже если результат становится понятен только спустя время. Так формируется внутреннее чувство направления: модель понимает, какие действия приближают к цели, а какие уводят в сторону.
В отличие от традиционного подхода, когда плохой опыт просто отбрасывается, здесь любая попытка становится обучающим материалом. Это резко расширяет объём данных, на которых учится модель. Чем больше робот взаимодействует с миром, тем точнее он становится — как настоящий человек.
Сейчас в PI обучают свои модели на наборе задач, требующих точности, ритма и понимания объектов. Например, при работе с одеждой нужно различать ткани, текстуры и формы. Сборка коробок требует чёткого соблюдения последовательности действий. А приготовление кофе — особенно сложная задача: в ней задействовано множество этапов, включая помол, налив воды, очистку и последовательную работу с разными предметами.
Результаты, по словам команды, показывают, что сочетание человеческой поддержки и самостоятельной тренировки — это рабочая стратегия. Машины учатся друг у друга и развиваются через взаимодействие, что открывает путь к по-настоящему адаптивной, масштабируемой робототехнике. Её давно обсуждали в теории, но реализовать на практике, да ещё и в таком масштабе, пока удавалось немногим.
PI уже заявила, что планирует расширять сотрудничество с компаниями, использующими промышленных роботов, и будет помогать им достигать большей автономности. Пока система работает только в контролируемых условиях — то есть внутри лабораторий или тестовых площадок. Но сама компания уверена: со временем роботы, которые обучаются манипуляциям с предметами как люди, смогут обойти их же по надёжности в рутинных физических задачах.
«Инструкция задаёт поведение. Подсказка его улучшает. Практика доводит до совершенства», — так в PI кратко описали суть подхода. Их инвесторы делают ставку на то, что эта формула наконец приведёт к тому самому технологическому прорыву, которого давно ждут от робототехники: к появлению машин, способных осваивать реальный мир не хуже человека — и работать в нём самостоятельно.