NVIDIA слила в открытый доступ AR1 — первый ИИ-мозг для роботов, который видит, анализирует и принимает решения в реальном времени

NVIDIA слила в открытый доступ AR1 — первый ИИ-мозг для роботов, который видит, анализирует и принимает решения в реальном времени

Не модель, а целая вселенная: от лидаров до гуманоидов в одной экосистеме.

image

Когда кажется, что границы возможностей ИИ уже прощупаны, NVIDIA снова смещает линию горизонта. На конференции NeurIPS компания представила набор открытых моделей для физических и цифровых систем, которые могут заметно ускорить прогресс в автономном транспорте, робототехнике и обработке звука. Это не просто очередное обновление — скорее, приглашение к экспериментам для всех, кто занимается ИИ-исследованиями.

Главным объектом обсуждений стал Alpamayo-R1, или просто AR1 — первая открытая модель, которая объединяет зрение, языковую интерпретацию и действия в единую логику рассуждений. Такой подход называют VLA, и до сих пор подобные комплексы не предоставлялись публично. AR1 учится разбирать ситуацию пошагово: анализирует окружение, прокладывает возможные траектории, сопоставляет их с контекстом и выбирает наиболее безопасный вариант. Это особенно важно там, где движение становится беспорядочным — например, когда на перекрёстке одновременно встречаются толпы пешеходов, встречные машины и внезапные препятствия вроде припаркованных на обочине грузовиков.

AR1 работает на базе платформы NVIDIA Cosmos Reason и доступна исследователям в открытом виде для некоммерческого применения. Отдельная часть работы была посвящена тому, как обучение с подкреплением улучшает способность модели формулировать свои решения: более длительный цикл тренировок заметно укрепил её логическую «интуицию». Исходный код размещён на GitHub и Hugging Face, а часть тренировочных наборов включена в NVIDIA Physical AI Open Datasets. Для тестирования предусмотрен симуляционный фреймворк AlpaSim, который позволяет проверять поведение модели в разных ситуациях.

Но вообще эта модель — лишь верхушка гораздо большей конструкции. Под брендом Cosmos развивается целая экосистема инструментов, предназначенных для физических систем. LidarGen создаёт синтетические данные для симуляции лидаров — ключевой технологии в беспилотных автомобилях. Omniverse NuRec Fixer помогает приводить в порядок нейронные реконструкции трёхмерных сцен. Cosmos Policy генерирует правила поведения для роботов, а ProtoMotions3 обучает гуманоидов в детализированных виртуальных средах, где можно проиграть любые условия — от складского помещения до городской улицы.

Эти модели уже начали проникать в рабочие проекты: партнёры NVIDIA, среди которых Voxel51, 1X, Figure AI, Foretellix, Gatik, Oxa, PlusAI и X-Humanoid, используют их для собственных экспериментов с автономными машинами и роботами. Группа из ETH Zurich применяет Cosmos для создания трёхмерных сцен и представила первые результаты на той же NeurIPS.

Параллельно компания укрепляет свои позиции в цифровых моделях. Набор Nemotron получил несколько заметных обновлений: MultiTalker Parakeet научился распознавать речь сразу нескольких говорящих, Sortformer выделяет голоса в реальном времени, а новые синтетические корпуса данных предназначены для обучения систем рассуждений и доменных ИИ-моделей. В другой части обновления появился Audio Flamingo 3 — крупная аудиомодель, способная работать со звуком, музыкой и речью в единой логике анализа. Ещё одна разработка, Minitron-SSM, уменьшает гибридные модели без ощутимой потери точности.

Пара финальных штрихов — Jet-Nemotron и Nemotron-Flash, собранные специально для ускорения вывода LLM и снижения задержек. А в техническом описании NVIDIA отмечает, что длительное обучение с подкреплением — ProRL — помогает таким алгоритмам стабильно превосходить базовые версии по уровню рассуждений.

По оценке аналитической компании Artificial Analysis, семейство Nemotron сейчас относится к самым доступным и прозрачным аналогам на рынке. Для исследовательского сообщества это означает больше независимых экспериментов, более разнообразные приложения и меньше барьеров между идеей и её проверкой.