Сложный видеомонтаж теперь не требует ни опыта, ни долгих часов работы.

Гонка за лидерство на рынке генерации видео с ИИ продолжается: китайская компания Kling AI представила модель «Video O1», которая объединяет создание и редактирование роликов в одном решении. Игроки вроде Google, OpenAI, Runway и других всё активнее наращивают возможности, и новый продукт Kling отлично вписывается в эту конкуренцию.
По данным Kling AI, «Video O1» замышлялась как единая мультимодальная система, которая берёт на себя задачи, для которых раньше приходилось использовать разные инструменты. Модель создаёт ролики длительностью от трёх до десяти секунд по текстовому описанию или по образцу-картинке, а также меняет уже готовые видео — от замены главного персонажа и погоды до подстройки стилистики и цветовой гаммы. Несколько изменений применяются за один запрос: можно одновременно задать нового героя, изменить фон и общий визуальный стиль сцены.
Система обрабатывает сразу несколько типов входных данных, интерпретируя до семи изображений, видеороликов, объектов и текстовых строк в качестве подсказок. Управление основано на обычных текстовых командах — например, удаление прохожих из кадра или перевод сцены из дневного освещения в сумерки выполняется без ручного выделения масок и покадровой анимации. Пользовательские персонажи, реквизит и сцены загружаются отдельно и затем могут использоваться в разных роликах. Kling утверждает, что модель достаточно хорошо понимает входные данные, чтобы выдерживать целостность объектов, людей и товаров при смене планов и ракурсов.
В основе «Video O1» лежит архитектура мультимодального трансформера. Компания описывает собственный формат «Multimodal Visual Language» (MVL), который должен выступать связующим звеном между текстом и визуальными сигналами. Дополнительно заявлено использование цепочек рассуждений для вывода событий в кадре, чтобы генерация роликов опиралась не только на статистические совпадения. По своей терминологии Kling отчасти повторяет формулировки, которые Google применяет к недавним моделям [проверить факт: «Nano Banana Pro» не находится в официальных источниках].
Во внутренних испытаниях Kling AI сравнивала «Video O1» с Google Veo 3.1 и Runway Aleph. В задачах, где ролики создавались по образцу-изображению, китайская модель, по заявлениям компании, показала заметно лучшие результаты, чем функция «ingredients to video» у Google. При преобразовании уже существующих роликов оценщики чаще выбирали «Video O1», чем решение Runway Aleph. При этом все цифры основаны на закрытых тестах самой Kling и пока не подтверждены независимыми сравнениями.
Доступ к «Video O1» уже открыт через веб-интерфейс Kling AI. На рынке генерации видео с ИИ модель сталкивается с жёсткой конкуренцией: почти одновременно Runway представила «Gen-4.5» как своё самое мощное решение на сегодня, а среди конкурентов остаются Google, OpenAI, Midjourney и китайские компании Hailuo, Seedance и Vidu, которые делают ставку в том числе на снижение стоимости таких сервисов.