Хватит болтать, просто нажми кнопку. Как новая нейросеть Microsoft учится не тратить ваше время на пустые рассуждения

Хватит болтать, просто нажми кнопку. Как новая нейросеть Microsoft учится не тратить ваше время на пустые рассуждения

Новая открытая модель на 15 млрд параметров читает экраны, решает задачи и экономит вычислительные ресурсы.

image

Microsoft решила доказать, что для сильной мультимодальной модели не всегда нужны гигантские размеры и прожорливость к вычислениям. Компания представила Phi-4-reasoning-vision-15B, открытую модель на 15 млрд параметров, которая умеет работать с изображениями, документами, графиками, интерфейсами компьютеров и смартфонов, а заодно неплохо справляется с задачами по математике и естественным наукам. По замыслу разработчиков, новинка должна закрыть сразу две боли рынка: высокую задержку крупных vision-language моделей и слишком высокую цену запуска в реальных сервисах.

Microsoft делает ставку на прагматичный подход. Вместо гонки за максимальным числом параметров команда собрала модель, которую можно использовать для широкого набора задач: от генерации подписей к фотографиям и разбора чеков до чтения документов, ответа на вопросы по картинкам и анализа изменений в последовательности изображений. Отдельный акцент компания сделала на понимании экранов и графических интерфейсов. Phi-4-reasoning-vision-15B умеет распознавать кнопки, меню, поля ввода и другие элементы, поэтому модель предлагают использовать как основу для агентных систем, которые работают с настольными приложениями, сайтами и мобильными интерфейсами.

Главная идея проекта проста: компактная модель должна отвечать быстро и не тратить лишние токены там, где длинные рассуждения не приносят пользы. Для задач вроде OCR, описания картинок или простого визуального вопроса модель обычно отвечает напрямую. Для математики, науки и более сложных сценариев Phi-4-reasoning-vision-15B включает режим пошагового рассуждения. Microsoft называет такой подход смешанным: модель сама выбирает, когда думать длинно, а когда лучше дать короткий и прямой ответ. В компании признают, что граница между двумя режимами пока далека от идеала, но считают компромисс удачным с точки зрения баланса между скоростью, точностью и стоимостью вывода.

Разработчики отдельно подчеркивают, что модель обучали заметно экономнее многих конкурентов. Для мультимодального обучения использовали около 200 млрд токенов данных, тогда как у ряда других открытых vision-language моделей похожего класса объемы переваливают за триллион токенов. Основой послужили наработки Phi-4 и Phi-4-Reasoning, а в качестве визуального энкодера Microsoft выбрала SigLIP-2 в варианте Naflex с динамическим разрешением. Внутренние эксперименты показали, что такой подход особенно полезен на насыщенных деталями изображениях, включая скриншоты с мелкими элементами интерфейса.

Большую часть обучающего набора собрали из открытых датасетов, но не в исходном виде. Команда вручную проверяла качество, вычищала слабые записи, исправляла форматирование, заменяла ошибочные ответы и в ряде случаев заново генерировала подписи и вопросы с помощью GPT-4o и o4-mini. Если картинка была хорошей, а текст плохим, изображение использовали как основу для новых качественных примеров. Microsoft утверждает, что такой отбор и переработка данных дали больше пользы, чем простое наращивание объема.

Отдельная линия работы касалась баланса между математикой, наукой и данными для computer-use сценариев. Эксперименты показали неожиданную вещь: добавление большего числа задач по математике и естественным наукам не ухудшало результаты на задачах взаимодействия с интерфейсами, а в отдельных конфигурациях даже помогало. Для компактной модели такой результат выглядит любопытно, потому что рынок часто исходит из противоположной логики: чем уже специализация, тем выше итоговое качество в конкретной нише.

По бенчмаркам картина получилась неоднородной, но в целом сильной для своего класса. Microsoft пишет, что Phi-4-reasoning-vision-15B показывает особенно привлекательное соотношение точности, скорости ответа и числа выходных токенов. На части задач модель уступает более крупным и более медленным решениям, зато в среднем выглядит конкурентоспособно при куда меньших затратах. Особенно выгодно новинка смотрится в сценариях, где важны низкая задержка, умеренный расход вычислений и работа с насыщенными деталями экрана.

С практической точки зрения у модели широкий набор сценариев. Phi-4-reasoning-vision-15B может подписывать фотографии, считать доли по чеку, разбирать символы на ярлыках одежды, помогать с домашними заданиями, читать диаграммы и документы, а также поддерживать агентов, которые ориентируются в Windows, веб-интерфейсах и мобильных приложениях. Microsoft отдельно приводит примеры с разбором физических задач, проверкой рукописных математических решений и поиском элементов на экране.

Phi-4-reasoning-vision-15B уже доступна через Microsoft Foundry, Hugging Face и GitHub. Microsoft выпустила модель с открытыми весами, кодом для дообучения и журналами бенчмарков по разрешительной лицензии. Для рынка открытых мультимодальных моделей такой релиз выглядит не как попытка побить все рекорды, а как более практичное заявление: не каждая полезная модель обязана быть огромной, медленной и дорогой. Иногда достаточно аккуратно собрать архитектуру, почистить данные и научить систему не рассуждать там, где ответ можно дать сразу.

FREE
100%
Кибербезопасность · Обучение
УЧИСЬ!
ИЛИ
ВЗЛОМАЮТ
Лучшие ИБ-мероприятия
и вебинары — в одном месте
ПОДПИШИСЬ
T.ME/SECWEBINARS