Новая открытая модель на 15 млрд параметров читает экраны, решает задачи и экономит вычислительные ресурсы.

Microsoft решила доказать, что для сильной мультимодальной модели не всегда нужны гигантские размеры и прожорливость к вычислениям. Компания представила Phi-4-reasoning-vision-15B, открытую модель на 15 млрд параметров, которая умеет работать с изображениями, документами, графиками, интерфейсами компьютеров и смартфонов, а заодно неплохо справляется с задачами по математике и естественным наукам. По замыслу разработчиков, новинка должна закрыть сразу две боли рынка: высокую задержку крупных vision-language моделей и слишком высокую цену запуска в реальных сервисах.
Microsoft делает ставку на прагматичный подход. Вместо гонки за максимальным числом параметров команда собрала модель, которую можно использовать для широкого набора задач: от генерации подписей к фотографиям и разбора чеков до чтения документов, ответа на вопросы по картинкам и анализа изменений в последовательности изображений. Отдельный акцент компания сделала на понимании экранов и графических интерфейсов. Phi-4-reasoning-vision-15B умеет распознавать кнопки, меню, поля ввода и другие элементы, поэтому модель предлагают использовать как основу для агентных систем, которые работают с настольными приложениями, сайтами и мобильными интерфейсами.
Главная идея проекта проста: компактная модель должна отвечать быстро и не тратить лишние токены там, где длинные рассуждения не приносят пользы. Для задач вроде OCR, описания картинок или простого визуального вопроса модель обычно отвечает напрямую. Для математики, науки и более сложных сценариев Phi-4-reasoning-vision-15B включает режим пошагового рассуждения. Microsoft называет такой подход смешанным: модель сама выбирает, когда думать длинно, а когда лучше дать короткий и прямой ответ. В компании признают, что граница между двумя режимами пока далека от идеала, но считают компромисс удачным с точки зрения баланса между скоростью, точностью и стоимостью вывода.
Разработчики отдельно подчеркивают, что модель обучали заметно экономнее многих конкурентов. Для мультимодального обучения использовали около 200 млрд токенов данных, тогда как у ряда других открытых vision-language моделей похожего класса объемы переваливают за триллион токенов. Основой послужили наработки Phi-4 и Phi-4-Reasoning, а в качестве визуального энкодера Microsoft выбрала SigLIP-2 в варианте Naflex с динамическим разрешением. Внутренние эксперименты показали, что такой подход особенно полезен на насыщенных деталями изображениях, включая скриншоты с мелкими элементами интерфейса.
Большую часть обучающего набора собрали из открытых датасетов, но не в исходном виде. Команда вручную проверяла качество, вычищала слабые записи, исправляла форматирование, заменяла ошибочные ответы и в ряде случаев заново генерировала подписи и вопросы с помощью GPT-4o и o4-mini. Если картинка была хорошей, а текст плохим, изображение использовали как основу для новых качественных примеров. Microsoft утверждает, что такой отбор и переработка данных дали больше пользы, чем простое наращивание объема.
Отдельная линия работы касалась баланса между математикой, наукой и данными для computer-use сценариев. Эксперименты показали неожиданную вещь: добавление большего числа задач по математике и естественным наукам не ухудшало результаты на задачах взаимодействия с интерфейсами, а в отдельных конфигурациях даже помогало. Для компактной модели такой результат выглядит любопытно, потому что рынок часто исходит из противоположной логики: чем уже специализация, тем выше итоговое качество в конкретной нише.
По бенчмаркам картина получилась неоднородной, но в целом сильной для своего класса. Microsoft пишет, что Phi-4-reasoning-vision-15B показывает особенно привлекательное соотношение точности, скорости ответа и числа выходных токенов. На части задач модель уступает более крупным и более медленным решениям, зато в среднем выглядит конкурентоспособно при куда меньших затратах. Особенно выгодно новинка смотрится в сценариях, где важны низкая задержка, умеренный расход вычислений и работа с насыщенными деталями экрана.
С практической точки зрения у модели широкий набор сценариев. Phi-4-reasoning-vision-15B может подписывать фотографии, считать доли по чеку, разбирать символы на ярлыках одежды, помогать с домашними заданиями, читать диаграммы и документы, а также поддерживать агентов, которые ориентируются в Windows, веб-интерфейсах и мобильных приложениях. Microsoft отдельно приводит примеры с разбором физических задач, проверкой рукописных математических решений и поиском элементов на экране.
Phi-4-reasoning-vision-15B уже доступна через Microsoft Foundry, Hugging Face и GitHub. Microsoft выпустила модель с открытыми весами, кодом для дообучения и журналами бенчмарков по разрешительной лицензии. Для рынка открытых мультимодальных моделей такой релиз выглядит не как попытка побить все рекорды, а как более практичное заявление: не каждая полезная модель обязана быть огромной, медленной и дорогой. Иногда достаточно аккуратно собрать архитектуру, почистить данные и научить систему не рассуждать там, где ответ можно дать сразу.