Все символы обрабатываются одновременно, ломая привычные барьеры скорости.

Google представила экспериментальную модель DiffusionGemma, которая переносит подходы генераторов изображений в работу с текстом и обещает ускорить локальный вывод на потребительском оборудовании. Новая модель вошла в семейство открытых моделей Gemma и уже доступна для загрузки. Для запуска на домашнем оборудовании потребуется около 18 ГБ оперативной или видеопамяти.
DiffusionGemma отличается от привычных больших языковых моделей. Обычные LLM создают текст последовательно, токен за токеном, из-за чего сильно зависят от скорости обмена с памятью. Новая модель по своему принципу работы ближе к Stable Diffusion или Flux: сначала она размещает набор случайных токенов, а затем постепенно очищает и уточняет заготовку до готового фрагмента текста.
Google рассчитывает, что такой подход лучше подойдёт для локального запуска. В облаке провайдеры ускоряют обычные LLM за счёт параллельной обработки множества запросов, но на домашнем ноутбуке такой сценарий недоступен. У мощных потребительских видеокарт часто остаётся вычислительный запас, и DiffusionGemma может использовать именно его.
Главное преимущество модели связано не с качеством ответов, а со скоростью. По данным Google, DiffusionGemma обгоняет Gemma 4 12B примерно в 2,25 раза при включённом speculative decode, а по сравнению с Gemma 4 26B-A4B на одном чипе Nvidia H100 ускорение приближается к четырёхкратному. При этом в тесте GPQA-Diamond модель с 26 млрд параметров немного уступает Gemma 4 12B.
Google выпускает DiffusionGemma как экспериментальную разработку, а не как корпоративный продукт. Модель распространяется под лицензией Apache 2.0 и уже доступна через популярные репозитории, включая Hugging Face. Поддержка добавлена в vLLM, MLX и HF Transformers, а интеграция с Llama.cpp ожидается позднее.
Интерес к локальному запуску ИИ растёт не только среди энтузиастов. Компании ищут способы снизить расходы на облачные вычисления, и Google уже начала двигаться в ту же сторону: в мае компания незаметно добавила небольшую языковую модель в браузер Chrome.