SuperGemma4-26B-Uncensored-GGUF-v2: обзор локальной Gemma 4 без жестких фильтров

SuperGemma4-26B-Uncensored-GGUF-v2 не стоит путать с официальным релизом Google. По карточке перед нами пользовательская GGUF-сборка на базе google/gemma-4-26B-A4B-it, заточенная под локальный запуск через llama.cpp, с упором на более свободные ответы, нормальный чат без навязчивого ухода в «режим программиста» и быструю работу на Apple Silicon.

Главная мысль простая. Модель интересна не потому, что она «без цензуры», а потому что автор пытается совместить три вещи, которые редко сходятся в одном файле: ослабленные фильтры, внятный повседневный диалог и приемлемую скорость в локальном режиме. Но ровно здесь же и сидит главный риск. «Uncensored» не делает модель умнее, точнее или надежнее. Сборка лишь чаще соглашается отвечать там, где штатная версия уходит в отказ или начинает чрезмерно морализировать.

Что такое SuperGemma4-26B-Uncensored-GGUF-v2 на практике

Если убрать маркетинговую шелуху, картина такая. Базой служит Gemma 4 26B A4B. У Gemma 4 в официальной документации 26B A4B описана как Mixture of Experts-модель, где при генерации активна только часть параметров на токен, но в память все равно нужно грузить всю модель. Отсюда полезный вывод для обычного пользователя: «A4B» не означает, что модель будет жить как компактная 4B. По памяти и по весу железа перед вами все равно крупный класс.

Автор сборки прямо пишет, что релиз упакован в один GGUF-файл формата Q4_K_M размером 16,8 ГБ. На странице также указано 25B params и тег Text Generation, а не мультимодальность. Поэтому ждать от этой версии полноценного зрения, как у исходной Gemma 4, не надо. Базовая семейка Gemma 4 умеет работать с картинками и длинным контекстом до 256K, но конкретно этот релиз стоит воспринимать как локальную текстовую модель для диалога, кода и повседневных задач.

Почему сборка вообще привлекает внимание

У автора правильный заход. Многие «разблокированные» модели быстро разваливаются в обычном общении. С ними можно выбить опасный или спорный ответ, но в бытовых задачах получается каша. Вопросы про текст, пересказ, письмо, код или перевод начинают странно уезжать в шаблонный тон, странные tool-call конструкции или избыточную многословность. Здесь автор как раз продает идею, что модель оставили более свободной, но при этом не сломали обычный чат.

В карточке отдельно подчеркнут нейтральный встроенный шаблон общения. По словам автора, шаблон нужен, чтобы избежать старой проблемы с маршрутизацией подсказки, когда простой вопрос внезапно уводил модель в режим кода или вызова инструментов. Для локальных моделей такой нюанс вообще не мелочь. Очень часто ощущение «модель тупит» на деле оказывается проблемой шаблона, системного текста или кривой упаковки GGUF.

Заявленные цифры скорости и что с ними не так

Автор приводит красивые числа с Apple M4 Max. Для одного общего запроса на корейском указан prompt speed 222 ток/с и generation speed 89,4 ток/с. Для короткого кодового запроса указана обработка подсказки 704,9 ток/с и та же генерация 89,4 ток/с. Параллельно обещано превосходство над «stock» по quick bench 95,8 против 91,4 и по средней скорости генерации в MLX-сценарии 46,2 против 42,5 ток/с.

Смотреть на такие показатели надо без восторга. Все цифры взяты из карточки автора, а не из независимого сравнения на едином стенде. Плюс замеры сделаны на конкретной машине, с конкретным движком, шаблоном, длиной подсказки и собственным набором тестов. На практике у вас скорость сильно поменяют три вещи: объем контекста, размер кеша и железо. Так что обещание «летает на Apple Silicon» выглядит правдоподобно, но обещание «будет летать у вас» без личного прогона ничего не гарантирует.

Сколько памяти нужно в реальности

Вот здесь полезно отделить размер файла от комфортного запуска. В официальных материалах Gemma 4 для 26B A4B на 4-битном уровне фигурирует ориентир около 15,6 ГБ памяти для загрузки. У данного релиза сам GGUF-файл весит 16,8 ГБ. Уже видно, что сценарий «возьму ноутбук с 16 ГБ и все будет идеально» на грани. Да, модель может стартовать в некоторых конфигурациях, но запас под кеш, интерфейс, параллельные программы и длинные диалоги окажется минимальным.

Нормальный бытовой вывод такой. Для осторожных экспериментов нижняя граница начинается где-то около 16 ГБ объединенной памяти, но без комфорта. Для живой работы, особенно если нужен длинный контекст, лучше смотреть в сторону 24-32 ГБ и выше. На более слабых машинах будет либо своп, либо резкое проседание отзывчивости, либо постоянная борьба с длиной диалога.

Как запускать локально через llama.cpp

Поскольку перед нами GGUF, самый прямой путь выглядит скучно и надежно. Скачали файл с Hugging Face, положили в папку с моделями и дали его llama.cpp. Если в GGUF уже вшит шаблон чата, llama.cpp обычно сам включает разговорный режим. Базовый запуск выглядит так:

llama-cli -m ./models/supergemma4/supergemma4-26b-uncensored-fast-v2-Q4_K_M.gguf

Если нужен серверный режим для локального API или веб-интерфейса, логика та же, просто стартуете серверный бинарник поверх того же файла. Важный практический момент: с подобными сборками лучше не усложнять первый запуск вручную заданными шаблонами, дополнительными системными инструкциями и сомнительными пресетами. Сначала проверьте поведение на чистой конфигурации. Иначе вы не поймете, что именно испортило ответы: сама модель, движок или ваша обвязка.

Где модель реально хороша

Самый сильный сценарий у такой сборки не «все можно», а «локальный помощник без лишней опеки». Модель может быть удобной для черновиков, объяснений, генерации кода, переформулировок, мозгового штурма, ролевых диалогов и задач, где штатные фильтры часто ломают темп работы. Особенно если вам неприятен стиль официально выровненных моделей, которые на половину запросов отвечают как юрист службы поддержки.

Еще один плюс в том, что автор не пытается продавать релиз как универсальный прорыв. В карточке виден прагматичный акцент на Apple Silicon, GGUF и llama.cpp. Такой вектор обычно лучше, чем громкие обещания «убивает всех конкурентов». Когда разработчик честно говорит про конкретный движок и конкретный тип запуска, шанс получить предсказуемый результат выше.

Слабые места SuperGemma4-26B-Uncensored-GGUF-v2

Теперь к неприятному. Первая проблема очевидна. Ослабленные ограничители почти всегда ухудшают предсказуемость на границах. Модель легче соглашается отвечать там, где стоило бы притормозить, и чаще выдает уверенный тон по сомнительным темам. Для личного локального использования это может быть терпимо. Для рабочего сервиса, клиентского продукта или публичного чат-бота уже нет.

Вторая проблема менее очевидна. Базовая Gemma 4 официально подается как сильная мультимодальная линейка с длинным контекстом и хорошим reasoning-режимом, но в этой конкретной сборке пользователь получает урезанную и прагматичную версию идеи. Если вам нужна именно «полная Gemma 4» с картинками, большим контекстом и близким к оригиналу поведением, данный GGUF может разочаровать уже на старте.

Третья проблема упирается в происхождение. Это не официальный релиз Google, а производная сборка со своими решениями по шаблону, конвертации и характеру отклика. Автор отдельно пишет, что для экспорта MoE-тензоров использовался пропатченный локальный конвертер. В переводе на нормальный язык: внутри есть нестандартная инженерия. Нестандартная инженерия иногда дает отличные результаты, а иногда выстреливает тонкими багами спустя неделю использования.

Лицензия и правила использования: тут нельзя махнуть рукой

С юридической стороной тоже не все сводится к кнопке Download. У производной карточки указан license: gemma, а для самой Gemma 4 у Google есть отдельные условия использования и ограничения по запрещенным сценариям. Перед коммерческим или публичным применением стоит читать не только страницу автора, но и правила экосистемы Gemma. Особенно если вы хотите встроить модель в продукт, автоматизировать на ее базе опасные действия или выдавать ответы внешним пользователям без модерации.

И здесь полезно сказать прямо. «Uncensored» в названии не отменяет ни закон, ни условия лицензии, ни вашу ответственность как разработчика. С технической точки зрения вы можете получить более разговорчивую модель. С правовой точки зрения зона ответственности становится только шире.

Кому стоит ставить, а кому лучше пройти мимо

Сценарий	Вердикт	Почему
Личный локальный помощник на мощном Mac	Да	GGUF, упор на llama.cpp и Apple Silicon, меньше лишних отказов
Черновики, код, ролевые сценарии, длинные переписки	Скорее да	Если нужен более свободный тон и вы готовы проверять ответы вручную
Публичный чат-бот для клиентов	Скорее нет	Риск непредсказуемых и токсичных ответов выше, нужна внешняя модерация
Мультимодальные задачи с картинками	Нет	Конкретный релиз надо воспринимать как текстовую сборку
Слабый ноутбук с 16 ГБ памяти	На свой страх	Запуск возможен, но комфорт и длина контекста под вопросом

Практический вывод по SuperGemma4-26B-Uncensored-GGUF-v2

SuperGemma4-26B-Uncensored-GGUF-v2 выглядит как добротная нишевая сборка для тех, кто понимает, зачем ему локальная крупная модель без слишком жестких ограничителей. Не официальный эталон, не «убийца всех», не универсальный ответ на любой сценарий. Зато вполне осмысленный вариант для личной работы, если хочется получить поведение свободнее штатной Gemma 4 и не потерять удобство обычного чата.

Самое разумное отношение к релизу такое. Берите не из-за слова uncensored, а из-за сочетания формата GGUF, вменяемой упаковки под llama.cpp и понятной целевой аудитории. Но перед постоянным использованием обязательно прогоните свои реальные задачи: обычный диалог, сложный пересказ, код, таблицы, спорные формулировки, длинную переписку. Рекламные числа и красивое описание еще никогда не заменяли собственный тест.

Используйте модель ответственно и в рамках закона. Проверяйте требования законодательства вашей страны, включая Россию, а также условия использования Gemma. Не применяйте подобные сборки для противоправных действий, вредоносной автоматизации, обхода ограничений, нарушения прав третьих лиц или публикации опасного контента без контроля и модерации.

FAQ по SuperGemma4-26B-Uncensored-GGUF-v2

Запустится ли модель на 16 ГБ памяти?

На грани. Для коротких экспериментов шанс есть, но комфортная работа без запаса по памяти маловероятна. Для постоянного использования лучше иметь больше.

Это действительно «без цензуры»?

Скорее «с ослабленными ограничителями». Модель реже уходит в отказ, но не становится от этого ни объективнее, ни безопаснее.

Есть ли здесь мультимодальность Gemma 4?

Официальная Gemma 4 умеет больше, но конкретный релиз на странице оформлен как Text Generation и по смыслу выглядит как текстовая локальная сборка.

Подойдет ли для продакшена?

Только с внешними предохранителями: фильтрацией, журналированием, ограничением сценариев и нормальной проверкой выходных данных. Без обвязки риск слишком велик.

Есть ли смысл брать модель вместо стоковой Gemma 4?

Есть, если вас раздражают лишние отказы и нужен локальный более свободный помощник. Нет, если вам нужна официальная предсказуемость, мультимодальность и минимальный риск странных ответов.

Новая версия PT NAD — 13.0. Данные в сети под контролем, угрозы — под прицелом! Онлайн-запуск 4 июня