Открытые нейросети ворвались в нашу повседневность так стремительно, что вчерашний «запуск на коленке» уже не кажется магией, а превращается в будничную задачу. На этой неделе OpenAI выкатили две свежие open-weight модели — обе под лаконичным именем gpt-oss. Тяжёлая версия gpt-oss-120b весит почти сто двадцать миллиардов параметров и напоминает утюг для ЦЕРНа: чтобы её оживить, понадобится 80 ГБ свободной видеопамяти или почти терабайт системной. Зато «младшая сестра» — gpt-oss-20b — скромнее: 21 млрд параметров, 12–13 ГБ файлов, 16 ГБ VRAM (или 24 ГБ ОЗУ) и вот она уже готова отвечать на ваши каверзные вопросы.
Сегодня выясним, как бесплатно запустить эту модель дома, сколько реально ждать ответа на ноутбуке и почему «память памятью», а пропускная способность шины — ваш новый лучший друг. Приготовьтесь: будем шутить, считать гигабайты, вспоминать Тейлор Свифт и, конечно, запускать Ollama .
Почему именно gpt-oss-20b и что значит «open-weight»
Коротко: open-weight ≠ open-source. Код модели может оставаться за семью печатями, но её веса разрешено скачивать, хранить и крутить локально. Разработчики получают конструктор без API-ограничений, а энтузиасты — шанс не зависеть от облаков. У gpt-oss-20b достаточно нейронных «нейронов», чтобы отвечать не только на «сколько будет дважды два», но и генерировать статьи средней длины. При этом размер позволяет поместить всё чудо в одну потребительскую видеокарту. Золотая середина для домашней лаборатории.
Железо решает: требования и тонкости производительности
Главная ловушка новичка — смотреть только на объём памяти. На самом деле критична не столько ёмкость, сколько скорость. Сравните:
- RTX 4090 с GDDR6X ~1000 ГБ/с;
- бюджетный десктоп с DDR4-3200 ~25–35 ГБ/с;
- тонкий ультрабук на LPDDR5x-6400 ~60 ГБ/с;
- Apple M1 Max (общая память LPDDR5x-6400, но шина 256-бит) ~400 ГБ/с.
Чем шире «трубопровод», тем меньше времени модель тратит на «мышление» и тем скорее вы увидите ответы. На практике:
- GPU 16 ГБ+ с GDDR6 / GDDR6X / HBM — идеал.
- Apple Silicon (M1 / M2 / M3) — очень бодро.
- Процессор + интегрированная графика — терпимо, но придётся налить чай.
И, конечно, оставьте операционной системе хотя бы 8 ГБ живой памяти. Если всё забьётся под завязку, модель начнёт свопиться, а вы — читать «Войну и мир» до окончания генерации.
Шаг 0: устанавливаем Ollama
Ollama — это «однокнопочный» клиент, который берёт на себя скачивание, обновление и запуск моделей. Доступен для Windows, Linux и macOS. Интерфейс на английском, но понятный до скуки: поле для запроса и выпадающий список моделек.
Зачем ещё CLI-режим
Графика — это мило, однако командная строка открывает режим /set verbose
, где можно наблюдать скорость вывода, время «обдумывания» и даже температуру видеокарты (если задействованы расширенные плагины). Любители цифр в восторге.
Windows: чуть-чуть кликов — и ваш локальный ChatGPT готов
Процесс не сложнее установки браузера:
- Скачайте Ollama for Windows и пройдите мастер.
- Запустите приложение. В списке моделей уже выбран gpt-oss:20b.
- Введите любой вопрос — Ollama тут же начнёт тянуть 12,4 ГБ весов. Скорость зависит от интернета, запаситесь печеньем.
- После загрузки пишите запросы, жмите стрелку — и наслаждайтесь локальными ответами.
CLI-способ:
ollama run gpt-oss
/set verbose
Кто был первым президентом США?
С первого запуска модель опять скачается, зато потом всё летает без сети.
Linux: одна команда — и терминал оживает
Терминал уже открыт? Погнали:
curl -fsSL https://ollama.com/install.sh | sh
ollama run gpt-oss
Пакетный скрипт определит дистрибутив, подтянет зависимости и создаст systemd-службу. Дальше включайте verbose, меряйте время, сравнивайте ядра — простор для экспериментов.
macOS: сила Apple Silicon и несколько кликов
На «яблочных» чипах установка классическая:
- Скачайте .dmg, перетащите Ollama в Applications.
- Откройте программу, убедитесь, что выбран gpt-oss:20b.
- Спросите что-нибудь — модель скачает архив, распакует на SSD и начнёт отвечать.
M1 Max, например, выдал 600-словное письмо Тейлор Свифт за 26 секунд — всяко быстрее, чем я печатаю эту строку.
Сравнение производительности: ноутбук vs Mac vs десктоп с RTX 6000
Чтобы почувствовать разницу, мы заставили модель:
- написать фан-письмо кумиру;
- ответить, кто был первым лидером США.
Платформа | Письмо (≈600 слов) | Короткий факт |
---|---|---|
ThinkPad X1 Carbon (LPDDR5x-6400, CPU-рендер) | 10 мин 13 с | 51 с |
MacBook Pro M1 Max | 26 с | 3 с |
PC + RTX 6000 Ada | 6 с | < 0.5 с |
Мораль проста: если ваш ноутбук не умеет передавать сотни гигабайт в секунду — не беда, но терпение придётся тренировать.
Что делать, если скорости всё-таки мало
Несколько проверенных приёмов:
- Квантизация — перезапишите веса в 4-битном формате (Ollama умеет), выиграете 20–30 % быстродействия и сэкономите пару гигабайт.
- GPU offload частичный — часть слоёв оставить на CPU, если видеопамяти недостаточно.
- Меньше контекста — сократите длину history, модель не будет перерабатывать пол-романа.
- Batch-size 1 — дефолтно; не увеличивайте, если печатает по буквам.
Экзотика вроде SWAP-RAM-на-SSD лучше не пробовать: время генерации растянется до эпохальных масштабов.
Альтернативы Ollama: стоит ли смотреть на LM Studio
LM Studio привлекателен тем, что использует тот же интерфейс GGUF-моделей, но предоставляет расширенный чат UI, поддержку нескольких чатов одновременно и гибкую настройку температур, топ-p, репитион-пеналти. Если Ollama кажется простоватым, попробуйте LM Studio: скачайте, импортируйте «20b», выберите движок — и получите всё в одной вкладке. Однако командная строка Ollama остаётся королём скриптов и автоматизации CI/CD.
Частые проблемы и их решения
- «Оперативки хватает, но модель не стартует»
- Проверьте, какой backend выбран. Если CUDA/Metal не обнаружены, Ollama свалится в CPU-режим и запросто выйдет за пределы RAM.
- «Загрузка обрывается на 30 %»
- Просто докачайте файл: перезапуск клиента продолжит загрузку с контрольной точкой.
- «Модель пишет бессвязицу после 2000 токенов»
- Уменьшите
top-k
илиtemperature
, а также сократите контекст. 20b-версии тяжело держать сверхдлинный диалог.
Итоги: почему локальный LLM — это весело и полезно
Запустив gpt-oss-20b дома, вы:
- избавляетесь от лимитов облачного тарифа;
- экспериментируете с настройками без риска отправить корпоративную тайну на чужой сервер;
- учитесь тонко настраивать параметры генерации;
- увеличиваете градус Geek-кармы — друзья удивятся, когда увидят ChatGPT без интернета.
Конечно, локальный запуск не всегда быстрее, чем облачный API, зато полностью под вашим контролем. Пара вечеров на установку — и у вас в распоряжении персональный языковой движок, который продолжит работать, даже если Wi-Fi внезапно исчезнет. Другое дело, что любая серьёзная аналитика требует ещё больших моделей, а значит, рано или поздно захочется закатить в системник новую видеокарту. Но разве это повод отступать?
Экспериментируйте, меряйте производительность, делитесь результатами и не забывайте давать модели творческие запросы. Иногда именно локальная нейросеть выдаёт самые неожиданные строки — особенно если попросить её признаться в любви Тейлор Свифт.