Личный ChatGPT на домашнем ПК без интернета: установка gpt-oss-20b шаг за шагом

Открытые нейросети ворвались в нашу повседневность так стремительно, что вчерашний «запуск на коленке» уже не кажется магией, а превращается в будничную задачу. Недавно OpenAI выкатили две свежие модели с открытыми весами — обе под лаконичным именем gpt-oss. Тяжёлая версия gpt-oss-120b весит почти 120 миллиардов параметров: чтобы её оживить, понадобится 80 ГБ свободной видеопамяти или почти терабайт системной. Зато «младшая сестра» — gpt-oss-20b — скромнее: 21 млрд параметров, 12–13 ГБ файлов, 16 ГБ VRAM (или 24 ГБ ОЗУ) и вот она уже готова отвечать на ваши каверзные вопросы.

Сегодня выясним, как бесплатно запустить «младшую» модель дома, сколько реально ждать ответа на ноутбуке и почему «память памятью», а пропускная способность шины — ваш новый лучший друг. Приготовьтесь: будем шутить, считать гигабайты, вспоминать Тейлор Свифт и, конечно, запускать Ollama.

Почему именно gpt-oss-20b и что значит «открытый вес»

Коротко: open-weight ≠ open-source. Код модели может оставаться за семью печатями, но её веса разрешено скачивать, хранить и крутить локально. Разработчики получают конструктор без API-ограничений, а энтузиасты — шанс не зависеть от облаков. У gpt-oss-20b достаточно «нейронов», чтобы отвечать не только на «сколько будет дважды два», но и генерировать статьи средней длины. При этом размер позволяет поместить всё чудо в одну потребительскую видеокарту. Золотая середина для домашней лаборатории.

Железо решает: требования и тонкости производительности

Главная ловушка новичка — смотреть только на объём памяти. На самом деле критична не столько ёмкость, сколько скорость. Сравните:

RTX 4090 с GDDR6X ~1000 ГБ/с;
бюджетный десктоп с DDR4-3200 ~25–35 ГБ/с;
тонкий ультрабук на LPDDR5x-6400 ~60 ГБ/с;
Apple M1 Max (общая память LPDDR5x-6400, но шина 256-бит) ~400 ГБ/с.

Чем шире пропускная способность, тем меньше времени модель тратит на «мышление» и тем скорее вы увидите ответы. На практике:

GPU 16 ГБ+ с GDDR6 / GDDR6X / HBM — идеал.
Apple Silicon (M1 / M2 / M3) — очень бодро.
Процессор + интегрированная графика — терпимо, но придётся налить чай.

И, конечно, оставьте операционной системе хотя бы 8 ГБ живой памяти. Если всё забьётся под завязку, модель начнёт свопиться, а вы — читать «Войну и мир» до окончания генерации.

Шаг 0: устанавливаем Ollama

Ollama — это «однокнопочный» клиент, который берёт на себя скачивание, обновление и запуск моделей. Доступен для Windows, Linux и macOS. Интерфейс на английском, но понятный до скуки: поле для запроса и выпадающий список моделек.

Зачем ещё CLI-режим

Графика — это мило, однако командная строка открывает режим /set verbose, где можно наблюдать скорость вывода, время «обдумывания» и даже температуру видеокарты (если задействованы расширенные плагины). Любители цифр в восторге.

Windows: чуть-чуть кликов — и ваш локальный ChatGPT готов

Процесс не сложнее установки браузера:

Скачайте Ollama for Windows и пройдите мастер установки.
Запустите приложение. В списке моделей уже выбран gpt-oss:20b.
Введите любой вопрос — Ollama тут же начнёт тянуть 12,4 ГБ весов. Скорость зависит от интернета, запаситесь печеньем.
После загрузки пишите запросы, жмите стрелку — и наслаждайтесь локальными ответами.

CLI-способ:

ollama run gpt-oss
 /set verbose
 Кто был первым президентом США?

С первого запуска модель опять скачается, зато потом всё летает без сети.

Linux: одна команда — и терминал оживает

Терминал уже открыт? Погнали:

curl -fsSL https://ollama.com/install.sh | sh
 ollama run gpt-oss

Пакетный скрипт определит дистрибутив, подтянет зависимости и создаст systemd-службу. Дальше включайте verbose, меряйте время, сравнивайте ядра — простор для экспериментов.

macOS: сила Apple Silicon и несколько кликов

На «яблочных» чипах установка классическая:

Скачайте .dmg, перетащите Ollama в Applications.
Откройте программу, убедитесь, что выбран gpt-oss:20b.
Спросите что-нибудь — модель скачает архив, распакует на SSD и начнёт отвечать.

M1 Max, например, выдал 600-словное письмо Тейлор Свифт за 26 секунд — всяко быстрее, чем я печатаю эту строку.

Сравнение производительности: ноутбук vs Mac vs десктоп с RTX 6000

Чтобы почувствовать разницу, можно заставить модель:

написать фан-письмо кумиру;
ответить, кто был первым президентом США.

Платформа	Письмо (≈600 слов)	Короткий факт
ThinkPad X1 Carbon (LPDDR5x-6400, CPU-рендер)	10 мин 13 с	51 с
MacBook Pro M1 Max	26 с	3 с
PC + RTX 6000 Ada	6 с	< 0.5 с

Мораль проста: если ваш ноутбук не умеет передавать сотни гигабайт в секунду — не беда, но терпение придётся тренировать.

Что делать, если скорости всё-таки мало

Несколько проверенных приёмов:

Квантизация — перезапишите веса в 4-битном формате (Ollama умеет), выиграете 20–30% быстродействия и сэкономите пару гигабайт.
GPU offload частичный — часть слоёв оставить на CPU, если видеопамяти недостаточно.
Меньше контекста — сократите длину "истории" диалога, модель не будет перерабатывать пол-романа.
Batch-size 1 — дефолтно; не увеличивайте, если печатает по буквам.

Экзотика вроде SWAP-RAM-на-SSD лучше не пробовать: время генерации растянется до эпохальных масштабов.

Альтернативы Ollama: стоит ли смотреть на LM Studio

LM Studio привлекателен тем, что использует тот же интерфейс GGUF-моделей, но предоставляет расширенный чат UI, поддержку нескольких чатов одновременно и гибкую настройку температур, топ-p, репитион-пеналти. Если Ollama кажется простоватым, попробуйте LM Studio: скачайте, импортируйте «20b», выберите движок — и получите всё в одной вкладке. Однако командная строка Ollama остаётся королём скриптов и автоматизации CI/CD.

Частые проблемы и их решения

«Оперативки хватает, но модель не стартует»: Проверьте, какой бэкэнд выбран. Если CUDA/Metal не обнаружены, Ollama свалится в CPU-режим и запросто выйдет за пределы RAM.
«Загрузка обрывается на 30%»: Просто докачайте файл: перезапуск клиента продолжит загрузку с контрольной точкой.
«Модель пишет бессвязицу после 2000 токенов»: Уменьшите top-k или temperature, а также сократите контекст. 20b-версии тяжело держать сверхдлинный диалог.

Итоги: почему локальный LLM — это весело и полезно

Запустив gpt-oss-20b дома, вы:

избавляетесь от лимитов облачного тарифа;
экспериментируете с настройками без риска отправить личную или корпоративную тайну на чужой сервер;
учитесь тонко настраивать параметры генерации;
увеличиваете градус гик-кармы — друзья удивятся, когда увидят ChatGPT без интернета.

Конечно, локальный запуск не всегда быстрее, чем облачный API, зато полностью под вашим контролем. Один вечер на установку — и у вас в распоряжении персональный языковой движок, который продолжит работать, даже если Wi-Fi внезапно исчезнет. Другое дело, что любая серьёзная аналитика требует ещё больших моделей, а значит, рано или поздно захочется закатить в системник новую видеокарту. Но разве это повод отступать?

Экспериментируйте, измеряйте производительность, делитесь результатами и не забывайте давать модели творческие запросы. Иногда именно локальная нейросеть выдаёт самые неожиданные строки — особенно если попросить её признаться в любви Тейлор Свифт.

Личный ChatGPT на домашнем ПК без интернета: установка gpt-oss-20b шаг за шагом

Почему именно gpt-oss-20b и что значит «открытый вес»

Железо решает: требования и тонкости производительности

Шаг 0: устанавливаем Ollama

Зачем ещё CLI-режим

Windows: чуть-чуть кликов — и ваш локальный ChatGPT готов

Linux: одна команда — и терминал оживает

macOS: сила Apple Silicon и несколько кликов

Сравнение производительности: ноутбук vs Mac vs десктоп с RTX 6000

Что делать, если скорости всё-таки мало

Альтернативы Ollama: стоит ли смотреть на LM Studio

Частые проблемы и их решения

Итоги: почему локальный LLM — это весело и полезно

Комнатный Блогер

Объясняю новую цифровую реальность

Личный ChatGPT на домашнем ПК без интернета: установка gpt-oss-20b шаг за шагом

Почему именно gpt-oss-20b и что значит «открытый вес»

Железо решает: требования и тонкости производительности

Шаг 0: устанавливаем Ollama

Зачем ещё CLI-режим

Windows: чуть-чуть кликов — и ваш локальный ChatGPT готов

Linux: одна команда — и терминал оживает

macOS: сила Apple Silicon и несколько кликов

Сравнение производительности: ноутбук vs Mac vs десктоп с RTX 6000

Что делать, если скорости всё-таки мало

Альтернативы Ollama: стоит ли смотреть на LM Studio

Частые проблемы и их решения

Итоги: почему локальный LLM — это весело и полезно

Комнатный Блогер

Объясняю новую цифровую реальность

Подпишитесь на email рассылку