Личный ChatGPT на домашнем ПК без интернета: установка gpt-oss-20b шаг за шагом

Личный ChatGPT на домашнем ПК без интернета: установка gpt-oss-20b шаг за шагом

Открытые нейросети ворвались в нашу повседневность так стремительно, что вчерашний «запуск на коленке» уже не кажется магией, а превращается в будничную задачу. На этой неделе OpenAI выкатили две свежие open-weight модели — обе под лаконичным именем gpt-oss. Тяжёлая версия gpt-oss-120b весит почти сто двадцать миллиардов параметров и напоминает утюг для ЦЕРНа: чтобы её оживить, понадобится 80 ГБ свободной видеопамяти или почти терабайт системной. Зато «младшая сестра» — gpt-oss-20b — скромнее: 21 млрд параметров, 12–13 ГБ файлов, 16 ГБ VRAM (или 24 ГБ ОЗУ) и вот она уже готова отвечать на ваши каверзные вопросы.

Сегодня выясним, как бесплатно запустить эту модель дома, сколько реально ждать ответа на ноутбуке и почему «память памятью», а пропускная способность шины — ваш новый лучший друг. Приготовьтесь: будем шутить, считать гигабайты, вспоминать Тейлор Свифт и, конечно, запускать Ollama .

Почему именно gpt-oss-20b и что значит «open-weight»

Коротко: open-weightopen-source. Код модели может оставаться за семью печатями, но её веса разрешено скачивать, хранить и крутить локально. Разработчики получают конструктор без API-ограничений, а энтузиасты — шанс не зависеть от облаков. У gpt-oss-20b достаточно нейронных «нейронов», чтобы отвечать не только на «сколько будет дважды два», но и генерировать статьи средней длины. При этом размер позволяет поместить всё чудо в одну потребительскую видеокарту. Золотая середина для домашней лаборатории.

Железо решает: требования и тонкости производительности

Главная ловушка новичка — смотреть только на объём памяти. На самом деле критична не столько ёмкость, сколько скорость. Сравните:

  • RTX 4090 с GDDR6X ~1000 ГБ/с;
  • бюджетный десктоп с DDR4-3200 ~25–35 ГБ/с;
  • тонкий ультрабук на LPDDR5x-6400 ~60 ГБ/с;
  • Apple M1 Max (общая память LPDDR5x-6400, но шина 256-бит) ~400 ГБ/с.

Чем шире «трубопровод», тем меньше времени модель тратит на «мышление» и тем скорее вы увидите ответы. На практике:

  1. GPU 16 ГБ+ с GDDR6 / GDDR6X / HBM — идеал.
  2. Apple Silicon (M1 / M2 / M3) — очень бодро.
  3. Процессор + интегрированная графика — терпимо, но придётся налить чай.

И, конечно, оставьте операционной системе хотя бы 8 ГБ живой памяти. Если всё забьётся под завязку, модель начнёт свопиться, а вы — читать «Войну и мир» до окончания генерации.

Шаг 0: устанавливаем Ollama

Ollama — это «однокнопочный» клиент, который берёт на себя скачивание, обновление и запуск моделей. Доступен для Windows, Linux и macOS. Интерфейс на английском, но понятный до скуки: поле для запроса и выпадающий список моделек.

Зачем ещё CLI-режим

Графика — это мило, однако командная строка открывает режим /set verbose, где можно наблюдать скорость вывода, время «обдумывания» и даже температуру видеокарты (если задействованы расширенные плагины). Любители цифр в восторге.

Windows: чуть-чуть кликов — и ваш локальный ChatGPT готов

Процесс не сложнее установки браузера:

  • Скачайте Ollama for Windows и пройдите мастер.
  • Запустите приложение. В списке моделей уже выбран gpt-oss:20b.
  • Введите любой вопрос — Ollama тут же начнёт тянуть 12,4 ГБ весов. Скорость зависит от интернета, запаситесь печеньем.
  • После загрузки пишите запросы, жмите стрелку — и наслаждайтесь локальными ответами.

CLI-способ:

ollama run gpt-oss
 /set verbose
 Кто был первым президентом США?
 

С первого запуска модель опять скачается, зато потом всё летает без сети.

Linux: одна команда — и терминал оживает

Терминал уже открыт? Погнали:

curl -fsSL https://ollama.com/install.sh | sh
 ollama run gpt-oss
 

Пакетный скрипт определит дистрибутив, подтянет зависимости и создаст systemd-службу. Дальше включайте verbose, меряйте время, сравнивайте ядра — простор для экспериментов.

macOS: сила Apple Silicon и несколько кликов

На «яблочных» чипах установка классическая:

  • Скачайте .dmg, перетащите Ollama в Applications.
  • Откройте программу, убедитесь, что выбран gpt-oss:20b.
  • Спросите что-нибудь — модель скачает архив, распакует на SSD и начнёт отвечать.

M1 Max, например, выдал 600-словное письмо Тейлор Свифт за 26 секунд — всяко быстрее, чем я печатаю эту строку.

Сравнение производительности: ноутбук vs Mac vs десктоп с RTX 6000

Чтобы почувствовать разницу, мы заставили модель:

  1. написать фан-письмо кумиру;
  2. ответить, кто был первым лидером США.
ПлатформаПисьмо (≈600 слов)Короткий факт
ThinkPad X1 Carbon (LPDDR5x-6400, CPU-рендер)10 мин 13 с51 с
MacBook Pro M1 Max26 с3 с
PC + RTX 6000 Ada6 с< 0.5 с

Мораль проста: если ваш ноутбук не умеет передавать сотни гигабайт в секунду — не беда, но терпение придётся тренировать.

Что делать, если скорости всё-таки мало

Несколько проверенных приёмов:

  • Квантизация — перезапишите веса в 4-битном формате (Ollama умеет), выиграете 20–30 % быстродействия и сэкономите пару гигабайт.
  • GPU offload частичный — часть слоёв оставить на CPU, если видеопамяти недостаточно.
  • Меньше контекста — сократите длину history, модель не будет перерабатывать пол-романа.
  • Batch-size 1 — дефолтно; не увеличивайте, если печатает по буквам.

Экзотика вроде SWAP-RAM-на-SSD лучше не пробовать: время генерации растянется до эпохальных масштабов.

Альтернативы Ollama: стоит ли смотреть на LM Studio

LM Studio привлекателен тем, что использует тот же интерфейс GGUF-моделей, но предоставляет расширенный чат UI, поддержку нескольких чатов одновременно и гибкую настройку температур, топ-p, репитион-пеналти. Если Ollama кажется простоватым, попробуйте LM Studio: скачайте, импортируйте «20b», выберите движок — и получите всё в одной вкладке. Однако командная строка Ollama остаётся королём скриптов и автоматизации CI/CD.

Частые проблемы и их решения

«Оперативки хватает, но модель не стартует»
Проверьте, какой backend выбран. Если CUDA/Metal не обнаружены, Ollama свалится в CPU-режим и запросто выйдет за пределы RAM.
«Загрузка обрывается на 30 %»
Просто докачайте файл: перезапуск клиента продолжит загрузку с контрольной точкой.
«Модель пишет бессвязицу после 2000 токенов»
Уменьшите top-k или temperature, а также сократите контекст. 20b-версии тяжело держать сверхдлинный диалог.

Итоги: почему локальный LLM — это весело и полезно

Запустив gpt-oss-20b дома, вы:

  • избавляетесь от лимитов облачного тарифа;
  • экспериментируете с настройками без риска отправить корпоративную тайну на чужой сервер;
  • учитесь тонко настраивать параметры генерации;
  • увеличиваете градус Geek-кармы — друзья удивятся, когда увидят ChatGPT без интернета.

Конечно, локальный запуск не всегда быстрее, чем облачный API, зато полностью под вашим контролем. Пара вечеров на установку — и у вас в распоряжении персональный языковой движок, который продолжит работать, даже если Wi-Fi внезапно исчезнет. Другое дело, что любая серьёзная аналитика требует ещё больших моделей, а значит, рано или поздно захочется закатить в системник новую видеокарту. Но разве это повод отступать?

Экспериментируйте, меряйте производительность, делитесь результатами и не забывайте давать модели творческие запросы. Иногда именно локальная нейросеть выдаёт самые неожиданные строки — особенно если попросить её признаться в любви Тейлор Свифт.

ChatGPT gpt-oss-20b инструкция ИИ
Alt text
Обращаем внимание, что все материалы в этом блоге представляют личное мнение их авторов. Редакция SecurityLab.ru не несет ответственности за точность, полноту и достоверность опубликованных данных. Вся информация предоставлена «как есть» и может не соответствовать официальной позиции компании.

Культура отмены: новая инквизиция или эволюция справедливости

От цифрового остракизма до алгоритмов ненависти: как виртуальная толпа с факелами превратилась в бизнес-модель.

Комнатный Блогер

Объясняю новую цифровую реальность