Четыре часа, восемь GPU и сто баксов. Вот что нужно, чтобы создать свой ChatGPT с нуля

Четыре часа, восемь GPU и сто баксов. Вот что нужно, чтобы создать свой ChatGPT с нуля

ИИ-модель умеет понимать изображения и создавать собственные прямо в Search.

image

Разработчик Андрей Карпати представил nanochat — минималистичную, полностью открыто реализованную версию ChatGPT, которую можно обучить и запустить всего на одной вычислительной машине. Проект задуман как учебная платформа для курса LLM101n от лаборатории Eureka Labs и позволяет создать собственную языковую модель «от нуля до веб-интерфейса» без громоздких зависимостей и сложной инфраструктуры.

Суть nanochat — показать, что базовый аналог ChatGPT можно построить буквально за несколько часов и около сотни долларов. Скрипт speedrun.sh автоматически проходит все этапы — от токенизации и обучения до инференса и запуска веб-интерфейса, с которым можно общаться, как с ChatGPT. На узле с восемью GPU NVIDIA H100 весь процесс занимает примерно четыре часа и обходится в 100 долларов (по 24 доллара в час). После завершения обучения можно открыть локальный сервер и задать модели любые вопросы — от стихов до физических «почему небо голубое».

Проект формирует подробный отчет report.md с метриками обучения и сравнительными результатами по популярным бенчмаркам, включая ARC, GSM8K, MMLU и HumanEval. Хотя по мощности это лишь «детсадовский» уровень по сравнению с промышленными LLM, nanochat демонстрирует полный функциональный цикл современной модели, включая интерфейс, оценку и работу с пользователем.

Карпати отмечает, что более крупные версии — на 300 и 1000 долларов — находятся в разработке и позволят приблизиться к уровню GPT-2. Код оптимизирован под простоту и прозрачность: без громоздких конфигураций, фабрик моделей и сотен параметров. Всё строится вокруг одного цельного кода, который легко читать, править и запускать.

nanochat можно запустить даже на одной видеокарте, пусть и в восемь раз медленнее, чем на 8×H100. Для ограниченных GPU достаточно уменьшить размер батча, чтобы не выйти за пределы памяти. Проект полностью основан на PyTorch и должен работать на большинстве платформ, где он поддерживается.

Карпати подчеркивает, что nanochat — не просто демонстрация, а базовый, доступный, воспроизводимый эталон для изучения архитектуры больших языковых моделей. Благодаря минимализму и открытой структуре он подходит как студентам, так и исследователям, желающим понять, из чего состоит современный ChatGPT «в миниатюре».