Обогнали ChatGPT, стоили копейки и снова удивили. DeepSeek доказывает, что ИИ может быть дешёвым

leer en español

Обогнали ChatGPT, стоили копейки и снова удивили. DeepSeek доказывает, что ИИ может быть дешёвым

Экономика больших языковых моделей отныне изменится навсегда.

image

Китайская компания DeepSeek представила экспериментальную версию своей языковой модели DeepSeek-V3.2-Exp, в которой впервые реализовала собственный вариант разреженного внимания — техники, позволяющей значительно сократить вычислительные затраты при обработке длинных последовательностей текста. Новый механизм получил название DeepSeek Sparse Attention и, по заявлению разработчиков, способен снижать стоимость работы модели почти вдвое. Для подтверждения экономии компания снизила цены на использование API на 50%.

Тема вычислительной нагрузки в больших языковых моделях особенно остра при длинных диалогах. Классическая архитектура Transformer, разработанная в 2017 году, сравнивает каждое слово во входной последовательности со всеми остальными, что приводит к квадратичному росту количества операций. При вводе тысячи слов это уже миллион сравнений, а при десяти тысячах — сто миллионов. Такой рост затрат делает продолжительные сессии ресурсоёмкими и замедляет работу, поскольку при каждом новом запросе система вынуждена анализировать всю историю диалога заново.

Технология разреженного внимания работает иначе. Она не сопоставляет каждое слово со всеми остальными, а выбирает ограниченный набор наиболее значимых связей. DeepSeek применяет для этого собственный механизм под названием lightning indexer, небольшой дополнительный нейросетевой блок, который оценивает значимость пар слов и выбирает до 2048 наиболее релевантных связей для каждой позиции. Подробности того, каким образом индексатор принимает решения, компания не раскрыла, но утверждает, что качество понимания текста при этом не страдает.

Внутренние тесты показали, что новая модель демонстрирует сопоставимые результаты с предыдущей версией DeepSeek-V3.1-Terminus, сохраняя при этом высокую точность и способность к обработке длинных последовательностей. Примечательно, что DeepSeek открыла исходные компоненты под лицензией MIT и предоставила открытые веса, что позволяет другим исследователям проверять и развивать предложенные решения.

Впервые о DeepSeek громко заговорили в январе, когда её модель R1 сумела достичь уровня OpenAI o1 при расходах на обучение всего 6 миллионов долларов. Более того, чат-приложение компании ненадолго вышло на первое место в магазине приложений для iPhone, обогнав ChatGPT. С тех пор внимание отрасли приковано к китайской лаборатории, которая вынуждена искать способы оптимизации вычислений из-за ограниченного доступа к современным графическим процессорам и другим специализированным чипам в условиях экспортных ограничений.

Хотя разреженное внимание как подход давно известно и впервые применялось в GPT-3 и ряде других моделей от западных разработчиков, DeepSeek утверждает, что именно её реализация позволила добиться тонкой настройки и реального снижения стоимости вычислений без ощутимых потерь качества. Независимые специалисты пока не подтвердили эти результаты, однако, если выводы компании окажутся верными, подобные методы могут серьёзно изменить экономику использования ИИ-моделей в долгосрочной перспективе.