Пока все проектируют умных помощников, компания решила пересобрать «мозги» нейросетей с нуля.

Китайская компания DeepSeek представила новую архитектуру для создания моделей искусственного интеллекта, предложив переосмысление ключевых технических принципов, лежащих в основе современных языковых алгоритмов. Работа вызвала оживлённое обсуждение среди разработчиков, несмотря на сложность изложения, и уже рассматривается как возможный шаг вперёд в развитии машинного обучения.
В центре внимания — подход под названием Manifold-Constrained Hyper-Connections (mHC), который развивает идею гиперсвязей в остаточных нейросетях, составляющих базу многих языковых моделей. Специалисты DeepSeek утверждают, что их вариант способен повысить эффективность архитектуры без заметного увеличения вычислительной нагрузки. В рамках эксперимента новая технология была опробована на трёх моделях — с 3, 9 и 27 миллиардами параметров, и продемонстрировала хорошую масштабируемость.
Авторы подчёркивают, что цель разработки — создание более мощных моделей в условиях ограниченных ресурсов, что особенно актуально для исследовательских команд и стартапов. Подход DeepSeek выделяется на фоне общего тренда в индустрии: в то время как другие компании сосредоточены на применении возможностей больших языковых моделей в прикладных продуктах и интеллектуальных помощниках, разработчики DeepSeek нацелены на совершенствование самой структуры обучения.
Работа опубликована 1 января и привлекла внимание представителей научного сообщества. По словам профессора Гонконгского университета науки и технологий Чжуана Луна, улучшения, предложенные DeepSeek, могут оказать заметное влияние на архитектуру трансформеров, которые лежат в основе языковых моделей. Он отметил, что оптимизация от китайской команды уже изменила представление об эффективности таких систем.
DeepSeek ведёт разработки как побочный проект внутри компании, занимающейся алгоритмической торговлей. Несмотря на это, команда из 19 специалистов продолжает активно участвовать в развитии фундаментальных технологий, предлагая нестандартные решения и подходы к построению нейросетей.