Supernode на максималках: Huawei хочет обогнать Nvidia не силой, а хитростью

Supernode на максималках: Huawei хочет обогнать Nvidia не силой, а хитростью

12 башен, 384 сердца: новая жизнь больших моделей по-китайски.

image

Huawei продвигает архитектуру Supernode 384 — масштабируемую систему на базе процессоров Ascend , способную конкурировать с передовыми решениями Nvidia в области ИИ-вычислений. Новая разработка китайской компании направлена на устранение узких мест в обработке данных и обучение больших моделей .

На конференции Kunpeng Ascend, прошедшей в Шэньчжэне, глава направления Ascend Чжан Дисюань заявил, что классические серверные архитектуры уже не справляются с ростом параллельных вычислений. Решением может стать Supernode 384 — архитектура, лежащая в основе ранее представленной платформы CloudMatrix 384, включающей 384 ИИ-процессора Ascend. Она размещается в 12 вычислительных и 4 коммуникационных шкафах и обеспечивает до 300 петафлопс производительности при 48 ТБ памяти с высокой пропускной способностью.

Платформа уже развернута в дата-центрах Huawei в Аньхое, Внутренней Монголии и провинции Гуйчжоу. При этом компания подчёркивает, что архитектура Supernode 384 позволяет масштабировать систему до десятков тысяч процессоров, обеспечивая быстрый переход к моделям следующего поколения и поддерживая отрасли, внедряющие ИИ.

В отличие от традиционной архитектуры фон Неймана, Supernode использует модель peer-to-peer, позволяющую упростить обмен данными и сократить задержки. Для сетей связи это означает 15-кратный рост пропускной способности и сокращение задержки с 2 мкс до 200 нс — то есть в 10 раз. Huawei утверждает, что вся система может работать как единый вычислительный блок.

Результаты тестов показали, что Supernode 384 достигает 132 токенов в секунду (TPS) на карту при работе с плотными моделями вроде Llama 3 от Meta* — в 2,5 раза выше, чем у традиционных кластеров. В задачах, чувствительных к коммуникационной нагрузке, включая мультимодальные и MoE-модели (например, Qwen от Alibaba или DeepSeek), система достигала 600–750 TPS на карту.

Согласно отчёту SemiAnalysis, в архитектуре используется процессор Ascend 910C, уступающий конкурентам по мощности ядра, но компенсирующий это масштабируемостью. Эксперты отмечают, что в условиях технологических ограничений со стороны США Huawei фактически на шаг впереди по архитектуре, даже если остаётся позади в микроэлектронной базе.

Компания не раскрыла планы по коммерческому распространению CloudMatrix 384 за пределами собственных дата-центров, но эксперты считают, что система может стать основой для развития национальной инфраструктуры ИИ в Китае.

* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.