Один петаFLOP в корпусе на 140 ватт.
В 2023 году Nvidia представила суперчиповую архитектуру, в которой CPU и GPU объединяются с помощью высокоскоростной шины NVLink . Она обеспечивает значительно более быструю связь по сравнению с PCIe, но долгое время её применение было ограничено дата-центрами и облачными платформами.
Теперь компания выводит эту технологию в «настольный» сегмент через проект Digits, недавно переименованный в DGX Spark . На конференции Hot Chips ведущий архитектор GB10 Анди Скэнде представил подробности о новом чипе.
GB10 производится на фабриках TSMC по 3-нм техпроцессу и состоит из двух кристаллов: CPU, разработанного MediaTek, и GPU, созданного Nvidia. Они соединены через 2.5D-упаковку и фирменный интерфейс NVLink Chip-to-Chip, обеспечивающий до 600 ГБ/с двунаправленной пропускной способности.
CPU-часть (S-die) содержит 20 ядер Arm v9.2, разделённых на два кластера: X925 и Cortex A725, с 32 МБ L3-кэша и дополнительными 16 МБ L4 для ускорения взаимодействия между блоками.
GPU-кристалл (G-die), по данным Nvidia, способен выдавать до 1 петаFLOP FP4-вычислений с учётом sparsity или около 31 тераFLOPS в FP32. По уровню AI-производительности это сопоставимо с видеокартой RTX 5070 (MSRP — около $550), но GB10 заметно эффективнее: его энергопотребление 140 Вт против 250 Вт у 5070.
Главное преимущество — объём памяти: 128 ГБ LPDDR5x против 12 ГБ у RTX 5070. Несмотря на отсутствие HBM, память работает на скорости 9400 MT/s и обеспечивает 273–301 ГБ/с пропускной способности. Этого достаточно, чтобы обучать и дообучать модели, где важнее объём, чем пиковая скорость.
По заявлениям Nvidia, DGX Spark позволяет дообучать модели до 70 млрд параметров и запускать инференс на моделях до 200 млрд параметров. При необходимости можно объединить два устройства через ConnectX-7 NIC с двумя 200GbE-портами, удвоив вычислительные возможности.
Стоимость новинки начинается с $2 999, что делает её доступной лишь для профессиональных разработчиков. Но главное — архитектура GB10 совместима с решениями уровня дата-центров, и модели, протестированные на Spark, не требуют переработки для промышленного развёртывания.