ИИ-чипы 2026: полный разбор рынка без веры в красивые терафлопсы

21135
ИИ-чипы 2026: полный разбор рынка без веры в красивые терафлопсы

AMD, Google, Amazon, Microsoft, Cerebras, Groq и Huawei уже спорят не за красивые терафлопсы, а за память, задержку и цену токена.

image

Один серверный стеллаж, 72 графических процессора, жидкостное охлаждение и цена, которую вряд ли хочется обсуждать без отдельного финансового плана. Стойки NVIDIA GB200 NVL72 и GB300 NVL72 хорошо показывают, куда пришёл рынок ИИ-инфраструктуры: крупные компании теперь покупают не отдельные ускорители, а готовые вычислительные системы для обучения и запуска больших моделей.

В GB200 NVIDIA указывает 72 графических процессора Blackwell, 36 процессоров Grace, 13,4 ТБ HBM3e и связность NVLink пятого поколения. В GB300 стоят уже 72 Blackwell Ultra GPU, а общий объём быстрой памяти в стойке доходит до 37 ТБ.

Но рынок ИИ-ускорителей в 2026 году давно не сводится к выбору между разными моделями NVIDIA. AMD наращивает память в линейке Instinct. Google развивает TPU внутри собственного облака. Amazon продвигает Trainium и Inferentia, Microsoft строит Azure вокруг Maia, Cerebras и Groq ищут способы ускорить вывод моделей, Qualcomm делает ставку на энергоэффективность, Tenstorrent предлагает разработчикам альтернативную архитектуру, а Huawei собирает собственную китайскую платформу вокруг Ascend и CloudMatrix.

Сравнить весь этот рынок одной таблицей почти невозможно. Ускоритель может отлично показывать себя в обучении, но уступать в выводе. Может давать хороший результат только внутри облака производителя. Может требовать переноса кода, новых библиотек и отдельной команды инженеров. Поэтому вопрос «какой чип быстрее» слишком простой. Полезнее спрашивать, какая система справится с конкретной моделью, нагрузкой и бюджетом.

Почему цифры в спецификациях легко переоценить

В описаниях ускорителей постоянно встречаются FP8, FP4, BF16, INT8, HBM и пиковые значения производительности. По таким характеристикам удобно строить презентации, но гораздо сложнее выбирать реальную систему.

Низкая точность может ускорить расчёты и сократить расход памяти. Только конкретная модель должна сохранять приемлемое качество после квантования, а программный стек должен поддерживать нужные операции. Ускоритель способен показывать впечатляющую производительность в FP4, тогда как рабочая модель в проекте стабильно запускается лишь в BF16 или FP8. На бумаге разница выглядит как преимущество. В работе разница превращается в дополнительное тестирование и переделку конвейера.

Память часто влияет на результат сильнее, чем рекламный пик операций в секунду. Большая языковая модель хранит веса, промежуточные состояния и кэш внимания. Чем длиннее контекст, тем больше памяти требуется системе. Если модель не помещается на одном ускорителе, её приходится распределять между несколькими чипами, а затем тратить время на обмен данными.

Поэтому 192, 216, 256 или 288 ГБ памяти на ускоритель могут оказаться важнее очередного рекорда в петафлопсах. Высокая вычислительная мощность мало помогает, если ускоритель постоянно ждёт данные от соседних устройств.

Ещё один параметр, который легко упустить, - связь между чипами. NVIDIA продаёт не только GPU, но и NVLink, NVSwitch, сетевые карты, библиотеки и готовые стойки. Google строит похожую систему внутри TPU-подов, Amazon - внутри Trainium UltraServer, Huawei - внутри CloudMatrix, Microsoft - внутри Azure. Для больших моделей качество такой связки определяет, будут ли ускорители работать вместе или простаивать в ожидании передачи данных.

NVIDIA: не только быстрые чипы, но и готовая среда

Главное преимущество NVIDIA давно находится не в одной строке спецификаций. Компания предлагает разработчикам целую среду: CUDA, cuDNN, TensorRT, NCCL, готовые контейнеры, инструменты профилирования, сетевые решения и поддержку почти во всех крупных облаках. Для команды, которая запускает модель в рабочем сервисе, знакомый и отлаженный стек часто важнее небольшой разницы в теоретической производительности.

H100 и H200 ещё долго останутся распространёнными ускорителями. H200 получил 141 ГБ HBM3e с пропускной способностью 4,8 ТБ/с. Blackwell B200 поднял объём памяти до 192 ГБ HBM3e и добавил поддержку FP4. Blackwell Ultra B300 получил 288 ГБ памяти на ускоритель. В стойке GB200 NVL72 NVIDIA объединяет 72 GPU через NVLink и предлагает 13,4 ТБ HBM3e, а поколение Blackwell Ultra ещё сильнее увеличивает доступную память для крупных моделей.

За удобство приходится платить. Стойки Blackwell требуют серьёзного питания, жидкостного охлаждения и дорогого обслуживания. Для небольшой компании аренда H100, H200 или B200 может оказаться слишком тяжёлой ещё до того, как продукт подтвердит спрос. У большой лаборатории расчёт другой: знакомая инфраструктура сокращает время инженеров и снижает риск сорвать запуск из-за несовместимости библиотек или неготового программного стека.

AMD: уже полноценный вариант для крупных моделей

AMD заметно усилила позиции в задачах, где много решает объём памяти. Instinct MI300X получил 192 ГБ HBM3, MI325X - 256 ГБ HBM3e, а MI350X и MI355X - по 288 ГБ HBM3e с пропускной способностью до 8 ТБ/с. Для MI355X AMD указывает типичное энергопотребление 1400 Вт.

Большой объём памяти особенно полезен при выводе крупных моделей. Чем меньше частей модели приходится распределять между ускорителями, тем меньше времени система теряет на передачу данных. В отдельных ранних тестах MI300X показывал меньшую задержку, чем H100, при запуске Llama 2 70B. Но переносить такой результат на любые модели и конфигурации нельзя: итог зависит от движка вывода, версии библиотек, параметров пакетирования и длины контекста.

У AMD остаётся практический вопрос, который важнее красивых чисел в спецификациях: насколько хорошо проект работает в ROCm. Стек заметно развился, и для стандартных моделей на PyTorch переход может оказаться вполне рабочим вариантом. Но проект с собственными CUDA-ядрами и большим числом NVIDIA-зависимых оптимизаций придётся переносить отдельно, с тестами и исправлениями. В таком случае экономию на ускорителях нужно сравнивать со стоимостью инженерной работы.

Облачные ускорители: TPU, Trainium и Maia

Google, Amazon и Microsoft развивают собственные ускорители не ради отдельного рынка железа. Владельцам облаков важнее снизить стоимость обучения и вывода внутри своих платформ, а заодно привязать крупные нагрузки к собственным сетям, компиляторам и сервисам.

Google Ironwood, или TPU v7, получил 192 ГБ HBM и около 7,37 ТБ/с пропускной способности на чип. В апреле 2026 года Google представила восьмое поколение TPU и разделила линейку на два направления: TPU 8t для обучения и TPU 8i для вывода. Разделение вполне логично: обучение и массовый запуск моделей давно требуют разных оптимизаций. Подробнее компания описывает поколение TPU 8 в собственной публикации.

AWS следует похожей логике. Trainium3 предлагает 2,52 петафлопса FP8 на чип, 144 ГБ HBM3e и 4,9 ТБ/с пропускной способности памяти. Конфигурация Trn3 UltraServer масштабируется до 144 чипов, 20,7 ТБ HBM3e и 706 ТБ/с суммарной пропускной способности памяти. Project Rainier на Trainium2 стал одним из крупнейших кластеров для Anthropic, а Amazon заявляет о более чем миллионе Trainium2-чипов, задействованных для работы Claude.

Microsoft Maia 200 рассчитан прежде всего на вывод моделей в Azure. Компания заявляет 216 ГБ HBM3e, пропускную способность 7 ТБ/с и поддержку FP8 и FP4. Maia 200 важен не как ускоритель, который можно заказать для собственного центра обработки данных, а как основа для Copilot, Azure AI и внутренних сервисов Microsoft.

Собственные облачные ускорители могут дать хорошую экономику, если компания уже строит инфраструктуру внутри соответствующего облака. Но подобный выбор ограничивает свободу переноса. Проект, завязанный на XLA, Neuron SDK или внутренние возможности Azure, труднее перенести на другую платформу, чем привычную нагрузку на GPU.

Cerebras и Groq: специализированные системы для быстрого вывода

Cerebras пошла по пути, который сильно отличается от обычных GPU-кластеров. WSE-3 представляет собой чип размером с кремниевую пластину площадью 46 225 мм². Компания указывает 4 триллиона транзисторов, 900 000 вычислительных ядер и 44 ГБ SRAM непосредственно на кристалле. Подробные характеристики приведены в описании WSE-3.

Смысл такой архитектуры достаточно практичен: вычислительным блокам реже приходится обращаться к внешней памяти и передавать данные между отдельными ускорителями. Для некоторых задач вывода такой подход снижает задержку, особенно когда обычный кластер тратит заметную часть времени на обмен между GPU.

В январе 2026 года OpenAI и Cerebras заключили многолетнее соглашение о развёртывании 750 МВт вычислительной мощности для быстрого вывода моделей. Reuters оценил стоимость сделки более чем в 10 млрд долларов, а ввод мощностей должен проходить поэтапно до 2028 года. Контракт показывает, насколько важным стал вывод: компании готовы вкладывать миллиарды не только в обучение новых моделей, но и в скорость их повседневной работы.

Groq решает более узкую задачу. Архитектура LPU рассчитана на быстрый и предсказуемый вывод языковых моделей, а не на обучение крупных сетей с нуля. Для сервиса, где ответ должен начинаться без заметной паузы, такой профиль может быть полезнее универсальности привычного ускорителя.

Компания заявляла скорость свыше 300 токенов в секунду при работе с Llama 2 70B. В феврале 2025 года Саудовская Аравия обязалась вложить 1,5 млрд долларов в расширение инфраструктуры Groq. В конце 2025 года NVIDIA заключила с Groq лицензионное соглашение и наняла часть руководителей компании, при этом Groq продолжила работать как самостоятельная организация.

LPU не заменяет GPU в обучении и универсальных вычислениях. Но для голосовых интерфейсов, интерактивных помощников и агентных сервисов низкая задержка ответа может быть главной метрикой. В такой задаче специализированный ускоритель уже не выглядит нишевой странностью.

Не каждому проекту нужна дорогая серверная стойка

Рекорды производительности легко сбивают фокус. Когда рынок обсуждает Blackwell, CloudMatrix или Cerebras, создаётся впечатление, будто серьёзный ИИ-проект обязательно требует крупного кластера. На практике многим компаниям нужно гораздо меньше: недорогой вывод, умеренное энергопотребление и возможность разместить систему рядом с данными или пользователями.

Qualcomm Cloud AI 100 Ultra рассчитан именно на такие сценарии. Карта получила 128 ГБ LPDDR4x, 576 МБ SRAM, 64 AI-ядра, производительность до 870 TOPS INT8 и теплопакет 150 Вт. Cloud AI 100 не предназначен для обучения больших моделей вместо B200 или MI355X, зато может подойти для вывода, локальных серверов и пограничной инфраструктуры, где расходы на питание и охлаждение напрямую влияют на экономику проекта.

Tenstorrent предлагает другой подход: RISC-V, более открытый программный стек и сравнительно доступные платы для разработчиков. Blackhole p150a получил 32 ГБ GDDR6, 120 Tensix-ядер и цену около 1399 долларов. Такой ускоритель не конкурирует со стойками Blackwell, но позволяет исследовательской команде или небольшой компании попробовать альтернативную архитектуру без закупки серверной системы.

SambaNova развивает реконфигурируемую потоковую архитектуру. SN40L сочетает SRAM на кристалле, HBM и DDR как более ёмкий слой памяти. Подход может быть интересен для сценариев, где система обслуживает несколько моделей или набор экспертов. Но у специализированной архитектуры всегда есть цена входа: перед выбором придётся проверить компилятор, поддерживаемые операции, документацию и готовность команды менять привычный конвейер.

Huawei и китайская инфраструктура ускорителей

Huawei Ascend и CloudMatrix показывают, что китайский рынок строит собственную платформу для ИИ-нагрузок, а не просто ищет замену отдельным западным чипам. По данным SemiAnalysis, CloudMatrix 384 объединяет 384 ускорителя Ascend 910C и выдаёт около 300 петафлопс BF16. На уровне всей системы конфигурация превосходит GB200 NVL72 по совокупной вычислительной мощности, объёму памяти и пропускной способности.

Сравнение требует оговорки: CloudMatrix добивается результата за счёт большего числа ускорителей и более высокой нагрузки на питание и охлаждение. Отдельный Ascend 910C не равен H100 или B200 по производительности. По сообщениям о тестах DeepSeek, в задачах вывода 910C достигает примерно 60% производительности H100. Huawei компенсирует отставание отдельного чипа масштабом системы и собственной инфраструктурой вокруг Ascend.

Для международного покупателя к техническим вопросам добавляются ограничения поставок и правовые риски. В мае 2025 года Бюро промышленности и безопасности США выпустило разъяснение о рисках применения китайских ускорителей, включая Huawei Ascend, из-за возможного нарушения экспортных ограничений США. Поэтому оценивать такую закупку только по цене и производительности недостаточно: компания должна отдельно проверить юридические последствия и доступность поддержки.

Как выбирать ускоритель под конкретную нагрузку

Начинать выбор с рейтинга самых быстрых чипов не очень полезно. Сначала нужно определить задачу. Команда будет обучать модель с нуля, дообучать готовую, обслуживать большой поток коротких запросов или запускать интерактивный сервис, где заметна каждая задержка? Будут ли данные обрабатываться в облаке или проект требует локального размещения?

Для обучения больших моделей NVIDIA остаётся наиболее предсказуемым выбором прежде всего из-за зрелого программного стека и доступной экспертизы. AMD стоит рассматривать, когда системе нужен большой объём памяти на ускоритель, а команда готова протестировать ROCm на собственном коде. TPU подходит проектам, которые уже работают в Google Cloud и готовы использовать XLA. Trainium интересен компаниям, строящим нагрузку внутри AWS. Maia пока имеет наибольший смысл как часть инфраструктуры Azure.

В задачах вывода критерии меняются. Для интерактивного помощника особенно важно время до первого токена и стабильность ответа под нагрузкой. Для пакетной обработки важнее общая пропускная способность и стоимость миллиона токенов. Для проектов с чувствительными или регулируемыми данными придётся учитывать место обработки, журналы доступа, шифрование и договорные условия облачного провайдера.

На раннем этапе не всегда нужен кластер. Рабочая станция с большой видеопамятью может оказаться достаточной для экспериментов, локального запуска моделей и проверки идеи. Серверная инфраструктура имеет смысл тогда, когда команда уже понимает нагрузку, требования к задержке и расходы на эксплуатацию.

Deloitte прогнозирует, что в 2026 году вывод займёт примерно две трети всех ИИ-вычислений, тогда как в 2023 году его доля была около трети. Такой сдвиг хорошо объясняет интерес к специализированным платформам: рынку нужны не только системы для обучения новых моделей, но и дешёвый, быстрый запуск моделей в реальных сервисах.

Ошибки при покупке ИИ-ускорителей

Первая ошибка - выбирать систему по пиковой производительности. Модель может не помещаться в память, а передача данных между ускорителями способна съесть выигрыш от высокого значения операций в секунду. Спецификация показывает возможности чипа, но не гарантирует производительность всей системы на конкретной нагрузке.

Вторая ошибка - покупать железо под слишком общую задачу «для ИИ». Обучение, дообучение, пакетный вывод и интерактивная генерация требуют разного баланса памяти, пропускной способности, задержки и программной поддержки. Ускоритель, удачный для одного режима, может оказаться дорогим и неудобным для другого.

Третья ошибка - недооценивать перенос программного стека. Поддержка PyTorch сама по себе не означает, что проект без проблем заработает в ROCm, Neuron, XLA или CANN. Если код зависит от CUDA-расширений, собственных ядер и проверенных инструментов профилирования, миграция потребует времени и денег.

Четвёртая ошибка - считать только цену ускорителя. Полная стоимость включает питание, охлаждение, сеть, резервирование, мониторинг, простои, работу инженеров, обновления и замену оборудования. Для облачной платформы к этому добавляются тарифы на вычисления, хранение данных и передачу трафика.

Пятая ошибка - полностью полагаться на чужие расчёты стоимости токена. Результат зависит от модели, длины контекста, точности вычислений, пакетирования запросов, загрузки кластера и цены электричества. Сравнимые цифры можно получить только на своей нагрузке.

Поэтому перед крупной закупкой нужен пилот. В нём стоит измерять не только токены в секунду, но и время до первого токена, поведение на длинном контексте, стоимость обработки, стабильность под нагрузкой, сложность развёртывания и затраты на поддержку.

Единственного лучшего ускорителя для ИИ в 2026 году нет. NVIDIA GB300 NVL72 подходит компаниям, которым нужна зрелая промышленная платформа и которые готовы платить за её инфраструктуру. AMD MI355X интересен проектам, где объём памяти на ускоритель заметно влияет на результат. TPU и Trainium могут оказаться выгодными внутри облаков своих владельцев. Cerebras и Groq ориентированы на быстрый вывод. Qualcomm и локальные рабочие станции подходят задачам, где большой кластер просто не нужен.

Выбор в любом случае начинается не с бренда и не с самого крупного числа в спецификации. Нужны ответы на более скучные вопросы: какую модель придётся запускать, какой будет длина контекста, сколько запросов ожидается, где разрешено хранить данные, сколько стоит эксплуатация и сможет ли команда поддерживать выбранную платформу. Без такой проверки дорогой ускоритель легко превращается в дорогой эксперимент.

Вопросы и ответы

Можно ли напрямую сравнить NVIDIA B300 и AMD MI355X?

Сравнить объём памяти, пропускную способность и поддерживаемые форматы вычислений можно. Но такие параметры не дают готового ответа, какой ускоритель лучше для проекта. B300 глубже встроен в экосистему NVIDIA, а MI355X предлагает 288 ГБ HBM3e. Итог стоит проверять на конкретной модели, длине контекста и движке вывода.

Почему память иногда важнее пиковой производительности?

Большие модели хранят в памяти веса и кэш внимания. Если данных слишком много для одного ускорителя, модель приходится распределять между несколькими устройствами. Передача данных между ними увеличивает задержку и может свести на нет преимущество более быстрого чипа.

TPU лучше GPU?

TPU может быть выгоднее для задач внутри Google Cloud, особенно если проект уже работает с XLA. GPU остаются более универсальным вариантом для локальной инфраструктуры, CUDA-зависимого кода и сценариев, где важна свобода выбора оборудования и облачного провайдера.

Стоит ли переходить с NVIDIA на AMD?

Переход имеет смысл, если дополнительная память или стоимость ускорителей перекрывают расходы на миграцию. Перед покупкой нужно проверить ROCm, используемые библиотеки, движок вывода, собственные операции и поведение модели под нужной нагрузкой.

Groq может заменить GPU?

Для обучения больших моделей и универсальных вычислений Groq не заменяет GPU. LPU рассчитан на быстрый вывод с низкой задержкой, поэтому платформа может быть полезна для интерактивных помощников, голосовых сервисов и приложений, где пользователь ждёт немедленного ответа.

Есть ли смысл покупать локальную рабочую станцию для ИИ?

Да, если команда экспериментирует, запускает локальные модели, работает с чувствительными данными или пока не знает будущую нагрузку. Рабочая станция дешевле полноценного кластера, но быстрее упирается в ограничения видеопамяти, охлаждения и масштабирования.

Что измерять во время пилота?

Нужно проверять токены в секунду, время до первого токена, стоимость миллиона токенов, стабильность при нагрузке, работу на длинном контексте, ошибки компиляции, расход энергии и сложность развёртывания. Такие измерения дают гораздо более полезный ответ, чем сравнение рекламных характеристик.

Онлайн
17
ИЮНЯ
16:20
Product Backstage*: безопасная разработка и защита контейнеров
17 июня обсудим обновления PT Application Inspector, PT BlackBox и безопасность контейнеров.
Зарегистрироваться
Реклама. 18+. АО «Позитив Текнолоджиз», ИНН 7718668887  ·  *Продуктовое закулисье