Кремниевый суверенитет: Microsoft запускает 3-нм ИИ-чип, чтобы сломать монополию NVIDIA

Кремниевый суверенитет: Microsoft запускает 3-нм ИИ-чип, чтобы сломать монополию NVIDIA

Maia 200 знаменует конец эры обучения и начало эры тотальной эксплуатации ИИ.

image

Microsoft представила собственный ИИ-чип второго поколения Maia 200, сделав ставку не на обучение нейросетей, а на их повседневную работу в сервисах. В компании прямо говорят: главная проблема сейчас не в том, как обучать модели, а в том, как дешево и стабильно обслуживать миллионы пользователей, которые каждый день задают вопросы чат-ботам, используют Copilot и другие ИИ-инструменты.

В отличие от предыдущих аппаратных решений, которые в основном оптимизировались под обучение моделей, Maia 200 рассчитан именно на инференс, то есть на постоянную генерацию ответов. Это непрерывный процесс: модели работают 24/7, обрабатывают огромные потоки запросов и требуют не столько пиковой мощности, сколько скорости отклика, энергоэффективности и устойчивости под нагрузкой. Именно эта часть инфраструктуры сегодня становится одной из самых дорогих статей расходов для ИИ-компаний.

Первые системы на базе Maia 200 уже запускаются в дата-центре Microsoft в штате Айова. Вторая площадка с этими чипами готовится к развертыванию в Аризоне.

Вообще новый процессор - это развитие Maia 100, представленного в 2023 году. По данным Microsoft, Maia 200 содержит более 100 миллиардов транзисторов и выдает свыше 10 петафлопс вычислительной мощности при 4-битной точности и около 5 петафлопс при 8-битной.

Компания утверждает, что один вычислительный узел на базе Maia 200 способен запускать самые крупные современные языковые модели с запасом по ресурсам на будущие версии. Архитектура чипа отражает логику работы современных ИИ-сервисов, где нагрузка постоянно скачет, а задержки напрямую влияют на пользовательский опыт.

Для этого в Maia 200 заложен большой объем SRAM, быстрой статической памяти, которая снижает задержки при повторных обращениях к данным и моделям. Такой подход уже используют новые производители ИИ-железа, делая ставку не только на вычислительные блоки, но и на архитектуру памяти. Microsoft, по сути, следует той же логике, адаптируя чип под массовые сервисы.

У Maia 200 есть и стратегическое значение. Крупные облачные провайдеры давно ищут способы снизить зависимость от NVIDIA, чьи GPU фактически контролируют рынок ИИ-инфраструктуры. Несмотря на лидерство NVIDIA по производительности, именно ее аппаратная и программная экосистема во многом определяет цены, доступность оборудования и архитектуру дата-центров.

Google уже давно развивает собственные TPU и предлагает их в облаке. Amazon Web Services продвигает линейку чипов Trainium и Inferentia. Теперь в эту группу полноценно входит и Microsoft с Maia.

Maia 200 обеспечивает примерно в 3 раза более высокую производительность FP4 по сравнению с чипами Trainium третьего поколения от Amazon. Также заявляется преимущество по FP8-вычислениям над последними TPU от Google. Производится новый чип на мощностях TSMC по 3-нанометровому техпроцессу. Он использует высокоскоростную память HBM, хотя и более раннего поколения по сравнению с будущими решениями NVIDIA.

Отдельный акцент Microsoft делает на программной части. Вместе с запуском микросхемы компания продвигает новые инструменты для разработчиков, пытаясь сократить разрыв, который годами формировался в пользу экосистемы NVIDIA и ее платформы CUDA.

Ключевой элемент здесь - Triton, open-source-фреймворк для написания высокоэффективного ИИ-кода, в развитии которого активно участвует OpenAI. Microsoft позиционирует Triton как альтернативу CUDA, позволяющую разрабатывать оптимизированные модели без жесткой привязки к одной аппаратной платформе.

Maia 200 уже используется внутри собственных ИИ-сервисов Microsoft. Компания сообщает, что чип задействован в работе моделей команды Superintelligence и участвует в инфраструктуре Copilot. Параллельно Microsoft открыла доступ к SDK для Maia 200 для разработчиков, ученых и исследовательских лабораторий, работающих с передовыми ИИ-моделями.