121 экзафлопс вычислительной мощи. Google собрала армию из 9600 чипов — один учит ИИ, другой заставляет его работать

121 экзафлопс вычислительной мощи. Google собрала армию из 9600 чипов — один учит ИИ, другой заставляет его работать

Это идеальная ИИ-машина, разорванная на два чипа.

image

Google показала тензорные процессоры TPU 8-е поколения и на этот раз сразу развела две задачи по разным чипам. Один процессор компания готовит для обучения крупных ИИ-моделей, второй — для вывода, то есть для той стадии, когда уже обученная система отвечает на запросы, вызывает инструменты и обслуживает программных агентов. Такой шаг хорошо показывает, как быстро меняется сама логика ИИ-инфраструктуры: одной универсальной железкой для всех задач уже трудно обойтись, особенно когда речь идет о гигантских кластерах и все более сложных моделях.

Анонс прозвучал на конференции Google Cloud Next. Новые ускорители получили названия TPU 8t и TPU 8i. Оба чипа войдут в платформу AI Hypercomputer, на которой Google строит свою облачную инфраструктуру для искусственного интеллекта. Компания прямо дает понять, что больше не хочет держать TPU только для собственных систем вроде Gemini. Теперь Google активнее выводит эту аппаратную платформу на внешний рынок и предлагает ее заказчикам как альтернативу ИИ-инфраструктуре, где сегодня почти все завязано на Nvidia.

Tensor Processing Unit — это специализированные ускорители, которые Google разрабатывает сама. В отличие от универсальных графических процессоров, их изначально проектировали под вычисления, характерные для машинного обучения. За годы Google использовала такие чипы внутри собственных сервисов, а теперь все сильнее превращает их в коммерческий продукт для облака. Обе новые модели, по словам компании, должны стать общедоступными в Google Cloud позже в 2026 году.

Из двух новинок TPU 8t отвечает за обучение больших моделей. Здесь ключевая задача — прогонять через систему огромные массивы данных, синхронно работать на тысячах ускорителей и не терять время из-за узких мест в сети, памяти и хранилище. Google утверждает, что один superpod, то есть крупный вычислительный кластер на базе TPU 8t, можно масштабировать до 9600 чипов. В такой конфигурации система, по данным компании, выдает до 121 экзафлопса вычислительной производительности.

Для сравнения Google приводит предыдущее поколение под названием Ironwood. По словам компании, TPU 8t дает почти в 3 раза больше вычислительной производительности на один pod, то есть на один кластерный модуль, чем Ironwood. Но для обучения моделей важна не только сырая мощность. Если ускорители слишком долго ждут данные из памяти или сталкиваются с задержками в обмене между узлами, красивая цифра на бумаге мало что значит. Поэтому Google отдельно говорит об ускоренном доступе к хранилищу и обновленной сетевой подсистеме, которая должна уменьшить простои и держать чипы занятыми реальной работой, а не ожиданием.

На этом фоне особенно важен показатель goodput, который компания тоже вынесла отдельно. В обычном смысле производительность можно считать по числу операций в секунду, но для огромных ИИ-кластеров этого уже мало. Goodput показывает, какая доля вычислительного времени действительно уходит на полезную работу, а не теряется из-за сбоев, перегрузок, конфликтов в сети или других задержек. Google заявляет для TPU 8t уровень goodput выше 97%. Для обучения передовых моделей это не мелочь: в крупных системах даже небольшие задержки на части узлов могут растянуть весь цикл обучения на дни.

Вторая новинка, TPU 8i, рассчитана уже не на обучение, а на вывод. Именно на этом этапе обученная модель работает в реальном продукте: отвечает на запросы, запускает инструменты, обрабатывает цепочки действий и поддерживает программных агентов. Для нынешнего рынка это все важнее, потому что компании пытаются не только тренировать гигантские модели, но и дешево, быстро и стабильно обслуживать их в боевой эксплуатации.

Google утверждает, что TPU 8i получила 288 ГБ памяти с высокой пропускной способностью и 384 МБ встроенной SRAM-памяти на кристалле. Смысл здесь в том, чтобы держать активные данные модели как можно ближе к самому процессору и тем самым ускорять отклик. Чем меньше системе приходится обращаться к более удаленным уровням памяти и чем быстрее она достает нужные параметры, тем ниже задержка ответа. Для ИИ-сервисов, которые должны работать интерактивно, это один из главных факторов.

Чип также использует процессоры Axion на архитектуре Arm, которые Google разрабатывает сама, и обновленную межсоединительную подсистему для моделей типа Mixture of Experts, или смеси экспертов. В таких архитектурах модель не активирует все свои части сразу при каждом запросе, а выбирает только нужные блоки под конкретную задачу. За счет этого можно снижать стоимость вычислений и одновременно наращивать общий масштаб системы. Для инфраструктуры вывода это особенно важно, потому что именно такие модели часто рассматривают как удобный способ совместить высокую мощность и приемлемую цену обслуживания.

По данным Google, TPU 8i дает на 80% лучшую производительность на доллар по сравнению с предыдущим поколением. Компания формулирует это еще проще: заказчики смогут обрабатывать почти вдвое большую нагрузку за те же деньги. Для облачного рынка именно такая метрика часто важнее рекордных абсолютных цифр. Если модель работает дешевле в пересчете на реальный сервис, у платформы сразу появляется более сильный коммерческий аргумент.

Вся эта конструкция с двумя разными чипами хорошо показывает, куда сдвигается рынок ИИ-железа. Еще недавно главной опорой казались в основном универсальные GPU, которые пытались приспособить и для обучения, и для вывода, и для любых промежуточных задач. Теперь крупные игроки все чаще проектируют специализированные ускорители под конкретные режимы работы. Один тип чипа лучше подходит для долгих и тяжелых циклов обучения, другой — для постоянного потока запросов в продакшене, где важны задержка, стоимость обслуживания и плотность размещения в дата-центре.

Google напрямую связывает такую двухчиповую стратегию с ростом ИИ-агентов. Под агентами компания понимает системы, которые не просто отвечают одной фразой на запрос, а последовательно рассуждают, запускают рабочие процессы, обращаются к инструментам и взаимодействуют с другими моделями. Для таких нагрузок инфраструктуре нужно уметь и быстро обучать крупные модели, и потом эффективно гонять их в постоянной эксплуатации. Один универсальный профиль уже плохо покрывает обе задачи.

Отдельный акцент Google делает на энергопотреблении. В дата-центрах оба новых чипа, по словам компании, обеспечивают до 2 раз лучшую производительность на ватт по сравнению с Ironwood. Это важный момент не только с точки зрения счета за электричество. Когда плотность вычислений в стойках растет, растет и тепловая нагрузка, а значит ограничения по охлаждению начинают напрямую влиять на то, сколько ускорителей вообще можно разместить в одном зале. Поэтому Google использует жидкостное охлаждение 4-го поколения, чтобы поддерживать более высокую плотность вычислений и одновременно не раздувать энергопотребление.

Анонс новых TPU укладывается и в более широкую стратегию Google против доминирования Nvidia на рынке ИИ-железа. Компания пытается конкурировать не одним чипом как таковым, а целой связкой из собственного кремния, сети, программных фреймворков и облачных сервисов. Иначе говоря, Google продает не просто ускоритель, а готовый стек, где аппаратная часть, каналы обмена, программная среда и облачная платформа изначально подогнаны друг под друга.

При этом Google старается убрать и барьер для разработчиков, которые уже живут в чужой экосистеме. Компания говорит, что TPU 8t и TPU 8i поддерживают JAX, PyTorch, SGLang и vLLM. Это значит, что разработчикам не придется полностью переписывать существующие ИИ-нагрузки или проходить болезненную миграцию только ради того, чтобы попробовать новые чипы в Google Cloud. Для рынка это важный сигнал: Google явно хочет, чтобы TPU воспринимались не как экзотика для внутренних сервисов корпорации, а как реальная замена привычной инфраструктуре.