120 миллиардов параметров на одном GPU с 80 ГБ — OpenAI делает ставку на MXFP4, бросая вызов монополии NVIDIA

120 миллиардов параметров на одном GPU с 80 ГБ — OpenAI делает ставку на MXFP4, бросая вызов монополии NVIDIA

OpenAI вышла на ринг с 4 битами — и вышла без оппонентов.

image

OpenAI представила новые модели с открытым весом — gpt-oss, — но внимание специалистов сосредоточилось не столько на самих моделях, сколько на формате MXFP4, который компания использовала при их квантовании. Этот малознакомый тип данных, если будет принят другими разработчиками, может радикально снизить стоимость развёртывания и работы крупных языковых моделей.

MXFP4 — это 4-битный формат чисел с плавающей запятой, разработанный в рамках инициативы Open Compute Project. Но в отличие от обычного FP4, этот формат использует микромасштабируемую блочную структуру, позволяющую компенсировать ограниченную точность за счёт применения общего масштабного коэффициента к небольшим группам значений. Каждый блок, состоящий по умолчанию из 32 чисел, кодируется с использованием общего 8-битного экспоненциального множителя.

Такой подход позволяет преобразовать исходные значения в более точные представления по сравнению с обычным FP4. Пример с четырьмя числами в формате BF16 — 0.0625, 0.375, 0.078125 и 0.25 — показывает, что при прямом переходе в FP4 они округляются до 0, 0.5, 0 и 0.5, теряя значимую информацию. В формате MXFP4 после масштабирования и обратного преобразования они приближаются к исходным значениям — 0.0625, 0.375, 0.09375 и 0.25.

Простым языком: MXFP4 — это новый тип представления чисел, придуманный, чтобы языковые модели вроде ChatGPT занимали меньше места и работали быстрее. Обычно такие модели хранят миллиарды чисел с высокой точностью, из-за чего требуется много видеопамяти и мощное «железо». MXFP4 сокращает размер этих чисел до всего 4 бит, но делает это не напрямую, а с помощью хитрого приёма: берёт группу значений и масштабирует их общей величиной. Это помогает сохранить точность, несмотря на маленький размер каждого числа.

Использование MXFP4 позволяет существенно сократить объём видеопамяти, пропускную способность и требования к вычислительным ресурсам, особенно при инференсе . В случае моделей, обученных в формате BF16, переход к MXFP4 способен снизить затраты на 75%. Это делает его особенно привлекательным для облачных платформ и компаний, стремящихся запускать модели на доступной инфраструктуре.

По данным OpenAI, 90% весов в модели gpt-oss были переведены в формат MXFP4, благодаря чему 120-миллиардная модель смогла работать на GPU с 80 ГБ видеопамяти, а версия с 20 миллиардами параметров — на устройствах с 16 ГБ. При этом ускорение генерации токенов достигает четырёхкратного значения.

Прирост производительности объясняется тем, что при снижении разрядности формата увеличивается число операций с плавающей точкой, которое может выполнять чип. Например, B200 от NVIDIA способен обрабатывать около 2,2 петафлопс в BF16, но при переходе к FP4 производительность возрастает до 9 петафлопс. Даже при отсутствии поддержки FP4 на уровне оборудования, как в случае с H100, модели в формате MXFP4 работают корректно, хотя и не в полной мере эффективно.

Хотя идея квантования весов давно известна, многие модели в 4-битных или FP8-форматах воспринимаются как компромисс, связанный с потерей качества. В случае MXFP4 потери минимальны, но всё же существуют. NVIDIA, например, считает, что блоки из 32 значений недостаточно точны, и продвигает собственный формат NVFP4 с меньшими блоками и масштабированием на основе FP8 .

Тем не менее, выбор в пользу MXFP4 OpenAI уже сделала: моделей gpt-oss в формате BF16 или FP8 не существует. Это решение фактически транслирует сигнал отрасли: если OpenAI считает MXFP4 приемлемым, другим участникам рынка стоит как минимум присмотреться.

Для облачных провайдеров это может стать отличной новостью — обслуживание таких моделей потребует меньше ресурсов, а значит, станет дешевле и доступнее. И если другие компании последуют за OpenAI, переход к MXFP4 может стать индустриальным стандартом — не только по воле технологических аргументов, но и под влиянием позиций лидера.