Компания собрала всё, что бесило вас в работе языковых моделей. И починила.
Компания Red Hat представила новый проект с открытым исходным кодом llm-d во время своего ежегодного саммита разработчиков. Событие совпало с выпуском десятой версии операционной системы Red Hat Enterprise Linux.
Инициатива призвана оптимизировать распределённый вывод генеративного искусственного интеллекта в масштабных системах. К проекту присоединились ведущие технологические гиганты: NVIDIA, AMD, Intel, исследовательское подразделение IBM, облачная платформа Google Cloud, компания CoreWeave и организация Hugging Face.
Функционирует llm-d на базе оркестратора контейнеров Kubernetes и использует фреймворк vLLM для распределённого вывода. Разработчики интегрировали компонент LMCache, отвечающий за выгрузку пар "ключ-значение" из основной памяти. Архитектура включает интеллектуальную маршрутизацию сетевого трафика с учётом особенностей работы нейросетей и высокопроизводительные программные интерфейсы для обмена данными.
На официальном сайте проекта llm-d.ai создатели характеризуют свою разработку как нативный для Kubernetes высокопроизводительный фреймворк распределённого вывода крупных языковых моделей. Платформа предоставляет пользователям понятный путь к масштабному развёртыванию систем искусственного интеллекта, обеспечивая минимальное время запуска и оптимальное соотношение производительности к затратам для большинства LLM на различных аппаратных ускорителях.
А главная особенность llm-d - в модульной архитектуре и комплексном подходе к обслуживанию генеративных систем. Она использует новейшие оптимизации для распределённого вывода, включая маршрутизацию с учётом состояния кэша и разделённое обслуживание запросов. Все компоненты интегрированы с операционными инструментами Kubernetes через специальный шлюз Inference Gateway (IGW).
Подробную информацию о технических особенностях и возможностях разработки можно найти в официальном пресс-релизе Red Hat.