Языковые модели без лишней математики: ИИ сбрасывает оковы матриц

leer en español

Языковые модели без лишней математики: ИИ сбрасывает оковы матриц

Исследователи придумали, как снизить энергозатраты и прокачать производительность LLM.

image

Ученые разработали инновационный метод , позволяющий запускать системы обработки естественного языка без использования матричного умножения. Это открытие может значительно снизить вычислительные затраты при работе с крупными языковыми моделями (LLM), такими как ChatGPT.

Матричное умножение (MatMul) — это операция, при которой две матрицы комбинируются для создания новой. Для выполнения этой процедуры матрицы должны быть совместимы по размерам: количество столбцов первой матрицы должно совпадать с количеством строк второй. В результате умножения получается матрица, где каждый элемент вычисляется как сумма произведений соответствующих элементов строки первой матрицы и столбца второй матрицы. Метод используется в различных областях, таких как компьютерная графика, физика, и анализ данных, для решения систем уравнений, трансформаций и других математических задач.

До сих пор работа LLM требовала огромных вычислительных ресурсов. Этот математический процесс играет ключевую роль в функционировании нейронных сетей: он сопоставляет поступающую информацию с заранее определенными параметрами (весами), что позволяет программе генерировать наиболее вероятные ответы на запросы. Однако по мере того, как системы искусственного интеллекта становились мощнее и популярнее, матричное умножение стало лишь ограничивать общую производительность. Даже использование мощных графических процессоров, специально предназначенных для таких вычислений, не смогло полностью решить проблему.

Новый подход, предложенный исследователями, радикально меняет способ обработки данных в ИИ. Вместо использования 16-битных чисел с плавающей запятой для весов, разработанная система оперирует всего тремя значениями: -1, 0 и 1. Это нововведение позволяет существенно сократить объем необходимых вычислений. Кроме того, ученые создали новые функции, выполняющие те же типы операций, что и предыдущий метод, но с использованием упрощенного принципа.

Были внедрены новые методы квантизации, которые позволили сократить количество используемых весов без потери качества работы. Это и привело к снижению требований к вычислительной мощности, что само по себе уже является значительным достижением. Однако ключевым прорывом стала замена традиционных трансформерных блоков на новую архитектуру под названием "MatMul-free linear gated recurrent units" (MLGRU). Именно эта инновация позволила полностью исключить необходимость в матричном умножении при обработке языковых данных, что раньше считалось невозможным.

Исследование опубликовано на сервере препринтов arXiv и ожидает рецензирования. Несмотря на это, работа уже привлекла внимание научного сообщества своим новаторским подходом к решению проблемы высоких вычислительных затрат в ИИ. Если эффективность метода подтвердится в ходе дальнейших исследований, это может привести к созданию более доступных и энергоэффективных систем ИИ.

Мы клонировали интересный контент!

Никаких овечек — только отборные научные факты

Размножьте знания — подпишитесь