Учёные раскрыли, как снизить затраты на обучение больших языковых моделей.
Специалисты из Microsoft и Бэйханского Университета разработали инновационную технику для тонкой настройки больших языковых моделей (LLM), которая значительно снижает затраты.
Новая методика «MoRA» представляет собой параметрически эффективную технику тонкой настройки (PEFT), устраняющую ограничения другого популярного метода – LoRA (low-rank adaptation). MoRA особенно полезна, когда необходимо обучить модель новым знаниям. С ростом популярности PEFT-методов в бизнес-среде, MoRA может стать важным инструментом для разработчиков LLM-приложений.
Преимущества и недостатки LoRA
Классическая тонкая настройка требует обновления всех параметров модели, что становится затратным и медленным процессом при наличии миллиардов параметров. PEFT-методы позволяют найти оптимальное подмножество параметров, необходимых для настройки модели под конкретную задачу.
LoRA стала популярной благодаря способности обновлять параметры через матрицы низкого ранга, что значительно снижает требования к памяти. Однако LoRA не всегда справляется с более сложными задачами, такими как математическое рассуждение и постоянное предварительное обучение.
Введение MoRA
LoRA (слева) использует матрицы низкого ранга, а MoRA (справа) использует одну квадратную матрицу для точной настройки с эффективным использованием параметров
Для устранения ограничений LoRA учёные представили MoRA, которая использует квадратные матрицы вместо низкоранговых. Главная идея MoRA заключается в использовании обучаемых параметров для достижения максимального ранга в пространстве исходных размеров модели. В отличие от LoRA, входные и выходные размеры адаптера MoRA не совпадают с исходной моделью, поэтому была разработана функция сжатия/декомпрессии, которая преобразует данные между двумя пространствами.
Результаты тестирования MoRA
Кривая потерь MoRA очень похожа на полную настройку для задач по запоминанию знаний
Тестирование моделей LoRA и MoRA одинакового размера показало, что MoRA значительно превосходит LoRA в задачах запоминания и приближается к производительности полностью настроенной модели. В задачах настройки инструкций и математического рассуждения MoRA показала результаты, сравнимые с LoRA, но в постоянном предобучении в биомедицинской и финансовой сферах MoRA превзошла LoRA.
PEFT для бизнеса
Тонкая настройка является важной задачей для корпоративных приложений LLM. Она позволяет компаниям использовать меньшие модели для задач, ранее требовавших дорогих передовых моделей. LoRA и её варианты являются золотым стандартом параметрически эффективной тонкой настройки. Существует множество инструментов и платформ для создания адаптеров LoRA, таких как S-LoRA, позволяющий запускать тысячи адаптеров на одном GPU.
Ученые выпустили реализацию MoRA с открытым исходным кодом, совместимую с LoRA. Это может оказаться важным инструментом для корпоративных приложений, которые хотят добавить новые знания в базовые модели.
Одно найти легче, чем другое. Спойлер: это не темная материя