Это самая большая и самая мощная монолитная трансформаторная языковая модель, обученная на сегодняшний день.
Компании Nvidia и Microsoft анонсировали разработанную ими совместно крупнейшую на сегодняшний день языковую модель на архитектуре трансформер, получившую название Megatron-Turing Natural Language Generation (MT-NLG).
MT-NLG обладает в три раза большим количеством параметров по сравнению с предыдущей крупнейшей ИИ-системой GPT-3 (175 млрд). В число функций MT-NLG входят:
Обучение столь мощной модели стало возможным благодаря многочисленным инновациям. Например, Nvidia и Microsoft объединили современную инфраструктуру обучения на основе GPU с передовым программным стеком распределенного обучения. Были созданы базы данных естественного языка, включающие сотни миллиардов единиц контента, а также разработаны методы обучения для повышения эффективности и стабильности оптимизации.