Google разработала языковую модель PaLM с 540 млрд параметров

Google разработала языковую модель PaLM с 540 млрд параметров

PaLM умеет математически логически рассуждать, пояснять свои действия, писать код и даже пробовать объяснять свое понимание шуток.

Компании создают все более и более крупные системы обработки языка, хотя по-прежнему страдают от одних и тех же недостатков — они могут генерировать токсичный, предвзятый и неточный текст. Эксперты возражали против увеличения языковых моделей и утверждали, что программное обеспечение не понимает язык и просто повторяет шаблоны, наблюдаемые в обучающих данных. По словам специалистов, следует уделить больше времени и усилий на изобретение новых алгоритмов, которые меньше по размеру и требуют меньше вычислений, вместо простого увеличения размеров существующих архитектур.

Тем не менее, разработанная исследователями из Google система обработки и генерации текста на основе преобразователя с 540 млрд параметров показывает, что производительность языковых моделей все еще может улучшаться с увеличением размера.

«Мы оценили Pathways Language Model (PaLM) на сотнях задач понимания и генерации языка. Она обеспечивает современную производительность в несколько шагов для большинства задач», — сообщили специалисты из Google Research.

PaLM лучше справлялся с широким кругом задач, от ответов на вопросы и понимания прочитанного до рассуждений на основе здравого смысла, чем системы OpenAI GPT-3, Nvidia и Microsoft Megatron-Turing NLG, а также языковые модели DeepMind Chinchilla и Gopher. PaLM был обучен с использованием 6144 чипов в двух модулях Cloud TPU v4, что на сегодняшний день является крупнейшей конфигурацией системы обучения Google.

Несмотря на возможности PaLM, система по-прежнему генерирует оскорбительный и ложный текст и отражает предвзятость в своих обучающих данных. Например, мусульмане чаще ассоциируются со стереотипами о насилии или терроризме. Как и другие языковые модели, PaLM обучался на тексте, взятом из интернета. Кроме того, 50% обучающих данных поступают из разговоров в социальных сетях.

Как отметили специалисты, PaLM «демонстрирует прорывные возможности в решении множества очень сложных задач». Система способна объяснять шутки и выполнять многошаговые арифметические задачи, а также восстанавливать неработающий код.

PaLM используется в исследовательских целях. Сотрудники Google разработали модель как доказательство концепции масштабирования языковой модели с использованием архитектуры Pathways. Цель состоит в том, чтобы поэкспериментировать с новой техникой и однажды создать единую систему ИИ, которая может обобщать тысячи или миллионы задач и обучаться на разных типах данных.

Кодовое слово дня — безопасность.

Узнай больше — подпишись на нас!