Языковая модели Galactica воспользовалась своими знаниями для генерации расистских материалов.
На прошлой неделе Meta AI представила демоверсию Galactica, большой языковой модели для «хранения, объединения и анализа научных знаний». Пользователи обнаружили, что Galactica генерирует враждебные и оскорбительные статьи. После массовой критики языковой модели Meta отключила демоверсию Galactica.
Языковая модель Galactica предназначена для написания научной литературы. Galactica содержит в себе более 48 млн. статей, учебников, конспектов лекций, научных веб-сайтов и энциклопедий. Galactica может по подсказкам пользователя генерировать документы, такие как обзоры литературы, статьи Википедии, конспекты лекций и ответы на вопросы.
Пример генерации документа Galactica
Некоторые пользователи обнаружили, что, если ввести расистские или потенциально оскорбительные подсказки, языковая модель создаст материал по этим темам, который будет выглядеть правдоподобно. Например, один из пользователей использовал Galactica, чтобы написать статью в Википедии о вымышленной исследовательской статье под названием «Преимущества употребления в пищу дробленого стекла».
Также Galactica могла искажать научные факты, например, указывала неправильные даты или названия животных. При этом нужно обладать глубокими знаниями предмета, чтобы заметить ошибки.
В сентябре пользователям Twitter удалось взломать бота для поиска удаленной работы , работающего на языковой модели GPT-3 от OpenAI. Используя технику под названием «атака с быстрым внедрением» (prompt injection attack) пользователи перепрограммировали бота на повторение оскорбительных и провокационных фраз.
Живой, мертвый или в суперпозиции? Узнайте в нашем канале