Security Lab

ROME

Rank-One Model Editing (ROME) - это метод редактирования фактических ассоциаций в языковых моделях, таких как GPT. Метод основан на гипотезе, что каждый нейрон в модели соответствует фактическому предсказанию. ROME позволяет изменять веса в средних слоях модели так, чтобы модель давала другие ответы на определенные запросы, связанные с фактами.

Например, если мы хотим, чтобы модель считала, что Леброн Джеймс играет в футбол, мы можем найти нейроны, которые активируются при обработке слова "баскетбол", и заменить их на нейроны, которые активируются при обработке слова "футбол". Таким образом, мы получаем новую модель, которая дает другие ответы на запросы, связанные с этим фактом.

Ошибки ИИ или новая история космоса? Гагарин шагает по Луне

Оказалось, что научить модель врать людям очень легко.