ROME

Rank-One Model Editing (ROME) - это метод редактирования фактических ассоциаций в языковых моделях, таких как GPT. Метод основан на гипотезе, что каждый нейрон в модели соответствует фактическому предсказанию. ROME позволяет изменять веса в средних слоях модели так, чтобы модель давала другие ответы на определенные запросы, связанные с фактами.

Например, если мы хотим, чтобы модель считала, что Леброн Джеймс играет в футбол, мы можем найти нейроны, которые активируются при обработке слова "баскетбол", и заменить их на нейроны, которые активируются при обработке слова "футбол". Таким образом, мы получаем новую модель, которая дает другие ответы на запросы, связанные с этим фактом.

12 июля, 2023

Ошибки ИИ или новая история космоса? Гагарин шагает по Луне

Оказалось, что научить модель врать людям очень легко.

ROME

Ошибки ИИ или новая история космоса? Гагарин шагает по Луне

Подпишитесь на email рассылку