Security Lab

ROME

1626
ROME
Rank-One Model Editing (ROME) - это метод редактирования фактических ассоциаций в языковых моделях, таких как GPT. Метод основан на гипотезе, что каждый нейрон в модели соответствует фактическому предсказанию. ROME позволяет изменять веса в средних слоях модели так, чтобы модель давала другие ответы на определенные запросы, связанные с фактами.

Например, если мы хотим, чтобы модель считала, что Леброн Джеймс играет в футбол, мы можем найти нейроны, которые активируются при обработке слова "баскетбол", и заменить их на нейроны, которые активируются при обработке слова "футбол". Таким образом, мы получаем новую модель, которая дает другие ответы на запросы, связанные с этим фактом.

DATA LOSS PREVENTION
DLP
[ Гайд · 2026 ]

Как выбрать DLP-систему в 2026 году

Разбираем, как меняются критерии выбора DLP-систем и что теперь важно бизнесу.

Узнать →
Критерии обновлены
Реклама. 16+ ООО «Гарда Технологии», ИНН: 5260443081

Ошибки ИИ или новая история космоса? Гагарин шагает по Луне

Оказалось, что научить модель врать людям очень легко.