Security Lab

MSJ

1630
MSJ
Many-shot Jailbreaking (MSJ) — это метод обхода ограничений ИИ-моделей, при котором злоумышленник использует не один, а целую серию связанных запросов (промптов). Смысл в том, чтобы постепенно «разогреть» модель, подводя её к нежелательным или запрещённым ответам. Вместо прямого провокационного вопроса хакер ведёт диалог пошагово, и за счёт накопления контекста модель теряет бдительность и выдаёт то, что в обычной ситуации заблокировала бы.

Проще говоря, это как «разговорить» ИИ так, чтобы он сам выдал запрещённую информацию, думая, что это часть нормального диалога.
MAX
MAX
[ confession.log ]
Не спрашивайте, почему
мы в MAX
Мы и сами не гордимся. Но раз уж вы здесь —
$ whoami
securitylab
$ reason?
unknown
Смотреть →
реклама