RLHF

Как заставить ИИ перестать врать и саботировать? Anthropic знает: разрешить ему это

Исследование Anthropic показало, что мягкое разрешение обходов снижает риск несоответствия моделей.

Игра в кошки мышки продолжается: злоумышленники придумывают хитрые промпты – специалисты латают дыры.