Security Lab

XPIA

1620
XPIA
XPIA (Cross-Prompt Injection Attack) — это атака, при которой вредоносные команды скрываются внутри текста, который затем попадает в языковую модель в другом контексте, например, в цепочке запросов. Модель, не распознавая подвоха, может выполнить эти скрытые инструкции, что приводит к утечке данных, изменению поведения или другим последствиям. Чтобы защититься от XPIA, применяют фильтрацию входных данных, выявление скрытых команд и контроль над тем, как и откуда модель получает информацию.
÷
Антипов
Свой
Чужой
Животных ты делишь на обед и семью. Людей — на своих и чужих.
И каждый раз думаешь, что это решает разум.
Читать →

Copilot вспомнил слишком много — и без колебаний слил всё незнакомцам

Данные ушли не потому, что кто-то кликнул, а потому, что кто-то спросил.