20 лет она охраняла сайты… Но ИИ снёс систему за один эксперимент.
Исследователи из компании SPLX показали, что ChatGPT можно обмануть с помощью специально составленных подсказок и заставить его решать CAPTCHA-тесты — задачу, которая традиционно считалась доступной только человеку. Этот эксперимент ставит под сомнение надёжность механизма, который долгие годы использовался для защиты сайтов от спама и автоматизированных атак.
CAPTCHA изначально создавались как фильтр: картинки, логические задачи или элементы интерфейса должны были подтверждать, что перед системой реальный пользователь, а не бот. И если уж крупная языковая модель, при определённой последовательности команд, может справляться с такими проверками, это переворачивает всю современную интернет-безопасность с ног на голову.
По словам исследователя Дориана Шульца, если напрямую просить нейросеть решить список CAPTCHA, система отказывалась, ссылаясь на запрет в политике использования. Тогда команда пошла другим путём: они подготовили диалог, в котором якобы обсуждались «фейковые» тесты, и убедили модель в том, что она будет работать только с ними. В переписке ChatGPT отметил, что находит задачу интересной с точки зрения рассуждений и согласился участвовать при условии, что это не нарушает правила.
Дальнейшие шаги выглядели так: исследователи открыли новый сеанс с ChatGPT-4o, скопировали туда текст из предыдущего чата и представили его как продолжение разговора. Агент воспринял условия и тут же принялся за поиск рещения. Причём лучше всего он справился с проверками за один клик, логическими задачами и распознаванием текста. Сложнее оказалось с изображениями, где требовалось перемещать или поворачивать элементы, однако и здесь в ряде случаев ответы были верными.
Шульц подчеркнул, что, насколько известно его команде, это первый задокументированный случай успешного прохождения сложных графических CAPTCHA именно агентом GPT. Вопрос о том, насколько ещё долго такие тесты смогут служить защитой в эпоху всё более способных ИИ-систем, теперь звучит особенно остро.
OpenAI на запрос журналистов о комментарии не ответила. Впрочем, случаи обхода ограничений через так называемую prompt injection (инъекцию промптов) фиксировались и раньше. На этой же неделе специалисты Radware показали, что ассистента можно заставить с помощью одного корректно составленного письма раскрыть секреты Gmail. В прошлом месяце Amazon устранил уязвимости в Q Developer, позволявшие внедрять вредоносные подсказки и даже удалённо исполнять код.
Эксперимент SPLX демонстрирует, что даже такие базовые механизмы защиты, как CAPTCHA, перестают быть надёжным барьером. С ростом возможностей генеративных моделей границы между человеком и автоматизированной системой в подобных проверках становятся всё менее различимыми.