Gandalf — киберполигон, который не прошёл тест на безопасность

Gandalf — киберполигон, который не прошёл тест на безопасность

Платформа для обучения взлому нейросетей сама стала угрозой конфиденциальности.

image

Швейцарская компания Lakera AI, разработчик образовательной платформы Gandalf, предназначенной для обучения рискам атак типа «prompt injection» в больших языковых моделях (Large Language Model, LLM), недавно устранила уязвимость в своей системе. Эксперты по безопасности обнаружили публично доступную панель аналитики, которая предоставляла информацию о запросах, отправленных игроками, и связанных с ними метриках.

Gandalf была запущена в мае и представляет собой веб-форму, которая позволяет пользователям в игровой форме попытаться обмануть базовую LLM, используя API от OpenAI. Целью является выявление паролей в игре путем последовательного выполнения все более сложных задач.

Панель аналитики была обнаружена австралийской консалтинговой компанией по безопасности Dvuln. По данным Dvuln, сервер показывал более 18 миллионов запросов от пользователей, 4 миллиона попыток угадать пароль, а также другие игровые метрики.

Отмечается, что данные не содержат персональной информации и не являются конфиденциальными. Однако некоторые игроки вводили в игру свои электронные адреса, которые стали доступны через панель.

В Dvuln подчеркнули, что, Gandalf задача является симуляцией, созданной для иллюстрации рисков, связанных с LLM, отсутствие адекватных мер безопасности при хранении данных заслуживает внимания.

Инцидент ставит под сомнение не только безопасность Gandalf, но и вопросы конфиденциальности и безопасности, связанные с использованием LLM-моделей в целом. Ситуация подчеркивает необходимость строгих протоколов безопасности, даже в системах, созданных для образовательных или демонстрационных целей.