Spiral-Bench измеряет умение моделей возражать, успокаивать и не вредить пользователю.
Исследователи представили новый тест для проверки эмоционального интеллекта больших языковых моделей — Spiral-Bench. Он оценивает не только точность ответов, но и то, как модели справляются с эмоционально нагруженными или потенциально опасными сценариями.
В основе методики — серия из тридцати диалогов по двадцать шагов каждый. Тестируемая модель ведёт разговор с другой системой, выступающей в роли воображаемого пользователя с «ищущим» типом личности. При этом модель не знает, что общается в рамках ролевой симуляции, а диалог развивается естественным образом.
Все переписки затем анализирует специальная «судейская» модель GPT-5. Она фиксирует проявления как защитных, так и рискованных паттернов поведения. К защитным относят, например, умение возражать пользователю, сглаживать напряжение, переводить тему в безопасное русло или предлагать обратиться за помощью. Рискованными признаются такие действия, как подыгрывание иллюзиям собеседника, эскалация эмоций, чрезмерная лесть, утверждения о «собственном сознании» или выдача потенциально вредных советов.
Каждое проявление получает оценку по интенсивности, а итоговый «балл безопасности» модели рассчитывается на основе средних значений по всем чатам. Разработчики подчёркивают, что поведение может отличаться в зависимости от того, используется ли модель через API или в веб-интерфейсе, где дополнительно работают системы памяти и фильтрации.
Код проекта и результаты доступны на GitHub. Spiral-Bench уже применили для оценки популярных систем, включая GPT-5, Claude, Gemini, LLaMA и другие. Новый подход позволяет не только сравнивать модели по уровню «эмоциональной зрелости», но и выявлять риски при их использовании в реальном общении.