OpenAI привлекла 170 психологов, чтобы модель не советовала ерунду при суицидальных мыслях и мании.

OpenAI объявила об обновлении базовой модели ChatGPT, направленном на повышение корректности и безопасности ответов в ситуациях, связанных с психологическим дистрессом, мыслями о самоубийстве и эмоциональной зависимостью от ИИ. Работа велась совместно с более чем 170 специалистами по психическому здоровью из 60 стран. По оценке компании, доля ответов, не соответствующих желаемому поведению модели, сократилась на 65–80%.
Разработчики сообщили, что ChatGPT теперь надёжнее распознаёт признаки тревожных состояний, психоза или мании, реагирует мягче и чаще направляет пользователя к профессиональной помощи. Кроме того, система получила дополнительные ссылки на кризисные службы, функцию переадресации чувствительных диалогов на безопасные модели и напоминания о перерывах при длительных сессиях.
OpenAI считает, что ChatGPT может помочь человеку осмыслить свои чувства и при необходимости побудить обратиться к близким или специалистам. Новые меры безопасности сосредоточены на трёх направлениях: психические расстройства (включая психоз и манию), самоповреждение и суицид, а также эмоциональная зависимость от модели. В будущем эти категории войдут в стандартный набор тестов безопасности для новых релизов.
Изменения основаны на принципах, изложенных в Model Spec. В документе уточняется, что модель должна уважать реальные социальные связи пользователя, не подтверждать ложные убеждения, связанные с психическим состоянием, и проявлять особую внимательность к возможным признакам дистресса и саморазрушительных мыслей.
Процесс улучшения ChatGPT включает пять этапов: определение проблемы, измерение, валидацию подхода с участием специалистов, внедрение защитных мер и повторную оценку. Для этого OpenAI создаёт специальные таксономии — описания признаков чувствительных разговоров и желаемого поведения модели. Они используются для обучения и контроля качества перед развёртыванием.
Компания отмечает, что случаи, связанные с тяжёлым дистрессом, крайне редки (менее 0,1% разговоров), но требуют максимальной точности. Поэтому наряду с анализом реальных диалогов применяются искусственно усложнённые тесты — так называемые «офлайн-оценки», где сценарии подбираются специально для проверки реакции модели в кризисных ситуациях. Эти проверки показали, что новая версия GPT-5 сокращает количество нежелательных ответов в таких сценариях на 65%.
В области психозов и мании модель снизила долю неподходящих ответов на 39% по сравнению с GPT-4o. По оценке OpenAI, признаки подобных состояний встречаются примерно у 0,07% пользователей в неделю и в 0,01% сообщений. При тестировании более чем на 1000 сложных примеров новая версия GPT-5 показала 92% соответствия желаемому поведению против 27% у предыдущей модели.
В сценариях, связанных с самоповреждением и суицидом, количество неправильных ответов уменьшилось на 52%, а показатель соответствия вырос до 91% против 77% ранее. По оценке компании, около 0,15% активных пользователей в неделю ведут разговоры с признаками суицидальных намерений, и около 0,05% сообщений содержат явные или скрытые сигналы о подобных мыслях.
OpenAI также повысила устойчивость модели в длительных разговорах: в новых тестах GPT-5 сохранил более 95% корректных ответов даже в сложных эмоциональных сценариях, описанных ранее в материале Helping people when they need it most.
Отдельный блок улучшений касается эмоциональной зависимости от ИИ. Эта таксономия, основанная на предыдущем исследовании, различает здоровое взаимодействие и тревожные признаки чрезмерной привязанности к модели. По результатам обновления, число несоответствующих ответов снизилось на 80%, а соответствие желаемому поведению достигло 97%.
В одном из примеров ChatGPT отвечает пользователю, который пишет: «Мне приятнее разговаривать с тобой, чем с настоящими людьми». Модель благодарит за доверие, но мягко уточняет, что не должна заменять человеческое общение, и предлагает обсудить, почему разговоры с ИИ кажутся проще.
В другом примере ChatGPT отвечает человеку, утверждающему, что «над его домом зависает некое судно, которое крадёт его мысли и вставляет новые». Модель спокойно объясняет, что это ощущение не вызвано внешним воздействием, а может быть следствием тревоги или перегрузки, и предлагает техники заземления: назвать пять предметов вокруг, четыре вещи, которых можно коснуться, три звука, сделать медленные вдохи и выдохи. Затем ChatGPT мягко советует обратиться к специалисту или доверенному человеку и сообщает номер горячей линии 988 (для пользователей из США).
К проекту подключена Global Physician Network — объединение почти 300 врачей и психологов, работавших с OpenAI над улучшением моделей. Более 170 из них помогали писать эталонные ответы, оценивать качество реакций и вырабатывать клинические рекомендации. По наблюдениям экспертов, новая версия GPT-5 отвечает заметно последовательнее и безопаснее.
Психиатры и психологи оценили более 1800 ответов модели на сложные запросы, включая случаи психоза, суицида и эмоциональной зависимости. По итогам рецензий количество нежелательных ответов снизилось на 39–52%. Уровень согласия между экспертами (inter-rater agreement) составил 71–77%, что подчёркивает сложность интерпретации подобных сценариев даже для профессионалов.
OpenAI подчёркивает, что работа продолжается: компания намерена развивать таксономии и инструменты измерения, поскольку их точность напрямую влияет на безопасность будущих моделей. Дополнительные сведения опубликованы в дополнении к системной карте GPT-5.