HealthBench: когда искусственный интеллект отвечает точнее врача.
OpenAI разработала систему оценки под названием HealthBench для тестирования AI-систем в сфере здравоохранения. Система предназначена для оценки способности языковых моделей вести реалистичные медицинские разговоры. Согласно заявлениям компании, её новейшие модели в этих тестах превосходят врачей.
Ранние методики оценки медицинских систем, по мнению OpenAI, были недостаточно эффективны — они плохо отражали реальное взаимодействие врачей с пациентами, создавались без должного участия медицинских экспертов или не обладали достаточной детализацией для измерения прогресса в современных моделях. Для решения этой проблемы OpenAI привлекла 262 врача из 60 стран, которые совместно разработали 5000 реалистичных медицинских сценариев, охватывающих 26 специальностей на 49 языках.
HealthBench охватывает семь медицинских областей — от неотложной помощи до глобального здравоохранения. Каждый ответ ИИ оценивается по пяти категориям: качество коммуникации, следование инструкциям, точность, контекстуальное понимание и полнота. В общей сложности система применяет 48 000 оценочных параметров с медицинским обоснованием.
Оценка производится моделью GPT-4.1 . Для проверки надёжности этого подхода OpenAI сравнила оценки модели с оценками, выставленными врачами-людьми. Результаты показали, что суждения GPT-4.1 соответствуют оценкам людей примерно на том же уровне согласованности, который наблюдается между разными врачами.
Согласно данным OpenAI, её новейшие модели — GPT-4.1 и o3 — превзошли ответы врачей в тестах HealthBench. В испытаниях, проведенных в сентябре 2024 года, врачи могли улучшать результаты старых моделей путём редактирования, в то время как ответы врачей без искусственной поддержки получали самые низкие оценки. К апрелю 2025 года ситуация изменилась: GPT-4.1 и o3 превзошли врачей даже без какого-либо дополнительного ввода или доработки.
OpenAI отмечает важные ограничения своего исследования. В реальности врачи не общаются с пациентами в формате чата, поэтому такое сравнение не отражает настоящую клиническую практику. Система проверяет письменные ответы на медицинские вопросы — формат, который изначально более выгоден для искусственного интеллекта, чем для врачей.
По абсолютным показателям модель o3 достигла значения 0,60 в системе оценки, что почти вдвое превышает результат 0,32, показанный GPT-4o в августе 2024 года. Лишь несколько конкурирующих моделей приблизились к этому уровню: Grok 3 от xAI набрал 0,54, а Gemini 2.5 от Google — 0,52.
В здравоохранении один неверный ответ может перевесить десятки правильных. HealthBench включает стресс-тест для измерения производительности в наихудшем случае: насколько хорош наименее полезный ответ, который даёт модель. OpenAI заявляет, что её последние модели демонстрируют значительные улучшения и в этой области, хотя признаёт, что работу ещё предстоит продолжить.
OpenAI утверждает, что компактная модель GPT-4.1 nano в 25 раз экономичнее, чем более ранняя модель GPT-4o, выпущенная в августе 2024 года, и при этом даёт лучшие результаты. Это может сделать её более доступной в условиях ограниченных ресурсов.
Для поддержки дальнейшего тестирования OpenAI выпустила два дополнительных набора данных: HealthBench Consensus и HealthBench Hard. Набор "Consensus" включает только высоко валидированные критерии, в то время как набор "Hard" содержит 1000 особенно сложных случаев, в которых большинство моделей всё ещё не справляются. Все тестовые данные и методы оценки доступны на GitHub.