58% побед над человеком — консилиум ИИ-агентов находит Альцгеймер там, где живой врач ставит "здоров"

58% побед над человеком — консилиум ИИ-агентов находит Альцгеймер там, где живой врач ставит "здоров"

Новая нейросеть читает "между строк" вашей старой медкарты, выявляя угасание разума.

image

Команда исследователей Mass General Brigham разработала одну из первых полностью автономных систем искусственного интеллекта, которая умеет находить признаки когнитивных нарушений прямо в обычных клинических заметках. После внедрения алгоритм работает самостоятельно и при проверке на реальных данных показал 98% специфичности.

Параллельно авторы открыли доступ к инструменту Pythia. Он позволяет больницам и исследовательским организациям внедрять такой же механизм автоматической настройки промптов для собственных систем скрининга на базе ИИ.

Вместо одного алгоритма разработчики собрали архитектуру из пяти отдельных агентов. Каждый из них анализирует медицинские записи по своему сценарию, проверяет выводы остальных и предлагает правки. В итоге система ведёт себя как группа врачей, которые обсуждают один случай и уточняют решения друг друга.

Когнитивные расстройства часто остаются незамеченными на ранних этапах. Обычные тесты требуют времени, участия специалистов и дополнительных визитов, поэтому диагноз нередко ставят уже на поздних стадиях. Проблема стала ещё острее после появления лекарств против болезни Альцгеймера, которые дают наибольший эффект именно при ранней диагностике.

Алгоритм работает на базе большой языковой модели с открытыми весами и полностью разворачивается внутри ИТ-инфраструктуры больницы. Никакие данные не передаются во внешние сервисы. Агенты по кругу пересматривают тексты и уточняют выводы, пока результат не станет достаточно точным.

Для проверки команда проанализировала более 3 300 клинических заметок от 200 анонимизированных досье пациентов. Все они были созданы во время обычных врачебных визитов. Система ищет в этих текстах малозаметные сигналы снижения памяти и мышления, превращая рутинную документацию в инструмент раннего скрининга.

Когда выводы ИИ расходились с мнением специалистов, каждый такой случай дополнительно оценивал независимый эксперт. В 58% спорных эпизодов он признал аргументацию системы более обоснованной, чем первоначальные решения людей.

Разбор ошибок показал, где алгоритм пока работает хуже. Сложности возникали там, где когнитивные проблемы упоминались только в структурированных разделах медкарты без пояснений в тексте. Кроме того, система иногда не распознавала отдельные клинические признаки из-за нехватки узкопрофильных знаний. При наличии подробных описаний точность заметно повышалась.

При тестировании в лаборатории систему проверяли на выборке, где число пациентов с признаками когнитивных нарушений и без них было одинаковым. В таких условиях алгоритм правильно находил 91% случаев, где проблемы действительно присутствовали. Однако при проверке на данных, близких к реальной клинической практике, где доля пациентов с нарушениями составляла около 33%, точность выявления снизилась до 62%. При этом система почти не ошибалась в обратную сторону и в 98% случаев корректно определяла пациентов без когнитивных проблем. Исследователи отдельно подчеркнули этот разрыв, чтобы показать, как меняется работа ИИ вне лаборатории и какие параметры ещё требуют донастройки.