Опубликован код системы, которая чистит звук лучше любых слуховых аппаратов.

Исследователи из Университета Вашингтона представили прототип умных наушников с ИИ, которые помогают разбирать речь в шумных помещениях. Когда вокруг играет музыка, звенят тарелки и одновременно говорят десятки людей, большинству приходится напрягаться, чтобы услышать собеседника. Для людей с нарушениями слуха такая нагрузка становится непреодолимой, и команда решила создать систему, которая автоматически отделяет голоса участников разговора от фонового хаоса.
Новый прототип не требует ручных действий. В отличие от устройств, где нужно выбирать источник звука, эти наушники сами определяют, кто именно участвует в беседе, и подавляют голоса, не соответствующие ритму диалога. Одна модель анализирует временные характеристики речи, другая очищает аудиосигнал от нерелевантных звуков. Технологии достаточно двух-четырёх секунд, чтобы определить собеседников.
Работа была представлена 7 ноября в Сучжоу на конференции EMNLP, а код открыт. Исследователи считают, что такие модели могут лечь в основу будущих слуховых аппаратов, наушников и умных очков. Старший автор проекта Шьям Голлакотта отметил, что существующие методы часто оказываются чрезмерными, так как предполагают имплантацию электродов в мозг для отслеживания внимания. Команда решила, что естественный ритм смены реплик даёт гораздо более удобный и безопасный путь: ИИ можно обучить отслеживать этот ритм, используя только звук.
Система активируется, когда пользователь начинает говорить. Сначала работает модель, определяющая, кто говорит и когда, с учётом минимального перекрытия голосов. Затем в дело вступает вторая модель, очищающая звук и передающая в ухо уже выделенный голос. Прототип поддерживает разговоры с участием пользователя и до четырёх людей без заметной задержки. В тестировании приняли участие 11 человек, которые сравнивали качество слышимости с фильтрами и без них. Версия с ИИ показала более чем двукратное улучшение по параметрам разборчивости, подавления шума и общей понятности речи.
Проект развивает предыдущие идеи команды. Ранние варианты требовали, чтобы пользователь смотрел на человека, чтобы сфокусироваться на его речи, или вручную регулировал «аудиопузырь» по расстоянию. Новое решение исключает такие шаги: система сама предсказывает намерения слушателя и действует проактивно. При этом существуют ограничения. Ситуации, где люди перебивают друг друга, говорят вразнобой или внезапно подключаются к разговору, по-прежнему создают трудности для отслеживания.
Модели обучались на английском, мандаринском и японском языках. Для других языков могут потребоваться корректировки. Текущий прототип выполнен на базе коммерческих накладных наушников и простой электроники, но Голлакотта ожидает, что технология легко поместится в маленькие устройства, включая слуховые аппараты или миниатюрные беспроводные наушники. Похожая работа группы, представленная на MobiCom 2025, уже показала, что подобные модели могут работать на чипах, помещающихся в устройство размером со слуховой аппарат. Исследование опубликовано в ACL Anthology как часть сборника EMNLP 2025.